【DEDE采集大师官方留后门的删除办法】教程文章相关的互联网学习教程文章

PHP使用CURL_MULTI实现多线程采集的例子_php实例

这两天有一客户定制了一个免登录发布模块,因为在模块中需要涉及到很多图片下载的问题,考虑到性能问题,所以特别写了一个CURL_MULTI远程采集网页的函数,以方便以后使用,估计以后都不会使用原来的单线程curl函数去foreach了,其性能对比很明显的。同样获取我的博客的十个不同网页,curl_multi:4.5246081352234,file_get_contents:33.001797914505,将近8倍的效率,可想而知,如果在附件更多的情况下,性能差异就越明显了,希望对...

基于PHP的简单采集数据入库程序【续篇】_php实例【图】

在上篇文章中,我们已经采集新闻信息页的列表数据,接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行 新建一个content表 不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段。 这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此...

PHP采集静态页面并把页面css,img,js保存的方法_php技巧

本文实例讲述了PHP采集静态页面并把页面css,img,js保存的方法。分享给大家供大家参考。具体分析如下: 这是一个可以获取网页的html代码以及css,js,font和img资源的小工具,主要用来快速获取模板,如果你来不及设计UI或者看到不错的模板,则可以使用这个工具来抓取网页和提取资源文件,提取的内容会按相对路径来保存资源,因此你不必担心资源文件的错误url导入. 首页 index.php,代码如下:代码如下: 网页抓取器 Web Grabber Url Get Sav...

php采集内容中带有图片地址的远程图片并保存的方法_php技巧【图】

本文实例讲述了php采集内容中带有图片地址的远程图片并保存的方法。分享给大家供大家参考。具体实现方法如下:代码如下:function my_file_get_contents($url, $timeout=30) { if ( function_exists(curl_init) ) { $ch = curl_init(); curl_setopt ($ch, curlopt_url, $url); curl_setopt ($ch, curlopt_returntransfer, 1); curl_setopt ($ch, curlopt_connecttimeout, $timeout); $file_contents = curl_exec($ch); curl_close(...

php采集自中央气象台范围覆盖全国的天气预报代码实例_php技巧

本文实例讲述了php采集自中央气象台范围覆盖全国的天气预报代码。分享给大家供大家参考。具体分析如下: 天气预报信息采集自中央气象台,信息准确,覆盖面广,代码简单,返回是json代码,可以用于客户端调用,也可以在服务器端处理后显示,笔者的wordpress天气预报插件就是使用的这段代码,需要注意的是,这段代码会在服务器产生缓存文件,需要在当前目录中新建data文件夹,保证文件夹可写. php天气预报代码如下:代码如下:/* 作者: freem...

PHP实现采集抓取淘宝网单个商品信息_php技巧【图】

调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。 思路: file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图...

php将HTML表格每行每列转为数组实现采集表格数据的方法_php技巧

本文实例讲述了php将HTML表格每行每列转为数组实现采集表格数据的方法。分享给大家供大家参考。具体如下: 下面的php代码可以将HTML表格的每行每列转为数组,采集表格数据 <?php function get_td_array($table) {$table = preg_replace("<table[^>]*?>si","",$table);$table = preg_replace("<tr[^>]*?>si","",$table);$table = preg_replace("<td[^>]*?>si","",$table);$table = str_replace("","{tr}",$table);$table = str_repl...

php采集中国代理服务器网的方法_php技巧【图】

本文实例讲述了php采集中国代理服务器网的方法。分享给大家供大家参考。具体如下: <?php /*** 采集中国代理服务器网 最新列表*/ class proxy {/* 需采集列表 */public $list;/* 代理列表 保存路径 */public $save_path = proxy.txt;/* 获取采集列表 */function get_list($page){$url = http://www.cnproxy.com/proxy(*).html;// 处理列表$this->list = preg_replace(/\(\*\)/, $page, $url);return $this->list;}/* 采集代理内容...

PHP音乐采集(部分代码)

<?PHP set_time_limit(0); mysql_connect("localhost","root",""); mysql_select_Db("music_36g"); $ip = '127.0.0.1'; function _GetIP() { $ip = getenv("REMOTE_ADDR"); $ip1 = getenv("HTTP_X_FORWARDED_FOR"); $ip2 = getenv("HTTP_CLIENT_IP"); ($ip1) ? $ip = $ip1 : null ; ($ip2) ? $ip = $ip2 : null ; return $ip; } function MakePassword($length=10) { ...

一个数据采集类

代码如下:<? // 兼容 php4 php5 // 程序作者 张建 52linux.com(我爱Linux) // 联系方法 733905@qq.com QQ 733905 // 简单调用方法 /* <? include ("ugs.php"); // 你可以下载本ugs.phps 然后重命名为ugs.php $ugs = new ugs(); $url = "http://domainname.com/path_to_your_target?param"; $ugs->seturl($url); $ugs->gather(); //............这里可以调用本类里的其它方法,对$ugs->value_ 做调整, 以满足您的要求 $content...

初级的用php写的采集程序

可以先用这个采集然后在用帝国处理 <?php #################################################################################### #作者:9elong #网站:个人小站不值一提 #时间:2007-01-01 #声明:仅用于学习php之用。 #功能:采集单页面图片。 #说明:3个示范表单已经写好正则用来示范。没有任何功能说明,一切都在源代码里。附加论坛图片采集正则示范 ####################################################################...

火车头采集器3.0采集图文教程【图】

以采集示例详解部分功能今天要给大家做示例的网站是163的 娱乐频道 这个应该是个比较通用和实用的规则,下面开始。如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。以下是一些采集的基本步骤,您可以灵活运用:一、建立站点1、请先打开火车采集器,新建站点,看下图:为了方便管理您可以为您的站点取任何的您...

dedecms采集中可以过滤多行代码的正则表达式

过去用dede采集,总是过滤不掉一行以上的代码,只能一行行的过滤,在网上,发现有很多和我一样的菜鸟。随着不断的使用dede采集,对正则有了更进一步的了解,现在偶用一句正则表达式,同样可以匹配多行代码了。 如:在如下代码中,过滤掉有二行代码的超级链接。 <td align="center"> <a href="http://www.XXX.com/111111.htm">XXX XXX</a> </td> 用下面的过滤,即可实现多行匹配 {dede:trim} <a href="http://www.XXX.com/111111.ht...

dede3.1分页文字采集过滤规则详说(图文教程)续四【图】

至此,分页内容匹配进行完毕。 文章内容匹配、分页内容匹配都进行完后,最后就只有“过滤”了,包括分页区域过滤和文章内容过滤。据本人的感觉,上面的两个规则都好写,只要找到全部链接中的“唯一性”代码就搞定,但过滤规则里却是欲说还休,道不尽的无穷奥妙……哈哈,感觉就是这样。尤其如我一般的新手,对“正则”这个东西如临天书,找了几个正则方面的软件吧仍觉无从下手,就只好依样画样,照猫画虎,依葫芦画瓢地摸索了。 ...

解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法

-------------------------------------------------------- 风十三 落伍首发 转载请注明作者和出处 ------------------------------------------------------ 1.如何修改默认发布为动态页; 这个其实很简单,会改html就可以了!把dede文件夹打开,用编辑器打开article_add.php,找到<td width="90">发布选项:</td> <td> <input name="ishtml" type="radio" class="np" value="1" checked> 生成HTML ...

采集 - 相关标签