【CSDN论坛RSS阅读,(新手学采集,原创),谢谢指教。】教程文章相关的互联网学习教程文章

PHP如何在多IP服务器中切换IP采集数据?

在PHP 中使用CURL 采集某URL数据,由于服务器拥有有多个IP,所以想在CURL中切换不同的IP来采集以防止被封,但是发现curl_setopt($ci, CURLOPT_PROXY, '1.1.1.1'); 这种不可用 请问有什么解决办法,或者不使用curl 用snoopy等也可以,请大家指教 回复讨论(解决方案) 用fsockopen function get_from_website($ip, $domain) { $content = ; $fp = fsockopen($ip, 80); fputs($fp, GET / HTTP/1.0\r\n); fputs(...

简单php采集网页部分文字问题,求指点,多谢【图】

本帖最后由 hi_5461 于 2013-06-09 15:54:50 编辑 目标采集页面如下代码(示例页面,数据可能变化,但格式不会变化) 要求得到table中主要的4项数据:序 号、违法时间、违法地点、违法行为(即93行~130行之间的) 希望能给出详细一点的php代码。 交警查询.center_td { text-align:center;}网站首页 沈阳交警 交通新闻 视频播放 为您服务 在线办公 信息查询 征求意见 联系我们返回首页 / 设为首页 / 添加搜藏 ...

采集显示notfound怎么解决啊

用file_get_contents显示not found 用curl显示302 found 可是直接是能打开的 怎么解决呢 回复讨论(解决方案) 302 跳转了吧,贴出代码看看。 $url=http://www.baidu.com/link?url=0vb3_E6Y0Y3wZnKiqd0vhen9tAWVEpKiSqZlnyFDHx-hiORoCPFQUsj3f3hhqZldG6yzMuxJqswRj7scsSwgBf2bMqLLDpW; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOP...

求助,关于php采集url地址

我想在如下网页采集所有的帖子url地址 http://www.discuz.net/forum-10-1.html 帖子格式为 http://www.discuz.net/thread-3265731-1-1.html 只要url链接,得出的结果一行一个 回复讨论(解决方案) $url = http://www.discuz.net/forum-10-1.html;$ch = curl_init();curl_setopt($ch, CURLOPT_URL,$url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_USERAGENT, Mozilla/5.0 (Windows; ...

phpcms2008sp4采集功能问题

小弟最近研究phpcms2008sp4采集功能,发现我配置好站点后,测试采集完全没有问题,但是一到正式采集就什么也没有了!百思不得其解啊!请大伙帮我想想办法啊! 回复讨论(解决方案) 那就是你的采集规则没做好 那就是你的采集规则没做好 我是按照这个教程一步一步来的,http://wenku.baidu.com/view/9dd65522aaea998fcc220e0f.html,规则应该是一样的啊!也没多少配置呢! 那就是你的采集规则没做好 我是按照这...

求个08cmsv3.4采集规则

谁能给个08cms v3.4 采集规则啊 教程 或者视频都可以 QQ:1633430445 回复讨论(解决方案) 给我分 谁能给个08cms v3.4 admin@cmsbox.pro

采集网站内容,停止在多少行!如何操作!

function get_content_by_socket($url){ $url = eregi_replace(^http://, , $url);$temp = explode(/, $url);$host = array_shift($temp);$url = .implode(/, $temp);$temp = explode(:, $host);$host = $temp[0];$port = isset($temp[1]) ? $temp[1] : 80;//echo $url;//echo $host; $fp = fsockopen($host, 80) or die("Open ". $url ." failed"); $header = "GET /".$url ." HTTP/1.1\r\n"; $header .= "Accept: */*\...

采集获取,关于正则表达式的多条结果,只获取1条

采集获取,关于正则表达式的多条结果,只获取1条, 1 2 3 4 表达式 获取结果 /(.*?)/i 匹配多条出来。也就是所有。 有个疑问。 只获取第一条。 或者只获取最后一条。 这正则怎么写? 获取第一条,很多人认为会 /.*(.*?)/ 除开这种,还会有其他吗? 回复讨论(解决方案) 匹配第一条 用preg_match 不就行了 最后一条可以用 /(.*?)<\/li>\s*<\/ul>/ 匹配第一条 用preg...

急,100分,跪求大神帮忙,数据采集如何不死机,实时的运行?

用php写了大约20多个抓取网页和调用接口的程序,现在面临的问题是:程序执行不过来,一起执行的话会死机,有知道一淘是如何做的也可以分享一下,希望对程序优化和mysql数据库优化给小弟提点意见,很急。 回复讨论(解决方案) 可以联系一下CISCO公司 set_time_limit(0); 或者 线程 或者 跳转一个个执行 或者 等等.. 升级一下MYSQL数据库,或者处理一下临时文件。 可以能过计划任务去执行,...

采集中遇到的小问题

今天弄一下采集的小功能,遇到了个问题,被采集的站点无法fsockopen,也没办法file_get_contents。 报错:HTTP/1.0 503 Service UnavailableServer 请问要如何处理,对HTTP协议不太理解。 被采集站点URL: http://www.milanoo.com/fr/producttags/A/1.html 想采集此页面中的单词。 回复讨论(解决方案) 稍候再试,这个网站服务器暂时出问题了 可以 file_get_contents 今天弄一下采集的小功能,遇到...

php同步大量采集,超难问题,新手勿进,谢谢

1、程序类似myip.cn/wanben.net ,他的站可以在3秒内采集出wanben.net的所有信息。 2、我通过php也可以完成采信wanben.net的全部信息,但速度太慢,如 采集网站title 采集alexa信息 采集域名信息 采集服务器信息, 我通过php写的程序,要顺序执行所有代码。所以时间很长,全部采集完成要15秒左右 而myip.cn采集上面同样多的信息,用时3秒左右。 高手请回答,是用php+ajax还是用的php同...

我想采集一个网站里面新闻的标题和网址。要怎么做?

我想做一个学校的门户网站,门户里面放的是学校的新闻网的新闻。如果我想再门户一个区块里放新闻网的新闻标题和链接,要怎么做采集?是要每天采集一次还是它会自动采集到最新的内容?求详细点,新手,没接触过采集~~ 回复讨论(解决方案) 这要采集干什么?从数据库里读就是了 你的代码怎么写他就怎么采集,如果你要随时更新最新的内容那么你就要按时的读取数据分析是否是最新的. 直接用file_get_content 得到你要采集...

php如何采集或者调用.net开发的webservice

php如何采集或者 调用 .net开发的 webservice 回复讨论(解决方案) php 已经提供了 soap 扩展 php 已经提供了 soap 扩展 这个可以采集到另外的库里面去? 你要做什么,你就做 遇到了问题再来问 我们一起讨论解决的办法

如何把chm文件的内容批量采集成网页内容?

想把chm电子书的内容搬到网页上,但由于内容太多,如何批量实现,请高手指点! 回复讨论(解决方案) 所有 chm 生成工具都提供反编译的功能,你为何不用一下 CHM电子书反向编译器 用用这个吧

Curl采集乱码与采集不到PHP

PHP程序是用gbk2312编码的: $url = "http://www.sina.com.cn";//gbk2312编码 //$url = "http://www.163.com";//gbk2312编码 //$url = "http://www.sohu.com";//gbk2312编码 $ch = curl_init($url); curl_setopt($ch, CURLOPT_RETURNTRANSFER , true);//返回获取的输出的文本流 $ret = curl_exec($ch); curl_setopt($ch, CURLOPT_TIMEOUT, 1); curl_close($ch); echo $ret; ?> 在...

采集 - 相关标签