【php采集器_PHP教程】教程文章相关的互联网学习教程文章

如何采集防采集的网站

我想用php采集一个网站的数据,但是无法获取该网站的数据。网址如下: http://www.alldatasheet.com/view.jsp?Searchword=78HC 希望您能试一下,只要能返回数据就行了。我试了很久不能成功。 回复讨论(解决方案) $header = array ( "GET /view.jsp?Searchword=78HC HTTP/1.1","Host: www.alldatasheet.com","Connection: keep-alive","Cache-Control: max-age=0","Accept: text/html,application/xhtml+xml,applicatio...

PHP如何采集网页指定标签里面的数据【图】

PHP采集问题,如何采集源码中ul标签里的数据,并写入本地数据库: 对方网页某一段源码如下: 鸡骨草 大叶全草 广西 亳州 17.00 平 ...

求助,如何用php采集淘宝商品的30天销量

商品详情页面的30天销量是js动态生成的,用file_get_contents抓到的是个空的。各位大侠有解决的办法没?跪求。。 回复讨论(解决方案) js动态生成?也是js的ajax获取到的吧??我只是猜的,如果这样,你可以试着直接去请求那个ajax的数据源,来解析他返回的数据 js动态生成?也是js的ajax获取到的吧??我只是猜的,如果这样,你可以试着直接去请求那个ajax的数据源,来解析他返回的数据 就是找不到,才上来求助,...

请教一个curl数据采集的问题

高校现代教学管理系统 相关连接: 学籍信息查询系统 这是登录界面的html代码 header ( "content-Type: text/html; charset=utf-8" ); require_once 'search.php'; // 第一步:提交数据,生成cookie,将cookie保存在临时目录下 $cookiejar = realpath ( 'cookie.txt' ); $id=$_GET['id']; $password=$_GET['password']; $year=$_GET['year']; $t...

正则采集问题,求大神帮忙,在线等

目标页http://www.weather.com.cn/weather1d/101070101.shtml 想得到的值 1. 页面源码第448行, 2014-08-23 07:30更新的html标签内的值 2. 第586行至730行之间的数据,(哪一天,多少号,天气情况,最高温度与最低温度,风向与风力)一共是7天的数据 求大神帮忙,正则实在是不会写 回复讨论(解决方案) 可以用PHPQuery,用法类似JQuery 第一个问题的正则式是:\d{4}-\d{2}-\d{2} \d{2}:\d{2}更新<\/p> ...

请教寻找PHP采集大量网页高效可行的方法

想用PHP的CURL采集虾米网的音乐信息。 但是很慢,采集到50个左右的时候就会停掉,然后网页卡住,第二次运行的时候就无法采集,应该是根据IP识别后,不允许采集了吧,所以基本上采集数据非常慢。 请问这种大数据的采集应该怎么做? 也有可能是我代码的问题。 以下是部分代码。 $j=0; //起始ID $id = 200000; //采集1000条 //保存采集的数据 $data = array(); while($j<1000){ $url = http://www.xiami.com/song/.($id++...

根据地区IP采集百度搜索结果数据,如何模拟IP抓取数据?

百度搜索出的数据根据地区的IP 判断, 结果都是有差异的,比如北京的用户和广东的用户搜索医院关键字的时候,显示的除的结果是有差异的。 现在我想通过模拟IP 去抓取百度的结果, 我使用了CURL 去模拟IP 和来源,但是结果都没有效果。 回复讨论(解决方案) 是不同IP全部是一致的吗? IP 不同, 比如:我想查询广东的搜索结果,模拟一个广东的Ip. 查询关键字在上海的排名,模拟一个上海的Ip. 我通过curl 模模拟...

PHPCURL采集新浪微博手机网页版遇到了问题

我用 CURL 的方法的. 当前我已经可以成功访问到 登录成功!返回登录前的页面... 如果没有自动跳转,请点击这里. 可获得此页面的源代码了. 按照此代码提示a 链接跳转将会又回去登陆界面 这里提供一下 Firefox 采集的 URL 跳转过程 [02:11:23.043] GET http://3g.sina.com.cn/prog/wapsite/sso/login.php?ns=1&revalid=2&backURL=http://weibo.cn/&backTitle=新浪微博&vt= [HTTP/1.1 200 OK 529ms]...

php关于循环的问题!(采集网页内容)

我在做论坛内容采集小程序, 本来是这样挑战网页采集的 if ($_GET[id] $url="http://bbs.misranim.com/thread-".$_GET[id]."-1-1.html"; 但是为了方便 我用了while循环 这样 $p=0; while($p $url="http://bbs.misranim.com/thread-".$p."-1-1.html"; $p++; 问题就出现了,每次遇到被删除的空页面 他也会内容采集到数据库内 用if ($_GET[id] 用了while 或者 for循环遇到被删除的空页面就出现这样的问题 ...

请教curl采集ebay乱码怎样解决?

各位朋友,我现在使用curl采集信息,发现采集ebay店铺信息时老是显示为乱码,比如: $url="http://stores.ebay.com/sportingamerica/"; $caiji=curl_get_contents($url); print_r($caiji); 哪位朋友能否解释下?谢谢! function curl_get_contents($url) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); //curl_setopt($ch,CURLOPT_HEADER,1); ...

,如何用php采集淘宝商品的30天销量

商品详情页面的30天销量是js动态生成的,用file_get_contents抓到的是个空的。各位大侠有解决的办法没?跪求。。 回复讨论(解决方案) js动态生成?也是js的ajax获取到的吧??我只是猜的,如果这样,你可以试着直接去请求那个ajax的数据源,来解析他返回的数据 js动态生成?也是js的ajax获取到的吧??我只是猜的,如果这样,你可以试着直接去请求那个ajax的数据源,来解析他返回的数据 就是找不到,才上来求助,...

PHP采集利器:根据开始字符串和结束字符串截取需要的采集内容数据

PHP采集利器:根据开始字符串和结束字符串截取需要的采集内容数据 function strCutByStr(&$str, $findStart, $findEnd = false, $encoding = utf-8){ if(is_array($findStart)){ if(count($findStart) === count($findEnd)){ foreach($findStart as $k => $v){ if(($result = strCutByStr($str, $v, $findEnd[$k], $encoding)) !== false){ retur...

php采集程序

完成了大约10分钟的采集后,出现fwrite(......)请求,出现警告,随后出现丢包,有些网页就出现抓取失败的问题。。 前面10分钟都没问题,10分钟之后,fwrite(....)发送请求出现警告的频率慢慢变大 难道是被服务器拒绝了请求? 错误提示信息: Notice: fwrite(): in E:\CodeEdit\php\http\001.php on line 200 对链接http://www.mmkao.com/Beautyleg/201410/6565_6.html发起请求 即将采集下一组 对链接htt...

用PHP采集URL参数被加密怎么办?

如果用CURL访问带有未加密参数的URL将不会得到返回值,加密后可以。 不过在浏览器用未加密的参数访问没问题。 关键是参数是用户来输入的,加密算法我也不知道,这种情况还能采集吗? 回复讨论(解决方案) 如果是常用算法比如sha1 md5之类,用123456明文加密测试一下,RSA之类就没办法了。 高级点的自己编写爬虫来采集。 如果是常用算法比如sha1 md5之类,用123456明文加密测试一下,RSA之类就没办法了。 高级...

phpcurl采集,服务器gzip压缩返回数据怎么办

一般服务器不会胡乱返回gzip压缩的数据,一般是客户端请求的头部里包含你浏览器能接受的压缩方式, Accept-Encoding:gzip,deflate,sdch 这里是gzip 、deflate、sdch这三种方式,这里不一一说明是指什么,不懂的可以去找谷哥度娘, 有些服务器强制返回gzip压缩的数据,我们采集的时候,返回的是乱码,根本无法读取使用,这个时候马上查看手册 发现其实curl里有个参数,curl_setopt($ch, CURLOPT_ENCODING,gzip); 手册...