【页面抓取!该如何处理】教程文章相关的互联网学习教程文章

phpQuery数据抓取疑问

我想使用phpQuery 抓取某东产品的名字和价格,能取到产品名称,不能取到价格,因为源代码的价格是使用JS输出的,如果用Chrome浏览器审查元素是有价格的,应该怎样取得审查元素里的价格? 回复讨论(解决方案) 没人知道吗? 是ajax的吧?那就得多一次请求了 如果是js代码,那就要用正则去匹配 另外phpquery很久没维护了,要高级点的比如css3,html5之类,建议尝试下querypath(当然也不能解决你这个问题) 感谢回答,还...

想用PHP抓取某网站库存数据

想抓取这个网站的剩余库存数量 http://www.beibei.com/detail/105272.html 使用fopen(),然后再读取的源代码中,显示的库存量为0,查了资料说需要伪装HTTP,不知道怎么弄,在线等大牛~~~ 回复讨论(解决方案) file_get_contents(); 获取源码后再用正则过滤。 版主,里面的库存量用这个方法抓取到的是- 空的 已解出: $hxcsrf, 'id' => $id ));$opts = array( 'http' => array( 'm...

使用meta跳转之后的网页抓取不了?紧急求教各位高手!

情况是这样的,想用server1上的zq.php抓取 server2上article.php的内容,难题是article.php 好像做盗链自动跳转的防御,利用meta 自动跳转回该页面。下附源码,求各位帮助。 http://server1/zq.php 源码 $url = "http://server2/article.php?id=123";$fp = curl_init();curl_setopt($fp, CURLOPT_URL, $url);curl_setopt($fp, CURLOPT_TIMEOUT, 30);curl_setopt($fp, CURLOPT_FOLLOWLOCATION, 1);ob_start();curl_exec($f...

使用模拟登陆抓取学校系统的晨跑数据,失败了,请教大神

最近在学习php的模拟登陆,就想拿学校的体育教学系统实践一下,但失败了。请教大神,我的代码到底错在了哪? 【一些信息】 登录系统的地址:http://210.35.75.247:8080/student/studentFrame.jsp (用户名:1101001,密码:1101001,角色:学生) 查晨跑的地址:http://210.35.75.247:8080/student/queryCheckInfo.jsp 【代码如下】 【第一次发帖,拜谢!】 回复讨论(解决方案) 你的代码没有大问题,...

curl抓取数据返回码为200,但是没有内容

set_time_limit(0);// GET测试淘宝详情页抓取$url = "http://item.taobao.com/item.htm?id=37530539791";$url = "http://item.taobao.com/item.htm?id=14861616067";//curl 伪造useragent$useragent = array( Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0), Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2), Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1), Mozilla/5.0 (Windows; U; Windows NT 5....

python&php数据抓取、爬虫分析与中介,有网址案例

最近在做一个网络爬虫程序,后台使用python不定时去抓取数据,前台使用php进行展示 网站是:http://se.dianfenxiang.com

简述php关于网页元素抓取方面的技术

对于php抓取网页的内容,可能比较难的就是dom解析这一部分了,这儿的话有几种技术推荐给大家,具体使用哪种就看自己的喜欢了 1.php自带的xpath解析技术 xpath的话具体可以百度一下他的用法,我只举几个简单的例子,废话不多说,代码如下 <?php error_reporting(0); $url=http://www.baidu.com;//此处写抓取的网页的网址,我随便写的 $html=file_get_contents($url); $dom=new DOMDocument; $dom->loadHTML($html); $xml=...

PHP抓取CNZZ相关网站的统计信息

现今需要用PHP去获取公司的网站在CNZZ上的网站数据统计,但是不知道怎么去抓取数据。我尝试了curl 登录状态已经返回登录成功 然后就不知道下一步怎么做了 ,返回的是JSON格式的信息 {"data":{"status":"0","url":"http:\/\/new.cnzz.com\/v1\/main.php?s=site_list"}} 然后我要进入统计页面 就不知道怎么办了 下面是代码 header("content-Type: text/html; charset=utf-8");$username = "user";$password = "pw";$verifyCod...

php抓取这个网页的数据,只要数据,不要html内容,然后json后写入文件,新手求教

http://www.okooo.com/Upload/sohu/table_23.html 新收求教啊,这个难度在于正则上,不会写正则啊 回复讨论(解决方案) $url = http://www.okooo.com/Upload/sohu/table_23.html;$s = file_get_contents($url);preg_match_all(#<table.+#isU, $s, $m);foreach(array_map(strip_tags, $m[0]) as $r) { $a = preg_split(/\s+/, $r, -1, PREG_SPLIT_NO_EMPTY); $res[] = array_chunk(array_slice($a, 0, -1), 3);}print...

curl抓取乱码

用浏览区访问以下获取正常 curl获取乱码 改变浏览器编码不起作用(从一种乱码变成另外一种乱码) 代码如下 有人知道什么原因吗? 回复讨论(解决方案) echo base64_encode($response); 贴出结果 已经解决了,返回的是gzip curl 加一个 curl_setopt($ch,CURLOPT_ENCODING ,gzip); 就好了

php文章内容抓取

求大神帮忙抓取这个网页http://sports.sohu.com/zhongchao.shtml的排行榜部分的数据(包括积分榜和射手榜) 回复讨论(解决方案) 抓取 研究研究 phpquery $url = http://sports.sohu.com/zhongchao.shtml;$s = file_get_contents($url);preg_match_all(/(?<=)\s<table.+table>/isU, $s, $m);print_r(preg_grep(/名次/, $m[0])); Array( [2] => 名次球队场次积分01广州恒大204502北京国安......接下来自己做 ...

php抓取这个页面的内容

需要抓取的部分已经用红线标出来, 只需要抓取第一页的就可以, 抓取页面:http://www.mafengwo.cn/yj/10206/2-0-1.html 一以前都是用这个类simple_html_dom.php,但是这个我用这个类抓取不出来了 回复讨论(解决方案) 可以用正?提取。 $url = "http://www.mafengwo.cn/yj/10206/2-0-1.html"; $opts = array( http=>array( timeout=>10, header=>"User-Agent: php\r\n" . "Cook...

抓取图片

有一个规则网址,如何抓取图片 网址xxx.xxx.xxx.php?x=00001到xxx.xxx.xxx.php?x=10000是连续的 试过很多次了,每次抓出来的都是乱码, 这个直接是图片路径。求教各位大神 回复讨论(解决方案) 1、你是怎么抓的 2、给出真实地址 1、你是怎么抓的 2、给出真实地址 这个地址涉及个人隐私,不能给你。 我抓取网页的方法都试过了,每次都已一样的乱码 我怀疑是图片后缀的问题。因为的通过PHP得到的图片...

php抓取微信列表中的最新的一组微信消息

array( "wx_content" => array("weixin_user" => "微信号码", "weixin_pass" => "微信密码") ));wx_login();$messge_list = get_message_list();$file_id=$messge_list['item'][0]['multi_item'][0]['file_id'];//print_r($messge_list);exit;if(!DB::result_first("select count(weiyi_id) from test.yangang_jiaojing where weiyi_id={$file_id} ")){ DB::query("delete from test.yangang_jiaojing"); foreach ($messge_...

Curl方法抓取页面时出现的问题,

前不久做了个成绩查询的代理系统,用curl方法模拟登录学校的教务系统(ASP写的,并且写的非常烂),进行抓取信息内容,再将内容进行展现。 之后学校的教务系统换新的了,是用JSP写的,添加了验证码这个功能,然后我获取到验证码,进行输入,然后用curl方法提交HTTP请求,可是抓取到的结果返回的都是 “数据库忙请稍候再试”,而我把URL打出来,直接输到地址栏是可以进入教务系统的;并且我用POSTMAN发生HTTP请求,GET、POST...