【PHP采集类】教程文章相关的互联网学习教程文章

关于采集后对数据编码转换的有关问题!请问

关于采集后对数据编码转换的问题!请教!我在做一个采集title的程序,将采集过来的数据在网页中显示,网页本身是utf8的,我用的是这个函数:$icn=mb_convert_encoding($arr1,'utf-8','GB2312,GBK,BIG5,utf-8');实验后发现其他的网页都正常,可要是抓取utf-8编码的网页就会乱码,这怎么解决呢?------解决方案-------------------- $icn = mb_convert_encoding($arr1, 'utf-8', mb_check_encoding('utf-8')? 'utf-8' : 'GBK'); ----...

curl真的没有对采集内容进行字节限制的设置么?例如小弟我只想要网页的header部分的keyword,全部都采集过来的话太浪费了

curl真的没有对采集内容进行字节限制的设置么?例如我只想要网页的header部分的keyword,全部都采集过来的话太浪费了如题!------解决方案-------------------- 手册上说 CURLOPT_NOBODY TRUE to exclude the body from the outputgoogle说 to exclude the body from the output 从输出中排除身体并没有说不取得全部内容而get_headers 返回全部头信息get_meta_tags 从一个文件中提取所有的 meta 标签 content 属性自己掂量着办

采集时,上载连接地址的奇怪有关问题

采集时,下载连接地址的奇怪问题我用谷歌浏览器打开一个页面。我要准备下载带有连接地址的标签,点击后,可以正常下载。但奇怪的是,那一个的连接地址(左下角显示的地址)我复制下来,用浏览器打开,是不能正常不载的。这是怎回事啊。我用谷歌浏览器查看源代码,点标签的下载地址。又可以正常下载。但是我用谷歌浏览器工具 申查元素,得到的那一个地址,在新的浏览窗口打开,又不能下载。唉,太费解了。你们遇到过这种情况吗?---...

PHP采集只要文字,不要<p>标签,正则表达式该如何写

PHP采集只要文字,不要标签,正则表达式该怎么写 到底内心要有多强大,才能在前一秒得知自己中了740多万元的彩票奖金,后一秒还能像没事人一样,淡定地和朋友相聚?彩民王先生用他的实际行动告诉大家,他就可以这么淡定,就连在领取奖金时,他还是一脸波澜不惊。  “你看,每期彩票开奖不都有不少人中奖吗?还有人中了上亿元的奖金呢,而且我觉得我迟早都会中一次大奖吧。”、9月11日,这位内心强大,表现淡定的大奖得主王先生...

淘宝采集跳转该如何采集跳转后的url

淘宝采集跳转该怎么采集跳转后的url采集$tmpurl="http://s.click.taobao.com/t_8?e=7HZ6jHSTbIWZXoQ43%2BGOC2vGvlT28S6knArdy2HkZM%2BsVw%3D%3D&p=mm_32165125_0_0";淘宝会自动跳转$url地址:http://item.taobao.com/item.htm?id=15711538808&ali_trackid=2:mm_32165125_0_0:1346999816_310_551572511怎样才能获取到跳转后的$url,请帖详细代码请用我给的url测试,谢谢------解决方案-------------------- A.代码加上 cookie(我不确...

curl采集

curl采集,求助采集$url="http://s.click.taobao.com/t_8?e=7HZ6jHSTbIWZXoQ43%2BGOC2vGvlT28S6knArdy2HkZM%2BsVw%3D%3D&p=mm_32165125_0_0";淘宝会自动跳转$url地址:http://item.taobao.com/item.htm?id=15711538808&ali_trackid=2:mm_32165125_0_0:1346999816_310_551572511怎样才能获取到跳转后的$url,请帖详细代码请用我给的url测试,谢谢------解决方案-------------------- 真的很佩服楼主的执着!观察了一下,个人认为很难...

php怎么指定大小的采集页面,比如说只要hearder部分

php如何指定大小的采集页面,比如说只要hearder部分如题:file_get_contents不能用,不太稳定。有没有其它方法?------解决方案-------------------- PHP code $curl = curl_init(); curl_setopt($curl, CURLOPT_URL, $url); curl_setopt($curl, CURLOPT_RETURNTRANSFER, true); curl_setopt($curl, CURLOPT_WRITEFUNCTION, func);//设置一个回调函数 $text = curl_exec($curl); curl_close($curl); echo $text;function func($ch,...

php采集正则表达式有关问题

php采集正则表达式问题2012-09-14 09:50:02 作者:ryuiu 浏览次数:0 我只想获取时间,正则应该怎么写啊!小弟正则完全不会------解决方案-------------------- $s='2012-09-14 09:50:02 作者:ryuiu 浏览次数:0 ';preg_match_all('#(.*)#isU',$s,$m);print_r($m[1]);

php采集如何获取<li>标签中<A>标签里面的连接

php采集怎么获取标签中标签里面的连接 2012-09-13 内蒙一彩民或独中1174万 广东彩民揽3注头奖------解决方案-------------------- PHP codepreg_match(/href="([^"]*)"/,$html,$match) ------解决方案-------------------- PHP codepreg_match(/href="(.+\.html)"/i,$str,$result); echo $result[1];

流方式实现多线程采集有关问题,请高手分析上

流方式实现多线程采集问题,请高手分析下采集内容速度慢,我一直很头大,最近在研究多线程采集,下面贴出比较代码,有两个问题,一是获取的结果长度有点不一致;二是效率是不是还不够高?大伙帮忙分析,测试!PHP code'; } $timeEnd = microtimeFloat(); echo sprintf("Spend time: %s second(s)\n", $timeEnd - $timeStart),''; $timeStart = microtimeFloat(); $timeout = 30; $status = array(); $retdata = array(); $sockets ...

请采集程序代码欢迎加入围观

请求一个采集程序代码 欢迎加入围观最近写一个彩票代购网站来玩,基本的功能都实现了,现在想自动更新数据。所以需要采集别的网站的数据,但正则表达式实在是不好搞,一直下不了手。我想采集“中国竞彩网”的数据,比如http://info.sporttery.com/basketball/mnl_list.php下的竞彩篮球下的4种玩法的4项数据。之前我用过java的一个开源把网页抓取,提供了操作类似DOM的方法来抓取,但是由于每天数据对映的id会变化,所以不行。 所以...

php作的RSS采集

php 做的RSS采集????? 之前一直想在自己的网站上加一些RSS新闻链接,显示新闻摘要,并连接到出处。 今天有时间自己整理了下,公司只能上ITEye,贴上代码,备查。CB采集测试 h3 {}h5 {}.content {border:1px #BAE4FD solid; background-color:#E8E8FF;width:600px;font-family:Microsoft Yahei; margin-top:10px;padding:2px;}#doe {float:left;width;96px;height:96px;img:url(logo.jpg);}channel->item as $item) {echo "";echo "[...

php仿jQuery统制dom|php采集

php仿jQuery控制dom | php采集详细情况,各位可以自行下载附件运行体验一下。有段时间在制作PHP采集相关的程序,突然搜索到有一个比较好用的,外国人开发的类包,名叫"phpQuery",是否听这个名字就已经感觉很熟悉呢,这是一个PHP仿jQuery控制dom的好工作,利用PHP做采集必不可少的利器。先贴出dome的部分代码: require(phpQuery/phpQuery.php); $doc[ul > li]->addClass(my-new-class)->filter(:last)->addClass(last-li)->toRefer...

一个php采集类,含上载远程图片并替换原文

一个php采集类,含下载远程图片并替换原文 今天没事完善了一个php采集类,这给大家分享下。 本实例,可以,自动下载远程图片,并替换文章中的图片地址。。。 实例下载地址 http://download.csdn.net/detail/open520yin/4899183 实例: fetch($url); //获取所有内容$html = $snoopy->results; //显示结果$title = $snoopy->getTitle();//获取标题$text = $snoopy->getCent('','');//获取主体 //替换规则 $arr = array(0=>'(.*?)',...

急问关于新闻采集的有关问题,难道现在新浪搜狐腾讯新闻都不让采集了

急问关于新闻采集的问题,难道现在新浪搜狐腾讯新闻都不让采集了 ?随便找一个新浪的页面进行采集,发现title部分能够获取,但正文部分(通过查看页面源码)不能获取,不知道为何?function contents($preg,$con,$num=1) {preg_match($preg,$con,$arr);return $arr[$num]; }$con=file_get_contents("http://mil.news.sina.com.cn/2012-12-14/1646709659.html"); $preg="#(.*)#"; echo contents($preg,$con); //获取title o...

采集 - 相关标签