【PHP采集CSDN博客边栏的阅读排行_PHP教程】教程文章相关的互联网学习教程文章

php使用curl模拟登录后采集页面的例子

今天接到的功课是从一个网站获取商品库存,但是这个网站需要登录,我用fsockopen传递了整个header头都没用,只能求助于curl了。附带说一下curl模块的开启办法:(1)从php目录下拷贝:libeay32.dll,ssleay32.dll 到windows目录下。(2)打开php.ini,查找“extension_dir = xxxxx”,确认后面的文件目录内有php_curl.dll文件。(3)同样是php.ini,查找“extension=php_curl.dll”,确认它没有被注释(前面没有;)。(4)重启apache,如果使...

php实现的一个很好用HTML解析器类可用于采集数据

代码如下:<?php $oldSetting = libxml_use_internal_errors( true ); libxml_clear_errors(); /** * * -+----------------------------------- * |PHP5 Framework - 2011 * |Web Site: www.iblue.cc * |E-mail: mejinke@gmail.com * |Date: 2012-10-12 * -+----------------------------------- * * @desc HTML解析器 * @author jingke */ class XF_HtmlDom { private $_xpath = null; priv...

PHP批量采集下载美女图片的实现代码【图】

设计思路 考虑到单纯的采集一个网页的图片,太麻烦,所以直接采集他的列表页,获取列表的url然后在一一采集,但是用php匹配列表页的url太麻烦,第一列表页有很多无效url这对我这个正则小菜鸟实在是个问题,看了一下列表页的结构,果断采用jquery获取url,jquery的万能选择器又再次强大起来了。 jquery获取url,然后ajax传递url—>对应PHP文件,遍历url参数—->单页面采集保存图片 jquery程序 代码如下:<script src="http://www.cz...

PHP多线程批量采集下载美女图片的实现代码(续)【图】

个人认为影响的原因:匹配到的图片url并不是有效的url,文中只是简单的判断是否是相对路径,但是有些url是失效的 解决办法:就是新增判断是否是真实有效url的图片代码如下:/** * *判断url是否有效 *@param $url string *@return boole */function relUrl($url){ if(substr($url,0,4)==http){ $array = get_headers($url,true); if(count($array)>0 && is_array($array)){ if(preg_match(/200/, $array[0])){ unset($arra...

基于curl数据采集之单页面采集函数get_html的使用【图】

这是一个系列 没办法在一两天写完 所以一篇一篇的发布 大致大纲: 1.curl数据采集系列之单页面采集函数get_html 2.curl数据采集系列之多页面并行采集函数get_htmls 3.curl数据采集系列之正则处理函数get _matches 4.curl数据采集系列之代码分离 5.curl数据采集系列之并行逻辑控制函数web_spider 单页面采集在数据采集过程中是最常用的一个功能 有时在服务器访问限制的情况下 只能使用这种采集方式 慢 但是可以简单的控制 所以写好一...

基于curl数据采集之单页面并行采集函数get_htmls的使用

用第一篇的get_html()实现简单的数据采集,由于是一个一个执行才采集数据的传输时间就会是所有页面下载的总时长,一个页面假设1秒,那么10个页面就是10秒了。所幸curl还提供了并行处理的功能。 要写一个并行采集的函数,先要了解要采集什么样的页面,对采集的页面用什么请求,才能写出一个相对常用的函数。 功能需求分析: 返回什么? 当然每一个页面的html集合成的数组 传递什么参数? 编写get_html()时,我们知道了可以用opti...

PHP文章采集URL补全函数(FormatUrl)

写采集必用的函数,URL补全函数,也可叫做FormatUrl。 写此函数作用就是为了开发采集程序,采集文章的时候会经常遇到页面里的路径是 “相对路径” 或者 “绝对根路径” 不是“绝对全路径”就无法收集URL。 所以,就需要本功能函数进行对代码进行格式化,把所有的超链接都格式化一遍,这样就可以直接收集到正确的URL了。 路径知识普及 相对路径:“../” “./” 或者前面什么都不加 绝对根路径:/path/xxx.html 绝对全路径:http://...

PHP采集腾讯微博的实现代码

代码如下:<?php header("Content-type:text/html;charset=utf-8"); $weibo = file_get_contents(http://t.qq.com/starank); $preg = /<div class="msgCnt">(.*)<\/div><div class="mediaWrap">/Uis; preg_match_all($preg, $weibo, $string); foreach ($string[1] as $key=>$value){ echo delhtml($value)."<br/><br/><br/>"; } function delhtml($str) // 清除HTML标签 { $st = -1; //开始 $et = -1; //结束 $stmp = array(); $st...

php file_get_contents函数轻松采集html数据

代码如下:<?php //全国,判断条件是$REQUEST_URI是否含有html if (!strpos($_SERVER["REQUEST_URI"],".html")) { $page="http://qq.ip138.com/weather/"; $html = file_get_contents($page,'r'); $pattern="/<B>全国主要城市、县当天和未来五天天气趋势预报在线查询<\/B>(.*?)<center style=\"padding\:3px\">/si"; //正则匹配之间的html preg_match($pattern,$html,$pg); echo ""; //正则替换远程地址为本地地址 $p=preg_replace(...

php 论坛采集程序 模拟登陆,抓取页面 实现代码

代码如下:<?php // 吴燕军 // 2009-06-27 // 采集程序php set_time_limit(0); //cookie保存目录 $cookie_jar = '/tmp/cookie.tmp'; /*函数------------------------------------------------------------------------------------------------------------*/ //模拟请求数据 function request($url,$postfields,$cookie_jar,$referer){ $ch = curl_init(); $options = array(CURLOPT_URL => $url, CURLOPT_HEADER => 0, CURLOPT_NO...

PHP 文章中的远程图片采集到本地的代码

第一步. 先从文章中把所有<img ...> 用正则 抠出来. 代码如下:$message //文章内容 //正则(这个还不是) $reg = "/<img[^>]*src=\"(http:\/\/(.+)\/(.+)\.(jpg|gif|bmp|bnp))\"/isU"; //把抠出来的 img 地址存放到 $img_array 变量中 preg_match_all($reg, $message, $img_array, PREG_PATTERN_ORDER); //过滤重复的图片 $img_array = array_unique($img_array[1]); 第二步. 把$img_array 数组循环一下. 做图片保存和文章位置替换...

56.com视频采集接口程序(PHP)

楼下也有一个所谓56站程序的,忽悠到了极致,不喜欢被人忽悠的,还是自己做个站吧! 我给大家个采集接口,你爱自己采集可以用自己的FLASH播放器直接播放56.com的flv吧!不用帮人家做免费广告那么傻了! 代码如下:<?php $url = "http://www.56.com/u75/v_MTkwMTIwMjQ.html"; $html = @file_get_contents($url); preg_match_all("/var _oFlv_o = '([\S|\s]+)'/isU", $html, $matches); $o = decode56($matches[1][0]); include_once...

PHP实现采集程序原理和简单示例代码

<entry SKIPIFREF="YES"> <title>I Believe In Love</title> <author> 蓝牙音乐网 - 8391.com</author> <copyright> 蓝牙音乐网 - 8391.com</copyright> <ref href="http://218.78.213.183:880/daolianmtvfuc__________________kkkkkkkkkk//shela_believe.wmv"/> <param name="Artist" value="榭拉"/> <param name="Album" value=" 蓝牙音乐网 - 8391.com"/> <param name="Title" value="I Believe In Love"/> </ENTRY> <...

PHP QueryList采集器【代码】

百度下载QueryList类库文件 /*** 抓取数据源* @param $rules array 抓取规则* @param $url string url* @return mixed*/ function getQueryList($rules, $url) {$html = file_get_contents($url);$QL = new \QL\QueryList();return $QL::Query($html, $rules)->data; }//创建QL文件夹,引入phpQuery.php和QueryList.php //在QueryList.php中添加 use phpQuery,Exception,ReflectionClass; require "phpQuery.php";//使...

phpQuery,采集网页像jQuery一样顺畅丝滑。【代码】【图】

前言 ??平时开发中可能遇到一个问题。采集网页,小偷程序等等。各种花式秀正则的话,虽然能体现出geek,但是我觉得做事却不够优雅。采集到的网页说白了也是DOM,jQuery各种优雅地获取节点。幸好,有这个类库,帮我们解决了这个,那就是phpQuery. 为什么使用phpQueryphpQuery是基于php5新添加的DOMDocument。而DOMDocument则是专门用来处理html/xml。它提供了强大的xpath选择器及其他很多html/xml操作函数,使得处理html/xml起来非常...

采集 - 相关标签