【CSDN论坛RSS阅读,(新手学采集,原创),谢谢指教。】教程文章相关的互联网学习教程文章

php知道与问问的采集插件代码_PHP

最近发现知道和问问小偷的版本越来越多了!! 看过一个百度小偷的网站也达到了pr6。收录十万多!! 在经过 荐礼啦 四十天的实践之后 发现百度对这个确实挺友好的。 从网站访问来看 很多也是从百度搜索来的! 所以用知道和问问来填充网站内容还是可行的。 于是自己开发了一个知道 问问的采集插件 原则上适合 php+mysql 并且文章是在一个表的程序 知道采集代码 代码如下:session_start(); header("content-type:text/html;charset=g...

php采集时被封ip的解决方法_PHP

在网上找了一些资料都没有找到,功夫不负有心人啊,在找的时侯有一个人提到了用搜索引擎爬虫蜘蛛的USERAGENT。虽然只提到一点点我还是想到了,列出我的解决方法, 1.使用Snoopy或curl传搜索引擎爬虫的USERAGENT值。 查看搜索引擎爬虫的USERAGENT值:http://www.bitsCN.com/yunying/29357.html 2.使用Snoopy或curl传referer值。 如:$snoopy->referer = 'http://www.google.com'; $header[] = "Referer: http://www.google.com/"; 3....

开启CURL扩展,让服务器支持PHPcurl函数(远程采集)_PHP

curl()、file_get_contents()、snoopy.class.php这三个远程页面抓取或采集中用到的工具,默迹还是侵向于用snoopy.class.php,因为他效率比较高且不需要服务器特定配置支持,在普通虚拟主机中即可使用,file_get_contents()效率稍低些,常用失败的情况、curl()效率挺高的,支持多线程,不过需要开启下curl扩展。下面是curl扩展开启的步骤:   1、将PHP文件夹下的三个文件php_curl.dll,libeay32.dll,ssleay32.dll复制到system32下;...

PHP采集利器Snoopy试用心得_PHP

Snoopy是什么? (下载snoopy) Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。 Snoopy的一些特点: * 方便抓取网页的内容 * 方便抓取网页的文本内容 (去除HTML标签) * 方便抓取网页的链接 * 支持代理主机 * 支持基本的用户名/密码验证 * 支持设置 user_agent, referer(来路), cookies 和 header content(头文件) * 支持浏览器转向,并能控制转向深度 * 能把网页中的链接扩展成高质量的url(默...

PHP采集腾讯微博的实现代码_PHP

代码如下:header("Content-type:text/html;charset=utf-8"); $weibo = file_get_contents('http://t.qq.com/starank'); $preg = '/(.*)/Uis'; preg_match_all($preg, $weibo, $string); foreach ($string[1] as $key=>$value){ echo delhtml($value).""; } function delhtml($str) // 清除HTML标签 { $st = -1; //开始 $et = -1; //结束 $stmp = array(); $stmp[] = " "; $len = strlen($str); for($i = 0;$i { $ss = substr($str,...

学习使用curl采集curl使用方法_PHP

代码如下:$cookie_jar = tempnam('./tmp','cookie'); $ch = curl_init(); curl_setopt($ch, CURLOPT_URL,'登陆地址'); curl_setopt($ch, CURLOPT_POST, 1); $request = 'username=xxx&pwd=xxx'; curl_setopt($ch, CURLOPT_POSTFIELDS, $request);//传递数据 curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_jar);//把返回来的cookie信息保存在$cookie_jar文件中 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//设定返回的数据是否自...

采集邮箱的php代码(抓取网页中的邮箱地址)_PHP

代码如下:$url='http://www.bitsCN.com'; //这个网页里绝对含有邮件地址。 $content=file_get_contents($url); //echo $content; function getEmail($str) { //$pattern = "/([a-z0-9]*[-_\.]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[\.][a-z]{2,3}([\.][a-z]{2})?/i"; $pattern = "/([a-z0-9\-_\.]+@[a-z0-9]+\.[a-z0-9\-_\.]+)/"; preg_match_all($pattern,$str,$emailArr); return $emailArr[0]; } print...

基于curl数据采集之单页面采集函数get_html的使用_PHP【图】

这是一个系列 没办法在一两天写完 所以一篇一篇的发布 大致大纲: 1.curl数据采集系列之单页面采集函数get_html 2.curl数据采集系列之多页面并行采集函数get_htmls 3.curl数据采集系列之正则处理函数get _matches 4.curl数据采集系列之代码分离 5.curl数据采集系列之并行逻辑控制函数web_spider 单页面采集在数据采集过程中是最常用的一个功能 有时在服务器访问限制的情况下 只能使用这种采集方式 慢 但是可以简单的控制 所以写好一...

基于curl数据采集之单页面并行采集函数get_htmls的使用_PHP

用第一篇的get_html()实现简单的数据采集,由于是一个一个执行才采集数据的传输时间就会是所有页面下载的总时长,一个页面假设1秒,那么10个页面就是10秒了。所幸curl还提供了并行处理的功能。 要写一个并行采集的函数,先要了解要采集什么样的页面,对采集的页面用什么请求,才能写出一个相对常用的函数。 功能需求分析: 返回什么? 当然每一个页面的html集合成的数组 传递什么参数? 编写get_html()时,我们知道了可以用opti...

PHP批量采集下载美女图片的实现代码_PHP【图】

设计思路 考虑到单纯的采集一个网页的图片,太麻烦,所以直接采集他的列表页,获取列表的url然后在一一采集,但是用php匹配列表页的url太麻烦,第一列表页有很多无效url这对我这个正则小菜鸟实在是个问题,看了一下列表页的结构,果断采用jquery获取url,jquery的万能选择器又再次强大起来了。 jquery获取url,然后ajax传递url—>对应PHP文件,遍历url参数—->单页面采集保存图片 jquery程序 代码如下: 这里把url拼接成‘,分割...

深入php数据采集的详解_PHP【代码】

这里介绍两个php采集能用到的好工具。一个是Snoopy,一个是simple_html_dom。采集还有很多方式(其实本质就2-3种,其他的都是衍生的),php自带了几个方法也能直接进行采集。但是,出于把懒惰进行到底的精神。我们还是可以通过这两个工具,让采集变得更简单。网上有不少介绍Snoopy的,下面是别人翻译的Snoopy的SDK//////////////////////////////////////////////////////////////Snoopy是一个php类,用来模拟浏览器的功能,可以获...

PHP多线程批量采集下载美女图片的实现代码(续)_PHP【图】

个人认为影响的原因:匹配到的图片url并不是有效的url,文中只是简单的判断是否是相对路径,但是有些url是失效的 解决办法:就是新增判断是否是真实有效url的图片代码如下:/** * *判断url是否有效 *@param $url string *@return boole */function relUrl($url){ if(substr($url,0,4)==http){ $array = get_headers($url,true); if(count($array)>0 && is_array($array)){ if(preg_match(/200/, $array[0])){ unset($arra...

解析php利用正则表达式解决采集内容排版的问题_PHP

正则表达式 做采集经常遇到的问题是内容排版问题,用了一些时间写了个用正则替换html标签和样式的函数,共享下。 代码如下:/** * 格式化内容 * @param string $content 内容最好统一用utf-8编码 * @return string * !本函数需要开启tidy扩展 */function removeFormat($content) { $replaces = array ( "//i" => '', "//i" => '', "//i" => , "/<\/strong>/i" => , "/<span.*?>/i" => , "/<\/span>/i" => , "//i" => ...

php实现的一个很好用HTML解析器类可用于采集数据_PHP

代码如下: $oldSetting = libxml_use_internal_errors( true ); libxml_clear_errors(); /** * * -+----------------------------------- * |PHP5 Framework - 2011 * |Web Site: www.iblue.cc * |E-mail: mejinke@gmail.com * |Date: 2012-10-12 * -+----------------------------------- * * @desc HTML解析器 * @author jingke */ class XF_HtmlDom { private $_xpath = null; private $_no...

php使用curl模拟登录后采集页面的例子_PHP

今天接到的功课是从一个网站获取商品库存,但是这个网站需要登录,我用fsockopen传递了整个header头都没用,只能求助于curl了。附带说一下curl模块的开启办法:(1)从php目录下拷贝:libeay32.dll,ssleay32.dll 到windows目录下。(2)打开php.ini,查找“extension_dir = xxxxx”,确认后面的文件目录内有php_curl.dll文件。(3)同样是php.ini,查找“extension=php_curl.dll”,确认它没有被注释(前面没有';')。(4)重启apache,如果...

采集 - 相关标签