【如何采集防采集的网站】教程文章相关的互联网学习教程文章

一个数据采集类_PHP

采集 // 兼容 php4 php5// 程序作者 张建 52linux.com(我爱Linux)// 联系方法 733905@qq.com QQ 733905 // 简单调用方法/*include ("ugs.php"); // 你可以下载本ugs.phps 然后重命名为ugs.php$ugs = new ugs();$url = "http://domainname.com/path_to_your_target?param";$ugs->seturl($url);$ugs->gather();//............这里可以调用本类里的其它方法,对$ugs->value_ 做调整,以满足您的要求$content=$ugs->getcontent();pr...

PHP采集程序常用函数_PHP

当前的脚本网址 function get_php_url(){ if(!empty($_SERVER["REQUEST_URI"])){ $scriptName = $_SERVER["REQUEST_URI"]; $nowurl = $scriptName; }else{ $scriptName = $_SERVER["PHP_SELF"]; if(empty($_SERVER["QUERY_STRING"])) $nowurl = $scriptName; else $nowurl = $scriptName."?".$_SERVER["QUERY_STRING"]; } return $nowurl; } //把全角数字转为半角数字 function GetAlabNum($fnum){ $nums = array("0","1","2","...

php信息采集程序代码_PHP

代码如下://采集首页地址 $url="http://emotion.pclady.com.cn/skills/"; //获取页面代码 $rs=file_get_contents($url); //设置匹配正则 //$fp=fopen("text.txt","a"); //$fw=fwrite($fp,$rs); //fclose($fp); /*href="http://emotion.pclady.com.cn/skills/0903/376476.html" target=_blank>留住你身边的好男人*/ $preg='/]+\">(.*)/i'; //进行正则搜索 preg_match_all($preg,$rs,$title); //计算标题数量 $count=count($title[0]...

php采集书并合成txt格式的实现代码_PHP

/** * @name 采集书.php * @date Sun Mar 01 22:48:02 CST 2009 * @copyright 马永占(MyZ) * @author 马永占(MyZ) * @link http://blog.csdn.net/mayongzhan/ */ //header('Content-Type:text/html;charset=utf8'); header('Content-Type:text/html;charset=gb2312'); error_reporting(E_ALL); date_default_timezone_set('Asia/Shanghai'); set_time_limit(0); function writer($content,$url) { $fp = fopen($url, 'ab'); fwrite...

php论坛采集程序模拟登陆,抓取页面实现代码_PHP

代码如下:// 吴燕军 // 2009-06-27 // 采集程序php set_time_limit(0); //cookie保存目录 $cookie_jar = '/tmp/cookie.tmp'; /*函数------------------------------------------------------------------------------------------------------------*/ //模拟请求数据 function request($url,$postfields,$cookie_jar,$referer){ $ch = curl_init(); $options = array(CURLOPT_URL => $url, CURLOPT_HEADER => 0, CURLOPT_NOBODY =...

PHP采集心得技巧_PHP

1.获取远程文件源代码(file_get_contents或用fopen). 2.分析代码得到自己想要的内容(这里用正规匹配,一般是得到分页)。 3.跟根得到的内容进行下载入库等操作。   在这里第二步有可能要重复的操作好几次,比如说要先分析一下分页地址,在分析一下内页的内容才能取得我们想要的东西。   代码:   记的以前发部过部分的代码今天我在这里在简单的发部一下   复制PHP内容到剪贴板   PHP代码: @$nl=file_get_contents($rs...

火车采集器免费版使出收费版本功能实现原理_PHP

hi 各位免费火车头采集器的采友: 火车头免费版本不支持采集结果的外挂处理,比如采用php来辅助处理结果,而火车头本身对于正则表达式的不完整支持, 导致对于采集一些有混淆文字的内容效果不好,那么咱们怎么做到过滤那些混淆字串呢? 其实很简单--采用服务器端过滤 比如采集发送到服务器端是: $_POST = array("subject"=> "这里是标题","content"=> "混淆文字这里是内容"); 在服务器端我们稍加处理: $_POST["content"] = preg_rep...

火车头discuz6.1完美采集的php接口文件_PHP

PS:对原文件的修改较大,程序中注释已经很详尽,这里就不多说了。 代码如下:// header('Content-Type:text/html;charset=UTF-8'); //if(function_exists("mb_convert_encoding")){ // $tmp = checkAndTranslate("使用前请将该文件直接上传至论坛根目录", 0); // header('Content-Type:text/html;charset=UTF-8'); // print($tmp); /

php文章采集正则代码_PHP

代码如下://采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); $contents = trim(curl_exec($ch)); curl_close($ch); return $contents; } //获得标题和url $string = getwebcontent(http://www.***.com/learn/...

PHPsimple_html_dom.php+正则采集文章代码_PHP

代码如下://包含PHP Simple html Dom 类库文件 include_once('./simplehtmldom/simple_html_dom.php'); //采集html function getwebcontent($url){ $ch = curl_init(); $timeout = 10; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1); $contents = trim(curl_exec($ch)); curl_close($ch...

PHP采集相关教程之一:CURL函数库_PHP

采集 目前为目最全的CURL中文说明了,学PHP的要好好掌握。有很多的参数。大部份都很有用。真正掌握了它和正则,一定就是个采集高手了。 先写一个简单的抓取页面函数 function GetSources($Url,$User_Agent=,$Referer_Url=) //抓取某个指定的页面 { //$Url 需要抓取的页面地址//$User_Agent 需要返回的user_agent信息 如“baiduspider”或“googlebot”$ch = curl_init(); curl_setopt ($ch, CURLOPT_URL, $Url); curl_setopt ($ch,...

PHP采集程序原理分析篇_PHP

苦想了几天,终于弄明白了里面的道理。在这里写出来,请高手指正。 采集程序的思路很简单,无非就是先打一个页面,一般都是列表页,取得里面全部链接的地址,然后打开逐条链接,寻找我们感兴趣的东西,如果找到,就把它入库或别的处理。下面以一个很简单的例子来说说。 首先确定一个采集页,一般就是列表面了。这里目标是:http://www.bitsCN.com/article/11/index.htm。这是一个列表页,我们的目的就是采集这个列表页上全部的文章。...

phpfile_get_contents函数轻松采集html数据_PHP

代码如下://全国,判断条件是$REQUEST_URI是否含有html if (!strpos($_SERVER["REQUEST_URI"],".html")) { $page="http://qq.ip138.com/weather/"; $html = file_get_contents($page,'r'); $pattern="/全国主要城市、县当天和未来五天天气趋势预报在线查询(.*?)/si"; //正则匹配之间的html preg_match($pattern,$html,$pg); echo ""; //正则替换远程地址为本地地址 $p=preg_replace('/\/weather\/(\w+)\/index.htm/', 'tq.php/$1.h...

snoopy强大的PHP采集类使用实例代码_PHP【代码】

下载地址: http://www.bitsCN.com/codes/33397.html Snoopy的一些特点: 1抓取网页的内容 fetch 2 抓取网页的文本内容 (去除HTML标签) fetchtext 3抓取网页的链接,表单 fetchlinks fetchform 4 支持代理主机 5支持基本的用户名/密码验证 6 支持设置 user_agent, referer(来路), cookies 和 header content(头文件) 7支持浏览器重定向,并能控制重定向深度 8能把网页中的链接扩展成高质量的url(默认) 9提交数据并且获取返回值 10 支...

发一个php简单的伪原创程序,配合商城采集用的_PHP

代码如下:$arr=array(); $arr['好']='坏'; $arr['不好']='不坏'; $arr['坏']='好'; $arr['不坏']='不好'; $str="我们好不好"; echo strtr($str,$arr); //输出我们坏不坏 ?> 于是问题就很好解决了。自己构建了一个数据库来收集同义词 关键的两个程序是导入数据库和导出文件。 word2db.php 从文件导入到数据库中 代码如下://将文件中的数组写入到数据库中 require("conn.php"); @require("keyword.php"); mysql_query("delete from...

采集 - 相关标签