【如何防止某些重要页面被人恶意抓取?】教程文章相关的互联网学习教程文章

PHP经典抓取网络数据方法index.phpforum.phpphpno

1、file_get_contents以get的方式获取数据$url = blog.csdn.net/guugle2010; $html = file_get_contents($url); echo $html;以post方式获取数据 $data = array(name => guugle,blog => blog.csdn.net/guugle2010); $data = http_build_query($data);$options = array(http => array(method => POST,header => Content-type:application/x-www-form-urlencode,content => $data));$url = "http://localhost/test.php";$...

经典抓取网络数据方法效率分析(fsockopen/curl/file_get_contents)filegetcontents超时jsfilegetcontentsfilegetcontents

fsocketopen/curl/file_get_contents对比fsocketopen是比较底层的调用,属于网络系统的socket调用1、fsockopen 返回的是没有处理过的数据,包括数据的长度数据内容和数据的结束符2、可以设置基于UDP或是TCP协议去交互curlcurl经过的包装支持HTTPS认证,HTTP POST/PUT方法,cookies等等,功能十分强大。1、curl返回的是处理后的内容2、自动缓存DNS查询信息,同一域名只查询一次性能和效率较高3、支持get、post多种方式请求fopen/fil...

curl和file_get_contents抓取网页乱码的解决之道filegetcontents超时jsfilegetcontentswpfilegetcontents

今天用 curl_init 函数抓取搜狐的网页时,发现采集的网页时乱码,经过分析发现原来是服务器开启了gzip压缩功能。只要往函数 curl_setopt 添加多个选项 CURLOPT_ENCODING 解析 gzip 就可以正确解码了。 还有如果抓取的网页时 GBK 编码,但是脚本确是 utf-8 编码,还得把抓取的网页再用函数 mb_convert_encoding 转换下。 $tmp = sys_get_temp_dir(); $cookieDump = tempnam($tmp, 'cookies'); $url = 'http://tv.s...

michaeljacksonyouarenotalPHP中使用CURL伪造来路抓取页面或文件

代码如下:// 初始化 $curl = curl_init(); // 要访问的网址 curl_setopt($curl, CURLOPT_URL, http://asen.me/); // 设置来路 curl_setopt($curl, CURLOPT_REFERER, http://google.com/); // 不直接输入内容 curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 降结果保存在$result中 $result = curl_exec($curl); // 关闭 curl_close($curl); 注意啦, 使用这个方法, 要确保你的 PHP 环境支持并且开启了 CURL 模块.以上就介绍了mi...

163.com邮箱登陆phpcurl登录163邮箱并抓取邮箱好友列表的代码(经测试)

CURL技术说白了就是模拟浏览器的动作实现页面抓取或表单提交,通过此技术可以实现许多有去的功能。 代码如下:error_reporting(0); //邮箱用户名(不带@163.com后缀的) $user = 'papatata_test'; //邮箱密码 $pass = '000000'; //目标邮箱 //$mail_addr = uenucom@163.com'; //登陆 $url = 'http://reg.163.com/logins.jsp?type=1&url=http://entry.mail.163.com/coremail/fcg/ntesdoor2?lightweight%3D1%26verifycookie%3D1%26lan...

python多线程PHP多线程抓取网页实现代码

受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Multi Function如此强大,能否用 Curl Multi Functions 来写并发多线程下载文件呢,当然可以,下面给出我的代码: 代码1:将获得的代码直接写入某个文件 代码如下:$urls = array( 'http://www.sina.com.cn/', 'http://www.sohu.com/', 'http://www.163.com/' ); // 设置要...

生成htmlPHP抓取页面生成HTMl文件简单代码

缓存技术ob_start();//开启缓存 // $c//从缓存中获取内容$c//localhost/weizhuan/detail.php?aid=349&uid=1534'); ob_end_clean();//关闭缓存并清空 /***缓存结束***/ file_put_contents("ceshi2.html", $content); echo $content; echo "ok";?>以上就介绍了生成html PHP抓取页面生成HTMl文件简单代码,包括了生成html方面的内容,希望对PHP教程有兴趣的朋友有所帮助。

域名查询一个从别的网站抓取信息的例子域名查询

if (isset($xx)) { $dodo=@file("http://www.e9china.com/cgi-bin/comdns.pl?raw=1&lookup=OK&fqdn=".$fqdn."&domain=".$domain."&root=".$root."&cdomain=2.7"); $i=0; while($dodo[$i]) { echo $dodo[$i]; $i++; } exit; } ?> if (isset($submit)) { if ($domain=="") { echo "请输入域名"; exit; } $dom=@file("http://www.e9china.com/cgi-bin/comdns.pl?cdomain=2.7&looku...

php蜘蛛正常抓取,用户访问调转指定页面代码

有些时候我们展现的内容是供搜索引擎用了,很多用户是不必看到的,所以下面分享该php代码,蜘蛛正常抓取,用户访问调转指定页面代码$v = false; $tmp = $_SERVER['HTTP_USER_AGENT'];if(strpos($tmp, 'Googlebot') !== false){ $v = true;} else if(strpos($tmp, 'Baiduspider') >0){ //echo '百度'; $v = true;} else if(strpos($tmp, 'Yahoo! Slurp') !== false){ //echo '雅虎'; $v = true;} else if(st...

php远程抓取网站图片并保存的代码【图】

例子,php抓取网站数据的代码。/** * 一个用于抓取图片的类 * * @package default * @author WuJunwei */ class download_image { public $save_path; //抓取图片的保存地址 //抓取图片的大小限制(单位:字节) 只抓比size比这个限制大的图片 public $img_size=0; //定义一个静态数组,用于记录曾经抓取过的的超链接地址,避免重复抓取 public static $a_url_arr=array(); ...

我自己在用的php日期抓取

我自己在用的php日期抓取 echo j7_getdate('Y-m-d','2010-11-15','+10 day');function j7_getdate($format,$time='now',$opt){ return date("$format",strtotime("$time $opt"));}//輸出 2010-11-25//詳細 strtotime 使用方法/*echo strtotime("now"), "\n";echo strtotime("10 September 2000"), "\n";echo strtotime("+1 day"), "\n";echo strtotime("+1 week"), "\n";echo strtotime("+1 week 2 days 4 hours 2 seconds"), ...

利用curl,正则表达式做的一个php蜘蛛抓取器【图】

凤网fcms内容管理系统get.php 抓取框架,对网页内容的分析处理并进行相关替换std.php 通用正则news_67_com.php 对http://news.67.com 的抓取分析器先抓列表,再抓内容页。还欠缺监控,统计,错误处理功能。个人觉得还是比较好玩。 include_once dirname(__FILE__) . '/std.php';$site = array( 'aname' => '中国娱乐网', 'domain' => 'news.67.com', 'dirname' => '目录名称,用于匹配基于目录不同的正文', ...

php抓取网页中邮箱地址的代码

/** desc:采集网页中的邮箱的代码 link:bbs.it-home.org date:2013/2/24*/$url='http://bbs.it-home.org'; //这个网页里绝对含有邮件地址。$content=file_get_contents($url);//echo $content;function getEmail($str) {//$pattern = "/([a-z0-9]*[-_\.]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[\.][a-z]{2,3}([\.][a-z]{2})?/i";$pattern = "/([a-z0-9\-_\.]+@[a-z0-9]+\.[a-z0-9\-_\.]+)/";preg_match_all($pattern,$str,...

phpfile_get_contents函数抓取页面信息的代码

$url="http://bbs.55bbs.com";$contents=@file_get_contents($url);//preg_match_all("/(.*?)/is",$contents,$content);preg_match_all("/(.*?)/is",$contents,$content);print_r($content[0]);?>对于较为复杂点的页面抓取,可以考虑采用curl的方法,具体可以参考如下的文章: PHP中用CURL伪造IP来源的方法 php使用curl判断远程文件是否存在的代码 php使用curl伪造IP来源的代码 php模拟登录qq邮箱(curl命令详解) php curl 学习总结...

CURL抓取惠民自行车服务点车辆信息【图】

CURL抓取惠民自行车服务点 车辆信息 /** * 惠民自行车服务点 车辆信息 * @Support:QQ 910111100 (JoY) * @Time: 2012.09.29 15:50:00 * @HZapi.com (http://www.hzapi.com/)*/$url = "http://www.2773456.com/zdfb/huizhou_station.php"; $ch = curl_init(); curl_setopt ($ch, CURLOPT_URL, $url); curl_setopt ($ch, CURLOPT_REFERER, 'http://www.2773456.com/zdfb/'); curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1); curl...