【页面抓取!该如何处理】教程文章相关的互联网学习教程文章

php抓取百度热词搜索的http://top.baidu.com/buzz/top10.html源码可私聊。

前面开发PHP 的过程中、有一个网站要做一个导航的、需要用到百度热词、百度搜索榜的 TOP50 。 可以根据FOr 循环找出50 条地址可为这几个都可以抓取 是根据simple_html_dom.php simple_html_dom.php 百度一下 放到相同的目录下我用的是THINKPHP 放在同Action中 //http://top.baidu.com/buzz/top10.html//http://top.baidu.com/buzz?b=1&c=513//http://top.baidu.com/buzz?b=1&fr=topcategory_c513$now_url = http://top.baidu.co...

PHP抓取网页代码示例

//PHP(前提是装了curl):$ch = curl_init();curl_setopt ($ch, CURLOPT_URL, "http://www.xxx/");curl_setopt ($ch, CURLOPT_REFERER, "http://www.xxx/");curl_exec ($ch);curl_close ($ch);//PHP(不装curl用sock)$server = blog.qita.in;$host = blog.qita.in;$target = /xxx.asp;$referer = http://blog.qita.in/; // Referer$port = 80;$fp = fsockopen($server, $port, $errno, $errstr, 30);if (!$fp) { ...

快速了解PHP抓取网页内容的技巧【图】

如何才能正确的实现php抓取网页内容呢?这个问题对于接触PHP语言不久的朋友来说有些难办。课课家今天就为大家介绍了具体的解决办法。首先,在C\windows里的php.ini中我打开了extension=php_curl.dll的功能,然后也重启了apapche,以下是我写的PHP抓取网页内容之抓取百度中PHP的信息:  < ?php  //初始化curl  $ch = curl_init() or die (curl_error());  echo "测试一下";  //设置URL参数  curl_setopt($ch,CURLOPT_URL...

如何用php抓取网页中邮箱地址代码

/** desc:采集网页中的邮箱的代码 */ $url='http://www.xxx.net'; //要采集的网址 $content=file_get_contents($url); //echo $content; function getEmail($str) { //$pattern = "/([a-z0-9]*[-_\.]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[\.][a-z]{2,3}([\.][a-z]{2})?/i"; $pattern = "/([a-z0-9\-_\.]+@[a-z0-9]+\.[a-z0-9\-_\.]+)/"; preg_match_all($pattern,$str,$emailArr); return $e...

phpcurl添加cookie伪造登陆抓取数据【图】

有的网页必须登陆才能看到,这个时候想要抓取信息必须在header里面传递cookie值才能获取 1、首先登陆网站,打开firebug就能看到对应的cookie把这些cookie拷贝出来就能使用了 2、 <?phpheader("Content-type:text/html;Charset=utf8");$ch =curl_init();curl_setopt($ch,CURLOPT_URL,http://www.babytree.com/user/picjournal.php);$header = array();//curl_setopt($ch,CURLOPT_POST,true);//curl_setopt($ch, CURLOPT_POSTFIELDS,...

抓取豆瓣电影TOP250的PHP代码

for ($start = 0; $start < 250; $start += 25) { $url = "http://movie.douban.com/top250?start=$start&filter=&type="; $titles = parsePage($url); if ($titles === false) { echo $url, "\n"; } else { array_walk($titles, printTitle); }} function parsePage($url) { $html = file_get_contents($url); if ($html === false) { return false; } if (preg_match_all...

一个PHP的远程图片抓取函数分享_PHP教程

代码如下:function grabImage($url, $filename = ) { if($url == ) { return false; //如果 $url 为空则返回 false; } $ext_name = strrchr($url, .); //获取图片的扩展名 if($ext_name != .gif && $ext_name != .jpg && $ext_name != .bmp && $ext_name != .png) { return false; //格式不在允许的范围 } if($filename == ) { $filename = time().$ext_name; //以时间戳另起名 } //开始捕获 ob_start(); readfile($url); $img_dat...

一个从别的网站抓取信息的例子(域名查询)_PHP教程

if (isset($xx)) { $dodo=@file("http://www.e9china.com/cgi-bin/comdns.pl?raw=1&lookup=OK&fqdn=".$fqdn."&domain=".$domain."&root=".$root."&cdomain=2.7"); $i=0; while($dodo[$i]) { echo $dodo[$i]; $i++; } exit; } ?> if (isset($submit)) { if ($domain=="") { echo "请输入域名"; exit; } $dom=@file("http://www.e9china.com/cgi-bin/comdns.pl?cdomain=2.7&looku...

实时抓取YAHOO股票报价的代码_PHP教程

function getYahooQuote($stockSymbol = "CCR") { if (!$targetURL) $targetURL = "http://finance.yahoo.com/q?s=$stockSymbol&d=t"; //设定要抓取的URL目标 $fd = fopen("$targetURL", "r"); $stopExtract = 0; $startExtract = 0; while (!feof($fd)) { $buffer = fgets($fd, 4096); //echo trim($buffer)."\n"; if (strstr($buffer,...

如何跨站抓取别的站点的页面的补充_PHP教程

在实际的应用中,经常会遇到一些特殊的情况,比如需要新闻,天气预报,等等,但是作为个人站点或者实力小的站点 我们不可能有那么多的人力 物力 财力去做这些事情,怎么办呢? 好在互联网是 资源共享的,我们可以利用程序 自动的把别的站点的页面抓取回来经过处理后被我们所利用。 用什么呢,那个战友给的是不行的,其实在Php有这个功能,那就是用curl库。请看下面的代码! $ch = curl_init ("http://dailynews.sina.com.cn"); ...

抓取YAHOO股票报价的类_PHP教程

代码如下:function getYahooQuote($stockSymbol = "CCR") { if (!$targetURL) $targetURL = "http://finance.yahoo.com/q?s=$stockSymbol&d=t"; //设定要抓取的URL目标 $fd = fopen("$targetURL", "r"); $stopExtract = 0; $startExtract = 0; while (!feof($fd)) { $buffer = fgets($fd, 4096); //echo trim($buffer)."\n"; if (strstr($buffer, "rowspan=3")) { //echo "extract started at line #$lineCount\n"; $startExtract ...

php论坛采集程序模拟登陆,抓取页面实现代码_PHP教程

代码如下:// 吴燕军 // 2009-06-27 // 采集程序php set_time_limit(0); //cookie保存目录 $cookie_jar = '/tmp/cookie.tmp'; /*函数------------------------------------------------------------------------------------------------------------*/ //模拟请求数据 function request($url,$postfields,$cookie_jar,$referer){ $ch = curl_init(); $options = array(CURLOPT_URL => $url, CURLOPT_HEADER => 0, CURLOPT_NOBODY =...

PHP超链接抓取实现代码_PHP教程

通用HTML标准超链接参数取得正则表达式测试 因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接。 大家帮忙测试一下子,下面的代码是否可以针对所有的标准超链接。 测试代码如下: 代码如下:// -------------------------------------------------------------------------- // File name : Noname1.php // Description : 通用链接参数获取正则表达式测试 // Requirement : PHP4 (http://www.php.com) // Copyrig...

PHP抓取新浪读书频道的小说并生成txt电子书的代码_PHP教程

代码如下:/* Author: Yang Yu */ //想看什么电子书,先去新浪读书搜索,然后填入对应的参数即可 //http://vip.book.sina.com.cn/ //电子书参数 $array_book[0] = 38884; //小说id $array_book[1] = 22172; //章节起始id $array_book[2] = 32533; //章节结束id $array_book[3] = '中国特种部队生存实录:狼牙'; //小说名字 //匹配参数 $title_pre = "/(.*?)<\/h1>/"; //标题部分 $contents_pre = "/(.*?)<\/div>/"; //内容部分 //生...

PHP抓取网页图片并且另存为的实现代码_PHP教程

下面是源代码,及其相关解释 代码如下://URL是远程的完整图片地址,不能为空, $filename 是另存为的图片名字 //默认把图片放在以此脚本相同的目录里 function GrabImage($url, $filename=""){ //$url 为空则返回 false; if($url == ""){return false;} $ext = strrchr($url, ".");//得到图片的扩展名 if($ext != ".gif" && $ext != ".jpg" && $ext != ".bmp"){echo "格式不支持!";return false;} if($filename == ""){$filename ...