采集目标:列表: http://www.cnys.com/zixun/list_2_2.html 原文:http://www.cnblogs.com/guo2001china/p/5299238.html
在论坛好久了没有怎么正式的发表过东西,今天给大家共享一下我的采集代码!思路: 采集程序的思路很简单大体可以分为以下几个步骤: 1.获取远程文件源代码(file_get_contents或用fopen).2.分析代码得到自己想要的内容(这里用正规匹配,一般是得到分页)。 3.跟根得到的内容进行下载入库等操作。在这里第二步有可能要重复的操作好几次,比如说要先分析一下分页地址,在分析一下内页的内容才能取得我们想要的东西。代码:...
?123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169...
这里模拟表单登陆窗口提交代码部分1,生成session_id保存到 cookie$login_url = ‘http://www.96net.com.cn/Login.php‘;$cookie_file = dirname(__FILE__)."/pic.cookie";$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $login_url);curl_setopt($ch, CURLOPT_HEADER, 0);curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);curl_exec($ch);curl_close($ch);2,处理提交的登陆的数...
<?php
error_reporting(0);
define("temp_dir", dirname(__FILE__)."/Public/");
define("U", "11111");//$_GET[‘e‘];define("P", "mima");$dlfk=login(U, P);
echo$dlfk; //登陆$bbb=friendshow();
$bbb = preg_replace(‘/<script[^>]*?>(.*?)<\/script>/is‘,"",$bbb);
$bbb = preg_replace(‘/<input[^>]*?>/is‘,"",$bbb);
$bbb = preg_replace(‘/<a style[^>]*?>(.*?)<\/a>/is‘,"",$bbb);
$bbb = preg_replace(‘/<a[^>...
一般服务器不会胡乱返回gzip压缩的数据,一般是客户端请求的头部里包含你浏览器能接受的压缩方式,Accept-Encoding:gzip,deflate,sdch这里是gzip 、deflate、sdch这三种方式,这里不一一说明是指什么,不懂的可以去找谷哥度娘,有些服务器强制返回gzip压缩的数据,我们采集的时候,返回的是乱码,根本无法读取使用,这个时候马上查看手册发现其实curl里有个参数,curl_setopt($ch, CURLOPT_ENCODING,‘gzip‘);手册解释:
CURLOPT_...
本文实例讲述了php采集内容中带有图片地址的远程图片并保存的方法。分享给大家供大家参考。具体实现方法如下:复制代码 代码如下:function my_file_get_contents($url, $timeout=30) {
if ( function_exists(‘curl_init‘) )
{
$ch = curl_init();
curl_setopt ($ch, curlopt_url, $url);
curl_setopt ($ch, curlopt_returntransfer, 1);
curl_setopt ($ch, curlopt_connecttimeout, $timeout);
$file_conten...
php采集程序构建基本步骤:采集程序是什么?获取远程数据(文字、图片、图片)并快速保存到本地或指定地址。如天气预报(小偷程序):远程获取--》替换内容--》展示给用户如实时更新的新闻(采集内容):远程获取--》提取内容--》分类存储--》读取内容---》展示内容*************************设计PHP采集入库UML 列表正则: 终端正则:**************************file_get_contents()获取远程页面内容preg_match_all()匹...
没有不可能只有不去做,哈哈 复制代码 代码如下:<?php set_time_limit(0); function _rand() { $length=26; $chars = "0123456789abcdefghijklmnopqrstuvwxyz"; $max = strlen($chars) - 1; mt_srand((double)microtime() * 1000000); $string = ‘‘; for($i = 0; $i < $length; $i++) { $string .= $chars[mt_rand(0, $max)]; } return $string; } $HTTP_SESSION=_rand(); $HTTP_SESSION; $HTTP_Server="search.china.alibaba.co...
谁采集过QQ空间日志?日志内容采集不出来 有时候可以采集 有时候返回空的 能伪造都伪造了 。 php代码 哎 CSDN提示 字符太长了 我截图: [img=http://api.cmccapp.com/jt.jpg][/img] 游览器直接打开能够显示 用PHP读取不了~ 谁有空 模拟测试下呢------解决方案--------------------
采集并非万能的,因为服务器端可以轻松判断来访者的身份类型进行屏蔽.这样的状况我见得多了.并非偶然.
PHP采集静态页面并把页面css,img,js保存的方法,静态页面css
本文实例讲述了PHP采集静态页面并把页面css,img,js保存的方法。分享给大家供大家参考。具体分析如下:
这是一个可以获取网页的html代码以及css,js,font和img资源的小工具,主要用来快速获取模板,如果你来不及设计UI或者看到不错的模板,则可以使用这个工具来抓取网页和提取资源文件,提取的内容会按相对路径来保存资源,因此你不必担心资源文件的错误url导入.
首页 index.ph...
我最近在学习php抓取,遇到一个问题被困扰了好长时间了,我在抓取一个页面的信息(假设a.php),这个页面只是一些基本的html框架,其他关键信息是通过ajax请求(b.php)回来的,返回的是json,然后在通过页面js将json解析,绘制到页面上。问题的关键是ajax请求的信息里有个手机号码需要登录后才显示完整,我尝试的方法一:模拟登录后直接抓取页面(a.php),遇到ajax不能跨域调用;方法二:用模拟登录抓取json数据(b.php)得到(a...
没有不可能只有不去做,哈哈 代码如下:set_time_limit(0); function _rand() { $length=26; $chars = "0123456789abcdefghijklmnopqrstuvwxyz"; $max = strlen($chars) - 1; mt_srand((double)microtime() * 1000000); $string = ''; for($i = 0; $i $string .= $chars[mt_rand(0, $max)]; } return $string; } $HTTP_SESSION=_rand(); $HTTP_SESSION; $HTTP_Server="search.china.alibaba.com"; $HTTP_URL="/company/k-%CB%AE%CB...
PHP Apache 如何实现图片高程度防采集
图片网站,内容页主体内容就只有一张图片。不用考虑搜索引擎优化。
有什么方法能高程度防采集呢?第一次写程序有很多不懂,希望各位前辈指教。回复内容:PHP Apache 如何实现图片高程度防采集
图片网站,内容页主体内容就只有一张图片。不用考虑搜索引擎优化。
有什么方法能高程度防采集呢?第一次写程序有很多不懂,希望各位前辈指教。1、不想让正规的网络蜘蛛爬的话可以写个 robots.txt,可以...
代码如下:
$html = TestabcdefghijklmnopqrstuvwxyzEOF;
// create document object model
$dom = new DOMDocument();
// load html into document object model
@$dom->loadHTML($html);
// create domxpath instance
$xPath = new DOMXPath($dom);
// get all elements with a particular id and then loop through and print the href attribute
$elements = $xPath->query('//*[@id="content"]/p/span');
$content = $element...