【CSDN论坛RSS阅读,(新手学采集,原创),谢谢指教。】教程文章相关的互联网学习教程文章

使用phpQuery采集网页的方法_PHP

phpQuery是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息。更有意思的是,它采用了jQuery的思想,你可以像使用jQuery一样处理页面内容,获取你想要的页面信息。采集头条先看一实例,现在我要采集新浪网国内新闻的头条,代码如下: 代码如下:include 'phpQuery/phpQuery.php'; phpQuery::newDocumentFile('http://www.bitsCN.com'); echo pq(".blkTop h1:eq(0)")->html();简...

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正_PHP

1、使用curl实现站外采集 具体请参考我上一篇笔记:http://www.bitsCN.com/article/46432.htm 2、编码转换首先通过查看源代码找到采集的网站使用的编码,通过mb_convert_encoding函数进行转码; 具体使用方法:代码如下://源字符是$str //以下已知原编码为GBK,转换为utf-8 mb_convert_encoding($str, "UTF-8", "GBK"); //以下未知原编码,通过auto自动检测后,转换编码为utf-8 mb_convert_encoding($str, "UTF-8", "auto"); 3、为...

curl实现站外采集的方法和技巧_PHP

选择curl的理由 关于curl与file_get_contents,摘抄一段通俗易懂的对比:file_get_contents其实是一堆内置的文件操作函数的合并版本,比如file_exists,fopen,fread,fclose,专门提供给懒人用的,而且它主要是用来对付本地文件的,但又是因为懒人的原因,同时加入了对网络文件的支持;curl是专门用来进行网络交互的库,提供了一堆自定义选项,用来应对不同的环境,稳定性自然要大于file_get_contents。 使用方法 1、开启curl支持 由...

phpphp图片采集后按原路径保存图片示例_PHP【图】

代码如下:$domain ='http://www.bitsCN.com';$url = '/newskin/images/v4/logo.jpg';$pats = pathinfo($url);$dir = '.'.$pats['dirname'].'/'; if(!is_dir($dir)) { @mkdirs($dir, 0777); @fclose(fopen($dir.'/index.htm', 'w')); }$img = file_get_contents($domain.$url);file_put_contents('.'.$url,$img); echo ''; function mkdirs($pathname, $mode = 0755){ is_dir(dirname($pathname)) || mkdirs(dirname($pa...

一个基于phpQuery的php通用采集类分享_PHP

一、采集类源码 代码如下: /** *通用列表采集类 *版本V1.3 *作者:JAE */ require_once '../phpQuery/phpQuery/phpQuery.php'; class QueryList{ private $pageURL; private $regArr = array(); public $jsonArr = array(); private $regRange; private $html; /************************************************ * 参数: 页面地址 选择器数组 块选择器 ...

PHP远程采集图片详细教程_PHP

当我们需要采集网络上的某个网页内容时,如果目标网站上的图片做了防盗链的话,我们直接采集过来的图片在自己网站上是不可用的。那么我们使用程序将目标网站上的图片下载到我们网站服务器上,然后就可调用图片了。 本文将使用PHP实现采集远程图片功能。基本流程: 1、获取目标网站图片地址。 2、读取图片内容。 3、创建要保存图片的路径并命名图片名称。 4、写入图片内容。 5、完成。 我们通过写几个函数来实现这一过程。 函数make...

PHP采集类Snoopy抓取图片实例_PHP

用了两天php的Snoopy这个类,发现很好用。获取请求网页里面的所有链接,直接使用fetchlinks就可以,获取所有文本信息使用fetchtext(其内部还是使用正则表达式在进行处理),还有其它较多的功能,如模拟提交表单等。使用方法: 先下载Snoopy类,下载地址:http://sourceforge.net/projects/snoopy/ 先实例化一个对象,然后调用相应的方法即可获取抓取的网页信息代码如下: include snoopy/Snoopy.class.php; $snoopy = new Snoopy()...

PHP采集类snoopy详细介绍(snoopy使用教程)_PHP【代码】

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程。 Snoopy的一些特点: 抓取网页的内容 fetch 抓取网页的文本内容 (去除HTML标签) fetchtext 抓取网页的链接,表单 fetchlinks fetchform 支持代理主机 支持基本的用户名/密码验证 支持设置 user_agent, referer(来路), cookies 和 header content(头文件) 支持浏览器重定向,并能控制重...

PHP使用CURL_MULTI实现多线程采集的例子_PHP

这两天有一客户定制了一个免登录发布模块,因为在模块中需要涉及到很多图片下载的问题,考虑到性能问题,所以特别写了一个CURL_MULTI远程采集网页的函数,以方便以后使用,估计以后都不会使用原来的单线程curl函数去foreach了,其性能对比很明显的。同样获取我的博客的十个不同网页,curl_multi:4.5246081352234,file_get_contents:33.001797914505,将近8倍的效率,可想而知,如果在附件更多的情况下,性能差异就越明显了,希望对...

PHP采集静态页面并把页面css,img,js保存的方法_PHP

本文实例讲述了PHP采集静态页面并把页面css,img,js保存的方法。分享给大家供大家参考。具体分析如下: 这是一个可以获取网页的html代码以及css,js,font和img资源的小工具,主要用来快速获取模板,如果你来不及设计UI或者看到不错的模板,则可以使用这个工具来抓取网页和提取资源文件,提取的内容会按相对路径来保存资源,因此你不必担心资源文件的错误url导入. 首页 index.php,代码如下:代码如下: 网页抓取器 Web Grabber Url Get Sav...

基于PHP的简单采集数据入库程序【续篇】_PHP【图】

在上篇文章中,我们已经采集新闻信息页的列表数据,接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行 新建一个content表 不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段。 这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此...

基于PHP的简单采集数据入库程序_PHP【图】

说到采集,无非就是远程获取信息->提取所需内容->分类存储->读取->展示 也算是简单"小偷程序"的加强版吧 下面是对应核心代码(别拿去做坏事哦^_^) 所要采集的内容是某游戏网站上的公告,如下图:可先利用file_get_contents和简单正则获取基本页面信息整理下基本信息,采集入库:<?phpinclude_once("conn.php");if($_GET[id]<=8&&$_GET[id]){$id=$_GET[id];$conn=file_get_contents("http://www.93moli.com/news_list_4_$id.html")...

php采集自中央气象台范围覆盖全国的天气预报代码实例_PHP

本文实例讲述了php采集自中央气象台范围覆盖全国的天气预报代码。分享给大家供大家参考。具体分析如下: 天气预报信息采集自中央气象台,信息准确,覆盖面广,代码简单,返回是json代码,可以用于客户端调用,也可以在服务器端处理后显示,笔者的wordpress天气预报插件就是使用的这段代码,需要注意的是,这段代码会在服务器产生缓存文件,需要在当前目录中新建data文件夹,保证文件夹可写. php天气预报代码如下:代码如下:/* 作者: freem...

php采集内容中带有图片地址的远程图片并保存的方法_PHP【图】

本文实例讲述了php采集内容中带有图片地址的远程图片并保存的方法。分享给大家供大家参考。具体实现方法如下:代码如下:function my_file_get_contents($url, $timeout=30) { if ( function_exists(curl_init) ) { $ch = curl_init(); curl_setopt ($ch, curlopt_url, $url); curl_setopt ($ch, curlopt_returntransfer, 1); curl_setopt ($ch, curlopt_connecttimeout, $timeout); $file_contents = curl_exec($ch); curl_close(...

PHP实现采集抓取淘宝网单个商品信息_PHP【图】

调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。 思路: file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图...

采集 - 相关标签