首页 / PHP / 使用PHP的Snoopy类抓取图片_PHP教程

使用PHP的Snoopy类抓取图片_PHP教程

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用PHP的Snoopy类抓取图片_PHP教程，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3316字，纯文字阅读大概需要5分钟。

内容图文

用了两天php的Snoopy这个类，发现很好用。获取请求网页里面的所有链接，直接使用fetchlinks就可以，获取所有文本信息使用fetchtext（其内部还是使用正则表达式在进行处理），还有其它较多的功能，如模拟提交表单等。

使用方法：

先下载Snoopy类，下载地址：http://sourceforge.net/projects/snoopy/
先实例化一个对象，然后调用相应的方法即可获取抓取的网页信息

示例：

include 'snoopy/Snoopy.class.php';
    
$snoopy = new Snoopy();
    
$sourceURL = "http://xxxxxxxxx";
$snoopy->fetchlinks($sourceURL);
    
$a = $snoopy->results;

它并没有提供获取网页中所有图片地址的方法，自己有个需求是要获取一个页面中所有文章列表中图片地址。然后自己就写了一个，主要还是正则那里匹配重要。

//匹配图片的正则表达式
 $reTag = "/<img[^s]+src="(http://[^"]+).(jpg|png|gif|jpeg)"[^/]*/>/i";

因为需求比较特殊，只需要抓取写死htp://开头的图片（外站的图片可能使得了防盗链，想先抓取到本地）

抓取指定网页，并筛选出预期的所有文章地址；
循环抓取第一步中的文章地址，然后使用匹配图片的正则表达式进行匹配，获取页面中所有符合规则的图片地址；
根据图片后缀和ID（这里只有gif、jpg）保存图片---如果此图片文件存在，先将其删除再保存。


fetchlinks($sourceURL);
    
    $a = $snoopy->results;
    $re = "/d+.html$/";
    
    //过滤获取指定的文件地址请求
    foreach ($a as $tmp) {
        if (preg_match($re, $tmp)) {
            getImgURL($tmp);
        }
    }
    
    function getImgURL($siteName) {
        $snoopy = new Snoopy();
        $snoopy->fetch($siteName);
        
        $fileContent = $snoopy->results;
        
        //匹配图片的正则表达式
        $reTag = "//i";
        
        if (preg_match($reTag, $fileContent)) {
            $ret = preg_match_all($reTag, $fileContent, $matchResult);
            
            for ($i = 0, $len = count($matchResult[1]); $i < $len; ++$i) {
                saveImgURL($matchResult[1][$i], $matchResult[2][$i]);
            }
        }
    }
    
    function saveImgURL($name, $suffix) {
        $url = $name.".".$suffix;
        
        echo "请求的图片地址：".$url."
";
        
        $imgSavePath = "E:/xxx/style/images/";
        $imgId = preg_replace("/^.+/(d+)$/", "\1", $name);
        if ($suffix == "gif") {
            $imgSavePath .= "emotion";
        } else {
            $imgSavePath .= "topic";
        }
        $imgSavePath .= ("/".$imgId.".".$suffix);
        
        if (is_file($imgSavePath)) {
            unlink($imgSavePath);
            echo "文件".$imgSavePath."已存在，将被删除";
        }
        
        $imgFile = file_get_contents($url);
        $flag = file_put_contents($imgSavePath, $imgFile);
        
        if ($flag) {
            echo "文件".$imgSavePath."保存成功";
        }
    }
?>

在使用php抓取网页：内容、图片、链接的时候，我觉得最重要的还是正则(根据抓取的内容和指定的规则获取想要的数据)，思路其实都比较简单，用到的方法也并不多，也就那几个（而且抓取内容还是直接调用别人写好的类中的方法就可以了）

但之前想过的是php似乎并没有实现如下的方法，比如一个文件中有N行(N很大)，需要将其中符合规则的行内容进行替换，如第3行是aaa需要转成bbbbb。一般的需要修改文件时的常见做法：

一次读取整个文件（或是逐行读取），然后使用临时文件进行保存最终转换后的结果，再替换原始文件
逐行读取，使用fseek控制文件指针的位置，然后fwrite写入

方案1在文件较大时，一次读取不可取（逐行读取，然后写入临时文件再替换原始文件效率感觉也不高），方案2则在被替换的字符串长度小于等于目标值时没问题，但超过了则会有问题，它会“越界”，将下一行的数据也打乱了（不能像JavaScript中有“选区”的概念，使用新的内容进行替换）。

下面是使用方案2做试验的代码：

先读取一行，此时文件指针其实是指到下一行开头，使用fseek将文件指针回移到上一行起始位置，然后使用fwrite进行替换操作，正因为是替换操作，在不指定长度的情况下，它把影响到下一行的数据，而我想要的是只想针对这一行进行操作，例如删除这一行或是整行只替换为一个1，上面的例子达不到要求，或许是我还没有找到合适的方法…

http://www.bkjia.com/PHPjc/752523.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/752523.htmlTechArticle用了两天php的Snoopy这个类，发现很好用。获取请求网页里面的所有链接，直接使用fetchlinks就可以，获取所有文本信息使用fetchtext（其内部还...

内容总结

以上是互联网集市为您收集整理的使用PHP的Snoopy类抓取图片_PHP教程全部内容，希望文章能够帮你解决使用PHP的Snoopy类抓取图片_PHP教程所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/181681.html

来源：【匿名】

更多 ►

【使用PHP的Snoopy类抓取图片_PHP教程】教程文章相关的互联网学习教程文章

php中Snoopy类用法实例【代码】

本文实例讲述了php中Snoopy类用法。分享给大家供大家参考。具体分析如下：这里演示了php中如何通过Snoopy抓取网页信息snoopy类的下载地址：http://sourceforge.net/projects/snoopy/ /* You need the snoopy.class.php from http://snoopy.sourceforge.net/ */ include("snoopy.class.php"); $snoopy = new Snoopy; // need an proxy?: //$snoopy->proxy_host = "my.proxy.host"; //$snoopy->proxy_port = "8080"; // set browser...

基于Snoopy的PHP近似完美获取网站编码的代码

先要到网上下载Snoopy.class.php 调用方法：复制代码代码如下:<?php require ‘lib/Snoopy.class.php‘; require ‘lib/WebCrawl.class.php‘;//包含下面代码 $go=new WebCrawl(‘http://www.baidu.com‘); echo $go->getCharset(); ?> 复制代码代码如下:<?php class WebCrawl { private $url; private $request; public $charset_arr=array( ‘gb2312‘, ‘utf-8‘, ‘big5‘, ‘gbk‘, ‘ascii‘, ‘cp936‘, ‘ibm037‘, ‘i...

php snoopy用法是什么【代码】【图】

php snoopy用法：1、【fetch($URI)】为了抓取网页的内容；2、【fetchtext($URI)】去除HTML标签和其他的无关数据；3、【fetchform($URI)】返回网页中表单内容。本教程操作环境：windows7系统、PHP5.6版，DELL G3电脑。php snoopy用法：Snoopy类方法及示例：1、fetch($URI)这是为了抓取网页的内容而使用的方法。$URI参数是被抓取网页的URL地址。抓取的结果被存储在 $this->results 中。如果你正在抓取的是一个框架，Snoopy将会将每个...

如何解决php Snoopy.class.php乱码问题【图】

php Snoopy乱码的解决办法：1、利用阿拉伯语Windows打开；2、复制无乱码的代码另存为“UTF-8”编码即可。推荐：《PHP视频教程》PHP的Snoopy.class.php自官方下载到的Snoopy.class.php的编码问题，这个文件使用的是“阿拉伯语（Windows）”进行编码的，至少在这个编码下查看没有乱码。为了方便日后改写代码，可以利用阿拉伯语（Windows）打开，然后Copy无乱码的代码另存为UTF-8编码，方便日后更改处理。以上就是如何解决php Snoopy....

PHP使用Snoopy类实现页面抓取的方法

本篇文章主要介绍PHP使用Snoopy类实现页面抓取的方法，感兴趣的朋友参考下，希望对大家有所帮助。本文实例讲述了php中Snoopy类用法，具体分析如下：这里演示了php中如何通过Snoopy抓取网页信息/* You need the snoopy.class.php from http://snoopy.sourceforge.net/ */ include("snoopy.class.php"); $snoopy = new Snoopy; // need an proxy?: //$snoopy->proxy_host = "my.proxy.host"; //$snoopy->proxy_port = "8080"; // se...

使用Snoopy类解析html文件的方法

这篇文章主要介绍了php基于Snoopy解析网页html的方法,实例分析了使用Snoopy类解析html文件的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下本文实例讲述了php基于Snoopy解析网页html的方法，具体实现方法如下：set_time_limit(0); $user = array(20517, 20518); header("content-Type: text/html; charset=utf-8"); require_once ./Snoopy.php; $snoopy = new Snoopy(); //$uri = http://www.juzimi.com/meitumeiju; $uri = ...

php基于采集类Snoopy实现抓取迅雷VIP账号的方法

本篇文章主要介绍php基于采集类Snoopy实现抓取迅雷VIP账号的方法，感兴趣的朋友参考下，希望对大家有所帮助。具体如下：看了@Jinn_Wei Python版本的抓取账号，于是顺手写了个PHP版本PS1：代码没经过优化，只实现了基本的功能PS2：代码中使用了SnoopyPS3：测试地址：http://xunlei.kphcdr.com<?php /*** 抓取爱密码迅雷VIP账号* @author kphcdr@163.com*/ header("Content-type: text/html; charset=UTF-8"); include Snoopy.php; $...

PHP采集类snoopy实例介绍

snoopy是一个php类，用来模仿web浏览器的功能，它能完成获取网页内容和发送表单的任务。官方网站 http://snoopy.sourceforge.net/Snoopy的一些功能特点：抓取网页的内容 fetch()抓取网页的文本内容 (去除HTML标签) fetchtext()抓取网页的链接，表单 fetchlinks() fetchform()支持代理主机支持基本的用户名/密码验证支持设置 user_agent, referer(来路), cookies 和 header content(头文件)支持浏览器重定向，并能控制重定向深度能把...

php使用snoopy与curl模拟登陆的实例分享

说起模拟登录，很多人可能会想起CURL。其实除了CURL，snoopy也是可以实现模拟登陆的。本文就实例分析了snoopy与curl两种实现方法，希望对大家有所帮助。php模拟登陆的实现方法，具体实例代码如下：1）使用snoopy模拟登陆：<?php set_time_limit(0); require "Snoopy.class.php"; $snoopy=new Snoopy(); $snoopy->referer=http://www.***.net/; $snoopy->agent="Mozilla/5.0 (Windows NT 6.1; rv:22.0) Gecko/20100101 Firefox/22.0...

php数据抓取类Snoopy使用

php 采集 Snoopy 详解 PHP采集利器snoopy应用详解 Snoopy是一个php类，用来模拟浏览器的功能，可以获取网页内容，发送表单。Snoopy正确运行需要你的服务器的PHP版本在4以上，并且支持PCRE（Perl Compatible Regular Expressions），基本的LAMP服务都支持。一、Snoopy的一些特点: 　　1.抓取网页的内容 fetch 　　2.抓取网页的文本内容 (去除HTML标签) fetchtext 　　3.抓取网页的链接，表单 fetchlinks fetchform 　　4.支持代理主...

snoopy（强大的PHP采集类）详细介绍

Snoopy是一个php类，用来模拟浏览器的功能，可以获取网页内容，发送表单，可以用来开发一些采集程序和小偷程序，本文章详细介绍snoopy的使用教程。Snoopy的一些特点:抓取网页的内容 fetch抓取网页的文本内容 (去除HTML标签) fetchtext抓取网页的链接，表单 fetchlinks fetchform支持代理主机支持基本的用户名/密码验证支持设置 user_agent, referer(来路), cookies 和 header content(头文件)支持浏览器重定向，并能控制重定向深度...

snoopy简介及使用【代码】

Snoopy是一个php类，用来模拟浏览器的功能，可以获取网页内容，发送表单。Snoopy正确运行需要你的服务器的PHP版本在4以上，并且支持PCRE（Perl Compatible Regular Expressions），基本的LAMP服务都支持。Snoopy类的官网下载地址为：http://snoopy.sourceforge.net/一、Snoopy的一些特点:1.抓取网页的内容 fetch2.抓取网页的文本内容 (去除HTML标签) fetchtext3.抓取网页的链接，表单 fetchlinks fetchform4.支持代理主机5.支持基本...

snoopy图片基于Snoopy的PHP近似完美获取网站编码的代码

先要到网上下载Snoopy.class.php 调用方法：代码如下:require 'lib/Snoopy.class.php'; require 'lib/WebCrawl.class.php';//包含下面代码 $go=new WebCrawl('http://www.baidu.com'); echo $go->getCharset(); ?> 代码如下:class WebCrawl { private $url; private $request; public $charset_arr=array( 'gb2312', 'utf-8', 'big5', 'gbk', 'ascii', 'cp936', 'ibm037', 'ibm437', 'ibm500', 'asmo-708', 'dos-720', 'ibm737'...

PHP采集类Snoopy.class.php

Snoopy是一个php采集类，用来模拟浏览器获取网页内容和发送表单。下面是一些Snoopy特性：容易抓取网页内容容易抓取页面文本（去除html标签）容易抓取网页内链接支持代理抓取支持基本的用户名、密码认证支持设置user-agent，referer，cookies和header内容支持浏览器转向，和控制转向深度能把页面中的链接转化成高质量的链接容易提交数据和获得返还值能追踪HTML框架支持重定向的时候传递CookiesSnoopy类，方法：fetch($URI)抓取网页的...

程序php开发通过snoopy模拟登陆其他有验证码的网站访求【图】

实现需求：通过snoopy获得A站sessionid和验证码图片，在自己的网站上显示登陆表单，提交后，snoopy提交输入信息到A站实现登陆，并获取里面的资料作分析。（PS：^_^不错的php开发学习交流群：256271784，验证:cxy，有兴趣的话可以加入进来一起讨论）验证码和sessionid的获取：//获取图片$snoopy->fetch(http://www.a.com/imgcode.gif);//从header信息里面分析出sessionidpreg_match(/JSESSIONID=([\w]+);/, $snoopy->headers[2],...

PHP - 技术教程分类

PHP 教程 PHP 简介 PHP 安装 PHP 语法 PHP 变量 PHP echo/print PHP EOF(heredoc) PHP 数据类型 PHP 类型比较 PHP 常量 PHP 字符串 PHP 运算符 PHP If...Else PHP Switch PHP 数组 PHP 数组排序 PHP 超级全局变量 PHP While 循环 PHP For 循环 PHP 函数 PHP 魔术常量 PHP 命名空间 PHP 面向对象 PHP 测验 PHP 表单 PHP 表单验证 PHP 表单 - 必需字段 PHP 完整表单实例 PHP $_GET 变量 PHP $_POST 变量 PHP 多维数组 PHP 日期 PHP 包含 PHP 文件 PHP 文件上传 PHP Cookie PHP Session PHP E-mail PHP Error PHP Exception PHP 过滤器 PHP 7 新特性 PHP MySQL 简介 PHP MySQL 连接 PHP MySQL 创建数据库 PHP MySQL 创建数据表 PHP MySQL 插入数据 PHP MySQL 插入多条数据 PHP MySQL 预处理语句 PHP MySQL 读取数据 PHP MySQL Where PHP MySQL Order By PHP MySQL Update PHP MySQL Delete PHP ODBC AJAX 简介 AJAX PHP AJAX 数据库 AJAX 实时搜索 AJAX 投票 PHP Array PHP Calendar PHP cURL PHP Date PHP Directory PHP Error PHP Filesystem PHP Filter PHP FTP PHP HTTP PHP Mail PHP Math PHP Misc PHP MySQLi PHP PDO PHP String PHP Zip PHP Timezones PHP 图像处理 PHP RESTful PHP PCRE PHP 可用的函数 PHP Composer php 全部

PHP - 最热教程

php如何取出数组的前几个元素 PHP变量什么时候释放 PHP如何实现在数据库随机获取几条记录如何解决php base64解码乱码 php主要用于哪些领域 Laravel 批量插入(insert)数据六款国内优秀免费wordpress主题推荐 React如何从后端获取数据并渲染到前端？纯PHP实现定时器任务（Timer），php实现...php该如何安装pdo_mysql扩展

首页 / PHP / 使用PHP的Snoopy类抓取图片_PHP教程

使用PHP的Snoopy类抓取图片_PHP教程

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用PHP的Snoopy类抓取图片_PHP教程】教程文章相关的互联网学习教程文章

php中Snoopy类用法实例【代码】

基于Snoopy的PHP近似完美获取网站编码的代码

php snoopy用法是什么【代码】【图】

如何解决php Snoopy.class.php乱码问题【图】

PHP使用Snoopy类实现页面抓取的方法

使用Snoopy类解析html文件的方法

php基于采集类Snoopy实现抓取迅雷VIP账号的方法

PHP采集类snoopy实例介绍

php使用snoopy与curl模拟登陆的实例分享

php数据抓取类Snoopy使用

snoopy（强大的PHP采集类）详细介绍

snoopy简介及使用【代码】

snoopy图片基于Snoopy的PHP近似完美获取网站编码的代码

PHP采集类Snoopy.class.php

程序php开发通过snoopy模拟登陆其他有验证码的网站访求【图】

PHP - 相关标签

PHP - 技术教程分类

PHP - 最新教程

PHP - 最热教程