首页 / 正则 / php正则抓取整个域名下的图片

php正则抓取整个域名下的图片

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了php正则抓取整个域名下的图片，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4288字，纯文字阅读大概需要7分钟。

内容图文

代码出处：jUnion

适用平台：Windows， Linux(Ubuntu)，php-5.2.5+，Apache

功能：抓取整个站点的图片，暂无借助php的curl插件开发，后期完善

配置：config目录下
domain_name：域名（默认：bizhibar.com）
request_site：网站网址（默认：http://www.bizhibar.com/）
request_url：从网站的哪个页面开始（默认：http://www.bizhibar.com/）
accept_type: 图片类型（默认：gif, bmp, png, ico, jpg, jpeg）
save_path：图片保存路径（默认：savefiles/）
partition_name：图片保存目录名称前缀（默认：img_）
dir_file_limit: 每个目录容许多少个文件（默认：100）
serialize_img_size: 当读取了多少个图片地址才缓存到cache目录下的accompImg文件当中，下次继续抓取的时候会忽略这些地址。（默认：30）
serialize_url_size：与serialize_url_size一样，已读取多少个链接地址才缓存到cache目录
下的overURL，下次继续抓取的时候忽略这些地址。（默认：10）

说明：欢迎诸君批评指教，有任何新问题或者需要改进的地方，请您反馈给我

set_time_limit(0);
require dirname(__FILE__).DIRECTORY_SEPARATOR.'include'.DIRECTORY_SEPARATOR.'Capture.const.php';
require __Home__.'include'.__Os__.'Capture.class.php';
$_cfg = array(
'site' => __Home__.'config'.__Os__.'capture.site.php',
'preg' => __Home__.'config'.__Os__.'capture.preg.php',
'accompImg' => __Home__.'cache'.__Os__.'accompImg',
'overURL' => __Home__.'cache'.__Os__.'overURL'
);
$_parse = new Capture( $_cfg );
$_parse->parseQuestUrl();
?>

/**
* The main class
* @author pankai<530911044@qq.com>
* @date 2013-08-10
*/
class Capture {
private static $_Config = array();
private static $_CapSite = NULL;
private static $_CapPreg = NULL;
private static $_overURL = array();
private $_mark = FALSE;
private static $_markTime = 1;
/**
* initialize the main class: Capture
* @param $_cfg array
*/
public function __construct( &$_cfg ) {
self::$_Config = &$_cfg;
self::$_CapSite = require $_cfg['site'];
self::$_CapPreg = require $_cfg['preg'];
foreach( self::$_CapPreg as $_key => $_value ) {
self::$_CapPreg[$_key] = str_replace( '_request_site', self::$_CapSite['request_site'], $_value );
}
self::import( 'file.OperateFile' );
if( file_exists( $_cfg['overURL'] ) && filesize( $_cfg['overURL'] ) > 0 ) {
$_contents = OperateFile::readText( $_cfg['overURL'], filesize( $_cfg['overURL'] ) );
self::$_overURL = unserialize( $_contents );
}
self::import('pivotal.Pivotal');
if( file_exists( $_cfg['accompImg'] ) && filesize( $_cfg['accompImg'] ) > 0 ) {
$_contents = OperateFile::readText( $_cfg['accompImg'], filesize( $_cfg['accompImg'] ) );
Pivotal::$_accompImg = unserialize( $_contents );
}
}
/**
* load class, follow Java pragrammer(package): import com.jUnion.Capture
* @param $_class
*/
public static function import( $_class ) {
require_once __Home__.'include'.__Os__.str_replace( '.', __Os__, $_class ).'.class.php';
}
/**
* create an instance of Pivotal class
* @param $_source
*/
private function getCapInstance( &$_source ) {
$this->_mark = FALSE;
$_Captal = new Pivotal( self::$_Config, $_source );
$_tagA = $_Captal->parseUrl();
$this->_mark = TRUE;
return $_tagA;
}
/**
* go forward one by one
* @param $_tagArr
*/
private function roundTagA( &$_tagArr ) {
if( $_tagArr == NULL ) {
return;
}
$_tagArrLength = count( $_tagArr );
for( $i = 0; $i < $_tagArrLength; $i ++ ) {
if( is_array( $_tagArr[ $i ] ) ) {
$this->roundTagA( $_tagArr[ $i ] );
}
else {
if( stripos( $_tagArr[$i], self::$_CapSite['domain_name'] )
=== FALSE ) {
continue;
}
if( in_array( $_tagArr[$i], self::$_overURL ) ) {
continue;
}
self::$_overURL[] = $_tagArr[$i];
if( count( self::$_overURL ) % self::$_CapSite['serialize_url_size'] == 0 ) {
OperateFile::setText( self::$_Config['overURL'], serialize( self::$_overURL ) );
}
do {
$_tagA = $this->getCapInstance( Http::get( $_tagArr[$i] ) );
sleep( self::$_CapSite['preform_page_time'] * self::$_markTime );
if( $this->_mark === TRUE ) {
self::$_markTime = self::$_CapSite['preform_page_time'];
break;
}
self::$_markTime *= 2;
} while( true );
/* parse the main page and return next page */
$this->roundTagA( $_tagA );
}
}
}
public function parseQuestUrl() {
self::import('http.Http');
$_round_Arr = $this->getCapInstance( Http::get( self::$_CapSite['request_url'] ) );
$this->roundTagA( $_round_Arr );
}
}
?>

内容总结

以上是互联网集市为您收集整理的php正则抓取整个域名下的图片全部内容，希望文章能够帮你解决php正则抓取整个域名下的图片所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/164333.html

来源：【匿名】

【上一篇】使用curl和正则表达式抓取网页数据【下一篇】正则表达式语法

更多 ►

【php正则抓取整个域名下的图片】教程文章相关的互联网学习教程文章

Java正则抓取Email【代码】【图】

实现思路：1.使用Java.net.URL对象，绑定网络上某一个网页的地址2.通过java.net.URL对象的openConnection()方法获得一个HttpConnection对象3.通过HttpConnection对象的getInputStream()方法获得该网络文件的输入流对象InputStream4.循环读取流中的每一行数据，并由Pattern对象编译的正则表达式区配每一行字符，取得email地址关键代码： package cn.bdqn;import java.io.BufferedReader; import java.io.InputStreamReader;import j...

如何使用PHP实现正则抓取页面中的网址

从页面中抓取页面中所有的链接，当然使用PHP正则表达式是最方便的办法。要写出正则表达式，就要先总结出模式，那么页面中的链接会有几种形式呢？下面一起来看看。前言链接也就是超级链接，是从一个元素（文字、图片、视频等）链接到另一个元素（文字、图片、视频等）。网页中的链接一般有三种，一种是绝对URL超链接，也就是一个页面的完整路径；另一种是相对URL超链接，一般都链接到同一网站的其他页面；还有一种是页面内的超链接，...

php正则抓取整个域名下的图片

php正则抓取整个域名下的图片_PHP教程

正则抓取天涯数据，递归失败，求解。。。。

本帖最后由 liuser_cn 于 2013-08-12 21:25:48 编辑前言：我的面向对象基础一般。。我是抓的一个模块（鬼话）。它的下一页是用时间戳来搞的。我就想，在抓取第一页的所有标题URL之后，顺便抓取下一页的地址（‘可以抓取’）；现在是，第一页的所有标题的URL抓完了，下一页的URL也抓了，我想递归100次，抓100页的所有标题的URL。看代码吧。 public function getAllPage($url){ /** * c...

正则抓取土豆视频解决办法

正则抓取土豆视频如题. http://www.tudou.com/listplay/Icl7UAlbQZs/6YFO9qJvtts.html 求高手抓出此链接的视频地址------解决方案--------------------你只要用tudou的播放播放就会有广告。 ------解决方案-------------------- PHP code $s=file_get_contents(http://www.tudou.com/listplay/Icl7UAlbQZs/6YFO9qJvtts.htm); preg_match_all(/iid:(\d+)\s+,kw:"(.*?)"\s+.*?icode:"(.*?)"/s,$s,$matches);foreach($matches[1] a...

正则抓取洋芋视频

正则抓取土豆视频如题. http://www.tudou.com/listplay/Icl7UAlbQZs/6YFO9qJvtts.html 求高手抓出此链接的视频地址------解决方案--------------------你只要用tudou的播放播放就会有广告。------解决方案--------------------$s=file_get_contents(http://www.tudou.com/listplay/Icl7UAlbQZs/6YFO9qJvtts.htm); preg_match_all(/iid:(\d+)\s+,kw:"(.*?)"\s+.*?icode:"(.*?)"/s,$s,$matches);foreach($matches[1] as $k=>$v){$...

php-现在的爬虫原理还是简单的用正则抓取么？

正则php爬虫本人实习生小菜鸟一枚，公司让写个爬虫练练手，之前对这个完全没概念，刚才在网上看了一会，觉得大致思路是抓下来整个文件，用正则表达式处理文本似的根据文法抓取要抓的东西，然后再处理，想问问现在也是这个思路么，就拿最初级的表单里的数据来说，现在有没有更直接的抓取方法，另外希望给几个php爬虫的demo，公司服务器没有python环境，只能用php了，多谢。

PHP怎样用正则抓取页面中的网址

前言链接也就是超级链接，是从一个元素（文字、图片、视频等）链接到另一个元素（文字、图片、视频等）。网页中的链接一般有三种，一种是绝对URL超链接，也就是一个页面的完整路径；另一种是相对URL超链接，一般都链接到同一网站的其他页面；还有一种是页面内的超链接，这种一般链接到同一页面内的其他位置。搞清楚了链接的种类，就知道要抓链接，主要还是绝对URL超链接和相对URL超链接。要写出正确的正则表达式，就必须要了解我...

php正则抓取图片(抓取图片403处理)【代码】

<?php //抓取页面图片的时候防止图片403(防止盗链) echo "<meta name=referrer content=no-referrer>"; $list = file_get_contents($url);$k = preg_match_all(/<img [^>]* \/>/,$list,$data); $m = preg_grep(/alt/,$data[0]); foreach($m as $v){echo $v.<br>; }

PHP正则抓取字符串内某段字符【代码】

$cookie = "csrftoken=P7UBtv3lTNktgrqQglECF7Wj3MWUNJc1; qwqwqwxsewwewe123434dsw4e4d23 qw2323ss";preg_match('/csrftoken=(.*?);/', $cookie, $matches);//获取匹配的字符串参数1，规则，2；获取的字符串 3，获得结果集$csrftoken = $matches[1];var_dump($matches);得到: [ 0 => "csrftoken=P7UBtv3lTNktgrqQglECF7Wj3MWUNJc1;" 1=>"P7UBtv3lTNktgrqQglECF7Wj3MWUNJc1"]

正则 - 最热教程

java正则表达式匹配所有数字，包括带小...UltraEdit正则表达式搜索替换小技巧 php正则表达式，允许有数字，字母，和标...jquery取字符串中数字的正则_jquery 分享正则表达式注册表验证和一些常用的...php正则表达式的特殊字符含义_PHP教程 SwiftUI iOS 超酷组件之支持文本分割炸...java网页爬虫正则表达式 java-检查字符串是否仅包含字母空格和引...python 正则表达式与JSON-JSON

首页 / 正则 / php正则抓取整个域名下的图片

php正则抓取整个域名下的图片

内容导读

内容图文

内容总结

内容备注

内容手机端

【php正则抓取整个域名下的图片】教程文章相关的互联网学习教程文章

Java正则抓取Email【代码】【图】

如何使用PHP实现正则抓取页面中的网址

php正则抓取整个域名下的图片

php正则抓取整个域名下的图片_PHP教程

正则抓取天涯数据，递归失败，求解。。。。

正则抓取土豆视频解决办法

正则抓取洋芋视频

php-现在的爬虫原理还是简单的用正则抓取么？

PHP怎样用正则抓取页面中的网址

php正则抓取图片(抓取图片403处理)【代码】

PHP正则抓取字符串内某段字符【代码】

PHP - 相关标签

正则 - 相关标签

正则 - 最新教程

正则 - 最热教程