php抓取蜘蛛爬虫痕迹的代码分享

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了php抓取蜘蛛爬虫痕迹的代码分享，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含970字，纯文字阅读大概需要2分钟。

内容图文

本文介绍下，php实现抓取蜘蛛爬虫痕迹的一段代码，有需要的朋友参考下。

用php代码分析web日志中蜘蛛爬虫痕迹，代码如下：

 'googlebot',
                    'Baidu'        => 'baiduspider',
                    'Yahoo'        => 'yahoo slurp',
                    'Soso'        => 'sosospider',
                    'Msn'        => 'msnbot',
                    'Altavista'    => 'scooter ',
                    'Sogou'        => 'sogou spider',
                    'Yodao'        => 'yodaobot'
            );
    $userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);
    foreach ($bots as $k => $v){
        if (strstr($v,$userAgent)){
            return $k;
            break;
        }
    }
    return false;
} //by bbs.it-home.org

//获取哪种蜘蛛爬虫后保存蜘蛛痕迹。
//根据采集时HTTP_USER_AGENT是否为空来防止采集
//抓蜘蛛爬虫 --by bbs.it-home.org
$spi    = isSpider();
if($spi){
    $tlc_thispage    = addslashes($_SERVER['HTTP_USER_AGENT']);
    $file            = 'robot.txt';
    $time            = date('Y-m-d H:i:s',mktime());
    $handle            = fopen($file,'a+');
    $PR                = $_SERVER['REQUEST_URI'];
    fwrite($handle, "Time:{$time} ROBOT:{$spi} AGENT:{$tlc_thispage} URL:{$PR} \n\r");
    fclose($handle);
}
?>

内容总结

以上是互联网集市为您收集整理的php抓取蜘蛛爬虫痕迹的代码分享全部内容，希望文章能够帮你解决php抓取蜘蛛爬虫痕迹的代码分享所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/162927.html

来源：【匿名】

【上一篇】php判断来访者是否是搜索引擎的爬虫【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【php抓取蜘蛛爬虫痕迹的代码分享】教程文章相关的互联网学习教程文章

本文介绍下，php实现抓取蜘蛛爬虫痕迹的一段代码，有需要的朋友参考下。用php代码分析web日志中蜘蛛爬虫痕迹，代码如下：'googlebot','Baidu' => 'baiduspider','Yahoo' => 'yahoo slurp','Soso' => 'sosospider','Msn' => 'msnbot','Altavista' => 'scooter ','Sogou' => 'sogou spider','Yodao' => 'yodaobot');$userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);foreach ($b...

node下的http小爬虫的示例代码分享

本文主要介绍了基于node下的http小爬虫的示例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧，希望能帮助到大家。每时每刻不管你睡了还是没睡，互联网都会有海量的数据来来往往，有客服端到服务端，有服务端到服务端。http的get和request完成的角色即为数据的获取及提交,接下来我们动手写一个简单的小爬虫来爬爬菜鸟教程中关于node的章节的课程界面。爬取Node.js 教程首页的所有数据建立node-...

Node.js开发资讯爬虫流程代码分享

本文主要介绍了使用 Node.js 开发资讯爬虫流程,爬虫流程概括下来就是把目标网站的HTML下载到本地再进行数据提取。具体内容详情大家参考下本文，希望能帮助到大家。最近项目需要一些资讯，因为项目是用 Node.js 来写的，所以就自然地用 Node.js 来写爬虫了项目地址：github.com/mrtanweijie… ，项目里面爬取了 Readhub 、开源中国、开发者头条、 36Kr 这几个网站的资讯内容，暂时没有对多页面进行处理，因为每天爬虫都会跑一次...

python爬虫入门教程之点点美女图片爬虫代码分享

继续鼓捣爬虫，今天贴出一个代码，爬取点点网「美女」标签下的图片，原图。# -*- coding: utf-8 -*- #--------------------------------------- # 程序：点点美女图片爬虫 # 版本：0.2 # 作者：zippera # 日期：2013-07-26 # 语言：Python 2.7 # 说明：能设置下载的页数 #--------------------------------------- import urllib2 import urllib import repat = re.compile(\n.*?imgsrc="(ht.*?)\".*?) nexturl1 = "h...

python爬虫入门教程之糗百图片爬虫代码分享【图】

学习python少不了写爬虫，不仅能以点带面地学习、练习使用python，爬虫本身也是有用且有趣的，大量重复性的下载、统计工作完全可以写一个爬虫程序完成。用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作等知识。昨天在网上学习了一下，写了一个爬虫自动下载「糗事百科」里面的图片。源代码如下：代码如下: # -*- coding: utf-8 -*- # 上面那句让代码里支持中文 #--------------------------------...

Python实现爬取知乎神回复简单爬虫代码分享【图】

看知乎的时候发现了一个 “如何正确地吐槽” 收藏夹，里面的一些神回复实在很搞笑，但是一页一页地看又有点麻烦，而且每次都要打开网页，于是想如果全部爬下来到一个文件里面，是不是看起来很爽，并且随时可以看到全部的，于是就开始动手了。工具 1.Python 2.7 2.BeautifulSoup 分析网页我们先来看看知乎上该网页的情况网址：，容易看到，网址是有规律的，page慢慢递增，这样就能够实现全部爬取了。再来看一下我们要爬取的内容...

零基础写python爬虫之抓取糗事百科代码分享【图】

项目内容：用Python写的糗事百科的网络爬虫。使用方法：新建一个Bug.py文件，然后将代码复制到里面后，双击运行。程序功能：在命令提示行中浏览糗事百科。原理解释：首先，先浏览一下糗事百科的主页：http://www.qiushibaike.com/hot/page/1 可以看出来，链接中page/后面的数字就是对应的页码，记住这一点为以后的编写做准备。然后，右击查看页面源码：观察发现，每一个段子都用div标记，其中class必为content，title是发帖时间，...

零基础写python爬虫之抓取百度贴吧代码分享

这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！代码如下: # -*- coding: utf-8 -*- #--------------------------------------- # 程序：百度贴吧爬虫 # 版本：0.1 # 作者：why # 日期：2013-05-14 # 语言：Python 2.7 # 操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。 # 功能：下载对应页码内的所有页面并存储为html文件。 #-----...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...