首页 / 爬虫 / 常见的反爬虫和应对方法

常见的反爬虫和应对方法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了常见的反爬虫和应对方法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1546字，纯文字阅读大概需要3分钟。

内容图文

0x01 常见的反爬虫

这几天在爬一个网站，网站做了很多反爬虫工作，爬起来有些艰难，花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。

从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。

一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度。

0x02 通过Headers反爬虫

从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。

0x03 基于用户行为反爬虫

还有一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。

大多数网站都是前一种情况，对于这种情况，使用IP代理就可以解决。可以专门写一个爬虫，爬取网上公开的代理ip，检测后全部保存起来。这样的代理ip爬虫经常会用到，最好自己准备一个。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib2中很容易做到，这样就能很容易的绕过第一种反爬虫。

对于第二种情况，可以在每次请求后随机间隔几秒再进行下一次请求。有些有逻辑漏洞的网站，可以通过请求几次，退出登录，重新登录，继续请求来绕过同一账号短时间内不能多次进行相同请求的限制。

0x04 动态页面的反爬虫

上述的几种情况大多都是出现在静态页面，还有一部分网站，我们需要爬取的数据是通过ajax请求得到，或者通过JavaScript生成的。首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求，也能分析出具体的参数和响应的具体含义，我们就能采用上面的方法，直接利用requests或者urllib2模拟ajax请求，对响应的json进行分析得到需要的数据。

能够直接模拟ajax请求获取数据固然是极好的，但是有些网站把ajax请求的所有参数全部加密了。我们根本没办法构造自己所需要的数据的请求。我这几天爬的那个网站就是这样，除了加密ajax参数，它还把一些基本的功能都封装了，全部都是在调用自己的接口，而接口参数都是加密的。遇到这样的网站，我们就不能用上面的方法了，我用的是selenium+phantomJS框架，调用浏览器内核，并利用phantomJS执行js来模拟人为操作以及触发页面中的js脚本。从填写表单到点击按钮再到滚动页面，全部都可以模拟，不考虑具体的请求和响应过程，只是完完整整的把人浏览页面获取数据的过程模拟一遍。

用这套框架几乎能绕过大多数的反爬虫，因为它不是在伪装成浏览器来获取数据（上述的通过添加 Headers一定程度上就是为了伪装成浏览器），它本身就是浏览器，phantomJS就是一个没有界面的浏览器，只是操控这个浏览器的不是人。利用 selenium+phantomJS能干很多事情，例如识别点触式（12306）或者滑动式的验证码，对页面表单进行暴力破解等等。它在自动化渗透中还会大展身手，以后还会提到这个。

原文：https://www.cnblogs.com/palace/p/9598466.html

内容总结

以上是互联网集市为您收集整理的常见的反爬虫和应对方法全部内容，希望文章能够帮你解决常见的反爬虫和应对方法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1241808.html

来源：【匿名】

【上一篇】python网络爬虫——requests模块（第二章）【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【常见的反爬虫和应对方法】教程文章相关的互联网学习教程文章

常见的反爬虫和应对方法

0x01 常见的反爬虫这几天在爬一个网站，网站做了很多反爬虫工作，爬起来有些艰难，花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的...

一种基于迭代与分类识别方法的入门级Python爬虫【图】

这段时间发现越来越痴迷于Python，特别是Python3，所以一边看书，一边就想动手做点实践。由于实验室有收集新闻语料的需求，所以就想着以凤凰网新闻网址为目标，试着写一个爬虫如何？结果还真实现了！当然只是入门级的哦，请各位看官多提意见。工具：python3, Beautiful Soup4基本思想：先给定一个目标url，它应该是一个索引类型页面（如http://news.ifeng.com/），然后以广度优先的思路去分析这个url中包含的具体新闻页面链接和...

“最简单”的爬虫开发方法【代码】【图】

背景：　　本人接触python爬虫也有一段时间了，期间也有许多小伙伴和我探讨python爬虫怎么学习，因此写下这篇随笔，算不上教学，只是谈谈自己的想法。　　实现爬虫的方法有很多，我选取了个人觉得最容易理解、实现的方法。本篇随笔涉及的爬虫知识不多，难度主要在安装相应的库上面！一、开发环境：　　python3、xpath+Selenium二、安装如果你已经有了pip管理工具了：（其他安装方法自行百度）1 pip install selenium1 pip install ...

爬虫(五)：生产者消费者方法【代码】【图】

1.不使用锁的话，可能会产生线程的竞争：当共享一个对象（变量或者一个方法）加锁的操作在threading模块中，定义两种类型的琐：threading.Lock和threading.RLock。它们之间有一点细微的区别，通过比较下面两段代码来说明：import threading lock = threading.Lock() #Lock对象 lock.acquire() lock.acquire() #产生了死琐。 lock.release() lock.release() import threading rLock = threading.RLock() #RLock对象 rLo...

Python爬虫DNS如何解析缓存的方法详解

这篇文章主要介绍了Python爬虫DNS解析缓存方法,结合具体实例形式分析了Python使用socket模块解析DNS缓存的相关操作技巧与注意事项,需要的朋友可以参考下本文实例讲述了Python爬虫DNS解析缓存方法。分享给大家供大家参考，具体如下：前言：这是Python爬虫中DNS解析缓存模块中的核心代码，是去年的代码了，现在放出来有兴趣的可以看一下。一般一个域名的DNS解析时间在10~60毫秒之间，这看起来是微不足道，但是对于大型一点的爬虫而言...

PHPCrawl爬虫库实现抓取酷狗歌单的方法示例讲解

这篇文章主要介绍了PHPCrawl爬虫库实现抓取酷狗歌单的方法,涉及PHPCrawl爬虫库的使用及正则匹配相关操作技巧,需要的朋友可以参考下本文实例讲述了PHPCrawl爬虫库实现抓取酷狗歌单的方法。分享给大家供大家参考，具体如下：本人看了网络爬虫相关的视频后，手痒痒，想爬点什么。最近Facebook上表情包大战很激烈，就想着把所有表情包都爬下来，却一时没有找到合适的VPN，因此把酷狗最近一月精选歌曲和简单介绍抓取到本地。代码写得有点...

使用phpspider爬虫的使用方法【图】

本文主要和大家分享使用phpspider爬虫的使用方法，使用python爬虫固然很方便，但是发现php在这方便也不弱；使用框架爬虫真的要高效许多。1,先看下phpspider的结构2，举例子：比如我爬取南昌新闻网的一个分类这个注释要加上，不然报错，可以看看源码，源码里面有很多方法；3,然后是配置下爬虫:4,然后将配置文件放入框架类文件，实例化：这里的 on_scan_page 是爬取的入口url，这些URL跟我配置的 content_url_regxes 正则规则匹配，所...

PHP实现简单爬虫的方法，php实现爬虫_PHP教程

PHP实现简单爬虫的方法，php实现爬虫本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下： <?php /*** 爬虫程序 -- 原型** 从给定的url获取html内容* * @param string $url * @return string */ function _getUrlContent($url) {$handle = fopen($url, "r");if ($handle) {$content = stream_get_contents($handle, 1024 * 1024);return $content;} else {return false;} } /*** 从html内容中筛选链接* * @pa...

PHP实现简单爬虫的方法_PHP

本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下：<?php /*** 爬虫程序 -- 原型** 从给定的url获取html内容* * @param string $url * @return string */ function _getUrlContent($url) {$handle = fopen($url, "r");if ($handle) {$content = stream_get_contents($handle, 1024 * 1024);return $content;} else {return false;} } /*** 从html内容中筛选链接* * @param string $web_content * @return a...

PHP实现简单爬虫的方法_php技巧

本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下： <?php /*** 爬虫程序 -- 原型** 从给定的url获取html内容* * @param string $url * @return string */ function _getUrlContent($url) {$handle = fopen($url, "r");if ($handle) {$content = stream_get_contents($handle, 1024 * 1024);return $content;} else {return false;} } /*** 从html内容中筛选链接* * @param string $web_content * @return ...

PHP实现简单爬虫的方法

本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下： <?php /*** 爬虫程序 -- 原型** 从给定的url获取html内容* * @param string $url * @return string */ function _getUrlContent($url) {$handle = fopen($url, "r");if ($handle) {$content = stream_get_contents($handle, 1024 * 1024);return $content;} else {return false;} } /*** 从html内容中筛选链接* * @param string $web_content * @return ...

PHPCrawl爬虫库实现抓取酷狗歌单的方法示例

本文实例讲述了PHPCrawl爬虫库实现抓取酷狗歌单的方法。分享给大家供大家参考，具体如下：本人看了网络爬虫相关的视频后，手痒痒，想爬点什么。最近Facebook上表情包大战很激烈，就想着把所有表情包都爬下来，却一时没有找到合适的VPN，因此把酷狗最近一月精选歌曲和简单介绍抓取到本地。代码写得有点乱，自己不是很满意，并不想放上来丢人现眼。不过转念一想，这好歹是自己第一次爬虫，于是...就有了如下不堪入目的代码~~~（由于...

利用nodejs爬虫使用superagent和cheerio的方法【图】

这篇文章主要介绍了nodejs爬虫初试superagent和cheerio的相关知识，非常不错，具有参考借鉴价值,需要的朋友可以参考下前言　　早就听过爬虫，这几天开始学习nodejs，写了个爬虫https://github.com/leichangchun/node-crawlers/tree/master/superagent_cheerio_demo，爬取博客园首页的文章标题、用户名、阅读数、推荐数和用户头像，现做个小总结。　　使用到这几个点：　　1、node的核心模块-- 文件系统　　2、用于http请求的第三方...

使用Node.js实现简易爬虫的方法【图】

为什么选择利用node来写爬虫呢？就是因为cheerio这个库，全兼容jQuery语法，熟悉的话用起来真真是爽依赖选择cheerio： Node.js 版的jQueryhttp：封装了一个HTPP服务器和一个简易的HTTP客户端iconv-lite：解决爬取gb2312网页出现乱码初步实现既然是要爬取网站内容，那我们就应该先去看看网站的基本构成选取的是电影天堂作为目标网站，想要去爬取所有最新电影的下载链接分析页面页面结构如下：我们可以看到每个电影的标题都在一个cla...

用Electron写个带界面的nodejs爬虫的实现方法【图】

什么是Electron 使用 JavaScript, HTML 和 CSS 构建跨平台的桌面应用[官网](https://electronjs.org/) 实质就是一个精简的Webkit浏览器显示html页面，通过electron做中间层可以和系统交流。给web项目套上一个node环境的壳。前言公司买的推广居然没有后台的api，没有api又不想死板手动操作。那就做个爬虫吧。但是又是给小白用的，自然最好带个界面，本来用C#拖出来就好了，看到vs那么大，下载都要半天。干脆就用Electron做一个，顺...

方法 - 相关标签

方法验证方法重写方法重载

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / 常见的反爬虫和应对方法

常见的反爬虫和应对方法

内容导读

内容图文

0x01 常见的反爬虫

0x02 通过Headers反爬虫

0x03 基于用户行为反爬虫

0x04 动态页面的反爬虫

内容总结

内容备注

内容手机端

【常见的反爬虫和应对方法】教程文章相关的互联网学习教程文章

方法 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程