首页 / JAVASCRIPT / python爬虫的一个常见简单js反爬

python爬虫的一个常见简单js反爬

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python爬虫的一个常见简单js反爬，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2746字，纯文字阅读大概需要4分钟。

内容图文

我们在写爬虫是遇到最多的应该就是js反爬了，今天分享一个比较常见的js反爬，这个我已经在多个网站上见到过了。

我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分，今天说的是第二种情况。

目标网站

列表页url:http://www.hnrexian.com/archives/category/jk。

正常网站我们请求url会返回给我们网页数据内容等，看看这个网站返回给我们的是什么呢？

我们把相应中返回的js代码格式化一下，方便查看。

< script type = "text/javascript" >
function stringToHex(str) {
    var val = "";
    for (var i = 0; i < str.length; i++) {
        if (val == "") val = str.charCodeAt(i).toString(16);
        else val += str.charCodeAt(i).toString(16);
    }
    return val;
}
function YunSuoAutoJump() {
    var width = screen.width;
    var height = screen.height;
    var screendate = width + "," + height;
    var curlocation = window.location.href;
    if ( - 1 == curlocation.indexOf("security_verify_")) {
        document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";
    }
    self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate);
} < /script>
  <script>setTimeout("YunSuoAutoJump()", 50);</script >

说好的返回网页数据源码呢，这是什么东西!

js破解思路

js破解提供两种思路，一种是直接用Python来重写js内容，实现模拟js的操作，这种一般用于比较简单的js；还有一种是用Python第三方库来解析js，比如pyv8,execjs这些（个人觉得execjs比较好用），这种一般用于比较复杂的js解析。

分析返回的js分成两个部分。第一部分，定义了stringToHex和YunSuoAutoJump两个函数。第二部分，50毫秒后执行YunSuoAutoJump这个函数。

YunSuoAutoJump这个函数功能是添加一个cookie并去请求一个构造的url，可以从document.cookie 和 self.location这里看出。stringToHex这个函数的共能其实就是字符串的转换，具体js内容可以参考这个网址https://www.runoob.com/js/js-tutorial.html自行查找。

python重写代码

那么接下来就是用python来重写js啦，重写后代码如下。

def stringToHex(string):
    length = len(string)
    hex_string = str()
    for i in xrange(length):
        hex_string += hex(ord(string[i]))[2:]
    return hex_string

def get_cookie(url):
    hex_string = stringToHex(url)
    cookie = {"srcurl": hex_string, "path": "/"}
    return cookie

这是那两个函数，一个用于字符串转换，一个用于获取cookie。

最后拿到结果

接下来模拟浏览器操作，其中是分为三部分。第一次，我们请求目标url，然后返回给我们js内容；第二次，js添加1个cookie并请求了1个构造出的url；第三次请求原目标url，得到最终的数据。

这里我们用requests.Session来保持连接，模拟上面三部的内容。

url = "http://www.hnrexian.com/archives/category/jk"
s = requests.Session()
r = s.get(url)
url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0]
screen_date = "1920,1080"
url_2 = url_2 + stringToHex(screen_date)
url_2 = urljoin(url, url_2)
cookie = get_cookie(url)
s.cookies.update(cookie)
r2 = s.get(url_2)
url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0]
r3 = s.get(url3)
r3.encoding = "gbk"
print r3.text

内容总结

以上是互联网集市为您收集整理的python爬虫的一个常见简单js反爬全部内容，希望文章能够帮你解决python爬虫的一个常见简单js反爬所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/769281.html

来源：【匿名】

【上一篇】如何使用PHP或javascript检测Flash版本？【下一篇】javascript 怎么调用php方法

更多 ►

【python爬虫的一个常见简单js反爬】教程文章相关的互联网学习教程文章

如何使用Python爬虫来进行JS加载数据网页的爬取

这次给大家带来如何使用Python爬虫来进行JS加载数据网页的爬取，使用Python爬虫来进行JS加载数据网页爬取的注意事项有哪些，下面就是实战案例，一起来看一下。比如简书:Paste_Image.png我们来写个程序,爬取简书网站随便一个作者的所有文章,再对其所有文章进行分词统计程序运行统计的结果见文章:我统计了彭小六简书360篇文章中使用的词语需要的Python包包名作用selenium用于和phantomjs合作模拟浏览器访问网页lxml用于对html页面的解...

图文详解Python爬虫破解JS加密的Cookie步骤【图】

前言　　在GitHub上维护了一个代理池的项目，代理来源是抓取一些免费的代理发布网站。上午有个小哥告诉我说有个代理抓取接口不能用了，返回状态521。抱着帮人解决问题的心态去跑了一遍代码。发现果真是这样。　　通过Fiddler抓包比较，基本可以确定是JavaScript生成加密Cookie导致原来的请求返回521。发现问题　　打开Fiddler软件，用浏览器打开目标站点(http://www.kuaidaili.com/proxylist/2/) 。可以发现浏览器对这个页面加载了...

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容【图】

1，引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第二部分，第一部分实验了用xslt方式一次性提取静态网页内容并转换成xml格式。留下了一个问题：javascript管理的动态内容怎样提取？那么本文就回答这个问题。2，提取动态内容的技术部件在上一篇python使用xslt提取网页数据中，要提取的内容是直接从网页的source co...

Python爬虫如何获取JS生成的URL和网页内容？【图】

想尝试爬下北邮人的论坛，但是看到页面的源代码都是js，几乎没有我想要的信息。回复内容：今天偶然发现了PyV8这个东西，感觉就是你想要的。它直接搭建了一个js运行环境，这意味着你可以直接在python里面执行页面上的js代码来获取你需要的内容。参考：http://www.silverna.org/blog/?p=252https://code.google.com/p/pyv8/我是直接看js源码，分析完，然后爬的。例如看页面是用Ajax请求一个JSON文件，我就先爬那个页面，获取Ajax所需...

使用PyV8在Python爬虫中执行js代码

前言可能很多人会觉得这是一个奇葩的需求，爬虫去好好的爬数据不就行了，解析js干嘛？吃饱了撑的？搜索一下互联网上关于这个问题还真不少，但是大多数童鞋是因为自己的js基础太烂，要么是HTML基础烂，要么ajax基础烂，反正各方面都很烂。基础这么渣不好好去学基础写什么爬虫？那你肯定要问了“请问我的朋友，你TM怎么也有这个需求？莫非你是个技术渣？”非也非也，博主作为一个拥有3年多前端经验的攻城尸，怎么会被这个问题给难倒呢...

Python 爬虫进阶必备 | 某爬虫练习站之 js 混淆【图】

今日网站aHR0cDovL21hdGNoLnl1YW5yZW54dWUuY29tL21hdGNoLzE=这个网站是某大佬搭建的闯关网站无限 debugger 的绕过打开开发者工具会出现 debugger直接在 debugger 对应的行号，右键选择Never pause here即可跳过抓包分析与定位跳过 debugger，通过网络面板，找到我们需要分析的参数是下面这个请求的m参数参数名字只有一个m，直接检索的话就会出现下面这么多的结果，所以放弃直接检索这个参数来查找位置。所以转换思路，使用xhr断点查...

Python爬虫实战（十三）JS逆向必会基础案例 | 百度翻译参数破解【代码】【图】

前情回顾：有道翻译参数破解在上一篇博客中，我们系统地分析了有道翻译的JS逆向过程。不难看出，JS逆向其实就是用Python重新来复写Javascript的代码。但当JS代码很长时，弄懂里面的逻辑关系就相当耗时，这时就需要execjs库来帮忙了(它是一个可以执行JS代码的Python库)，今天就以百度翻译的参数破解为例进行说明。目录一、分析参数构成二、Python执行JS代码三、完善JS代码3.1 i 值构建3.2 函数n构建四、全部代码爬取网址为百度...

听说你在玩 Python 爬虫遇到 JavaScript 的时候还在使用 selenium ？【图】

我们在玩爬虫的时候对于一些没做什么反爬的网站来说使用简单的库三两下就能把数据爬取下来了不过对于一些别人认为比较重要的数据来说可就没有那么容易了他们认为这些数据很重要但是又不得不展示给客户所以只能想尽办法比如：对方是如何丧心病狂的通过 css 加密让你爬不到数据的python爬虫反反爬 | 像有道词典这样的 JS 混淆加密应该怎么破有人说对于这些前端所搞的事情用 selenium 或者 Puppeteer 不就得了它们确实很强大不过终究还...

【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题【代码】【图】

1.一般的python爬虫很简单，直接请求对应网址，解析返回的数据即可，但是有很多网站的数据的js动态渲染的，你直接请求是得不到对应的数据的这时就需要其它手段来处理了。 2.以一个例子来说明，整个过程，爬取一个音乐网站的对应歌手的歌曲。目标网址http://tool.liumingye.cn/music/?page=searchPage,在搜索框输入歌手名字即可得到歌曲。如果我们直接请求这个网址：http://tool.liumingye.cn/music/?page=audioPage&type=migu&na...

【Python3爬虫】一次破解JS加密数据的记录【代码】【图】

一、前言本文是一次破解某网站 JS 加密数据的记录，网址为：https://www.qimingpian.cn/finosda/event/einvestment要获取的是本页面上的投资事件信息，首先可以确定的是数据是通过 AJax 来传输的，并非直接写在网页源码中的。二、步骤 1.抓包打开开发者工具，刷新页面，选择 XHR 选项，可以找到如下请求信息：可以看到返回结果中包含有状态码“status”、返回信息“message”和加密数据“encrypt_data”，这个 encrypt_data 是一...

小白学 Python 爬虫（39）： JavaScript 渲染服务 scrapy-splash 入门【图】

人生苦短，我用 Python前文传送门：小白学 Python 爬虫（1）：开篇小白学 Python 爬虫（2）：前置准备（一）基本类库的安装小白学 Python 爬虫（3）：前置准备（二）Linux基础入门小白学 Python 爬虫（4）：前置准备（三）Docker基础入门小白学 Python 爬虫（5）：前置准备（四）数据库基础小白学 Python 爬虫（6）：前置准备（五）爬虫框架的安装小白学 Python 爬虫（7）：HTTP 基础小白学 Python 爬虫（8）：网页基础小...

python爬虫的一个常见简单js反爬

我们在写爬虫是遇到最多的应该就是js反爬了，今天分享一个比较常见的js反爬，这个我已经在多个网站上见到过了。我把js反爬分为参数由js加密生成和js生成cookie等来操作浏览器这两部分，今天说的是第二种情况。目标网站列表页url:http://www.hnrexian.com/archives/category/jk。正常网站我们请求url会返回给我们网页数据内容等，看看这个网站返回给我们的是什么呢？我们把相应中返回的js代码格式化一下，方便查看。< script t...

Python 爬虫js加密破解（三）百度翻译 sign【图】

第一步：模拟抓包分析加密参数第二步：找到加密字段调试出来的sign和抓取得到的数据一致，都是 275626.55195 第三部：分析js加密方法第四部：运行js代码；仅供交流学习使用需要源码下方评论

python爬虫-execjs使用【代码】

python爬虫-execjs使用ecexjs的作用通过python代码去执行JavaScript代码的库 execjs的安装 pip install PyExecJS execjs使用之前，得先安装node环境，去网上先去下载node.js 使用代码 import execjswith open("./test.js","rb") as f:js_code = f.read()ctx = execjs.compile(js_code) ctx.call("func","zhuyu") # 参数一就是js文件里的函数，参数二就是传入从参数，返回值就是执行完函数的返回值

Python爬虫-selenium百度JS控制【代码】【图】

selenium百度JS控制 ====================================------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- nullbaidu.png============================================================================ 1 2 任务：3 1. 通过selenium模拟对页面元素的控制4 5 6 7 8 from...

首页 / JAVASCRIPT / python爬虫的一个常见简单js反爬

python爬虫的一个常见简单js反爬

内容导读

内容图文

目标网站

js破解思路

python重写代码

最后拿到结果

内容总结

内容备注

内容手机端

【python爬虫的一个常见简单js反爬】教程文章相关的互联网学习教程文章

PYTHON - 相关标签

爬虫 - 相关标签

JAVASCRIPT - 技术教程分类

JAVASCRIPT - 最新教程

JAVASCRIPT - 最热教程