【小白学 Python 爬虫(20):Xpath 进阶】教程文章相关的互联网学习教程文章

Python爬虫进阶必备 | 关于 ReRes 的一篇教程【图】

先来讲讲为什么要用到 ReRes ?在爬虫开发的过程中,想要修改网站的 JS 来规避网站的无限 Debugger ,或者想给线上的 JS 加点调试的语句,我们就需要把远程的 JS 映射到本地的文件上,这样就可以通过修改本地的文件进行线上的调试。通常面对这样的需求,我们可以通过一些工具完成:Windows 下可以使用 Fiddler ,Mac 下可以使用 CharlesChrome 开发工具自带的 Override ReRes 和 Resource Override 插件Whistle - 跨平台 web 调试代...

Python爬虫进阶必备 | 关于某汽车交易网加密 Cookie 的分析【图】

建议收藏 | 最全的 JS 逆向入门教程合集目标网站aHR0cHM6Ly93d3cuZ3VhemkuY29tLw==这个网站在爬取的时候需要先获取一个名为antipas Cookie,见名知意,接下来就一块看看这个字段怎么搞。加密定位既然是 Cookie 字段,常用的手法是找请求包,看看有没有set-cookie这样的操作。找了一通没有发现关于antipas这个字段的写入操作。可以猜测到应该和之前裁判文书网一样的操作,访问首页后直接生成 Cookie 字段然后跳转。为了验证我的这个...

Python 爬虫进阶必备 | 某爬虫练习站之 js 混淆【图】

今日网站aHR0cDovL21hdGNoLnl1YW5yZW54dWUuY29tL21hdGNoLzE=这个网站是某大佬搭建的闯关网站无限 debugger 的绕过打开开发者工具会出现 debugger直接在 debugger 对应的行号,右键选择Never pause here即可跳过抓包分析与定位跳过 debugger,通过网络面板,找到我们需要分析的参数是下面这个请求的m参数参数名字只有一个m,直接检索的话就会出现下面这么多的结果,所以放弃直接检索这个参数来查找位置。所以转换思路,使用xhr断点查...

Python 爬虫进阶必备 | 某k12注册加密参数分析【图】

今日网站aHR0cHM6Ly9hZXJmYXlpbmcuY29tLw==这个网站来自读者投稿需要分析的是右上角注册时的 s值抓包分析与定位像我这样填入测试信息,点击注册提交可以在开发者工具中找到下面的注册包这里的 s 值就是需要分析的参数值因为这个Register是 xhr 请求,所以最方便的就是使用 xhr 断点分析请求切换至sources选项卡,在右侧添加对应的xhr断点再次点击注册按钮,断点会断在下面这个位置在这个位置我们只能看到网页上提交的数据中s已经生...

Python 爬虫进阶必备 | 某壁纸网站请求头参数与用户指纹 sign 加密逻辑分析【图】

今日网站aHR0cHM6Ly9iei56enptaC5jbi8=这个网站来自东哥读者群的读者提问(截图为转发消息)抓包分析打开目标网站,需要采集的是网站中的图片开发者工具中抓到的包是这样的页面上加载的图片名字是没有规律的,且网页上不点击图片是没有办法显示高清图片的,所以需要找到这些图片名称是哪里返回的。通过查找,可以看到图片名称是经过getJson这个包返回的,并且返回的包中还标识了分辨率所以只要构建这个请求,拿到返回值再拼接出壁纸...

Python 爬虫进阶必备 | 某工业超市加密 header 参数分析【图】

今日网站aHR0cHM6Ly93ZWIuemtoMzYwLmNvbS9saXN0L2MtMjYwMTg2Lmh0bWw/c2hvd1R5cGU9cGljJmNscD0x这个网站是在某交流群看到的,随手保存下来作为今天的素材抓包分析与加密定位先看看抓包的结果,可以看到请求的header中包含两个未知的参数,分别是zkhs和zkhst进一步检索参数zkhst和zkhs,可以发现这两个参数的值没有做过混淆并且都有对应的搜索结果可以在文件中找到下面这几个关键位置加密分析在逻辑里比较明显的是e.headers.zkhs?=?o...

Python爬虫进阶必备 | X中网密码加密算法分析【图】

话不多说直接开始 参数位置分析 先来看看加密请求的参数,入图1: 除了搜索加密参数之外,同样还要注意id 和 calssname等标志性的属性,能够帮助我们进一步定位加密位置。通过密码框的 id=password_txt 可以快速定位至网站的加密入口,如图二: 然后再通过逐步调试进入虚拟引擎中加密码的位置打上断点,鼠标悬停,进入login() 函数,如图三: 上图中的encrypt这个方法才是我们需要的加密方法,所以继续进去看逻辑。 鼠标悬停,选...

selenium、验证码、cookies(python爬虫进阶【代码】【图】

一、selenium的使用 selenium库是python用来实现浏览器自动化操作,除了pip install selenium 还要下载浏览器的驱动才能实现最终效果,最开始看的教程是关于PhantomJS 一个无头浏览器驱动,但是发现已经宣布不和python联动了,这里帮大家避下雷(时代变了 我选用的是chrome的驱动,相关下载以及安装步骤如下链接: http://blog.csdn.net/huilan_same/article/details/51896672 下载下来后把里面的exe文件放到当前选用编辑器的pytho...

python爬虫进阶【代码】

获取豆瓣https://movie.douban.com/top250的,第一页前25个电影名字我的答案:import requestsfrom bs4 import BeautifulSouphead={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36"}res=requests.get("https://movie.douban.com/top250",headers=head)soup=BeautifulSoup(res.content,"html.parser")for i in range(1,26):get=soup.select...

Python爬虫进阶必备 | XX读书window.__DATA加密分析【代码】【图】

今日网站: aHR0cHM6Ly9zZWFyY2guZG91YmFuLmNvbS9ib29rL3N1YmplY3Rfc2VhcmNoP3NlYXJjaF90ZXh0PSVFNCVCOCU5QyVFOSU4NyU4RSVFNSU5QyVBRCVFNSU5MCVCRSZjYXQ9MTAwMQ== 抓包与定位加密位置 上面就是这次需要分析的网站了,先简单看看抓包的结果。【图1-1】图1-1 抓包很清楚没什么幺蛾子,这次分析的网站加密的地方其实是他的搜索结果。 通过查看网页源码可以看到加密的地方。【图1-2】图1-2 这里的 window._ _DATA 的值就是搜索的结果。...

Python爬虫进阶必备 | RSA 加密案例解析汇总(一)【图】

这次把咸鱼遇到的 RSA 的案例做了汇总,这个汇总系列会持续更新,攒到一定数量的网站就发一次,关于 RSA 的加解密可以参考之前的文章,这里不做赘述。 实战案例浅析JS加密 - 基础总结篇 XX 门户 aHR0cHM6Ly9sb2dpbi4xMDA4Ni5jbi9odG1sL2xvZ2luL3RvdWNoLmh0bWw= 请求分析 分析加密参数 password加密定位 搜索参数 password通过全局搜索找到一系列有关的文件,向下翻可以看到有类似 encrypt 这里加密的字样,我们追进去看看。 打上断...

Python爬虫进阶必备 | 某镜像网站分析 - 教程随你出,学会算我输【代码】【图】

今日份网站( 由读者提供网址 ) aHR0cDovL2FjLnNjbW9yLmNvbS8= 抓包分析与加密定位 先来看看加密的内容密文【图1-1】图1-1 看过前面文章的朋友就会说,这个和 Base64 的加密结果很像,有猜想就直接搞起呗。【图1-2】 图1-2 解密的结果是一串乱码,说明不是 Base64 ,继续找找有没有别的点可以分析。 我们可以看到这里所有的加密字符串都是 autourl 数组的一个元素,那我们搜索 autourl 试试。【图1-3】 图1-3 只有两个搜索结果,和现...

Python爬虫进阶必备 | 一个典型的 AES 加密在爬虫中的应用案例【代码】【图】

![](http://www.icode9.com/i/li/?n=4&i=images/blog/202101/02/a5387851f3295569eae7ea7801394242.bmp?,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3poZW5naGVpdGk=) 一个典型的AES案例AES 的案例之前有推荐大家关于 AES 加密的案例文章,不少朋友问我加密解决了有什么用? 最大的用途当然就是不用模拟请求,大大提高了爬取效率。 可能之前举例都是使用的 AES 加密的密码,所以不少朋...

Python爬虫进阶必备 | 关于 AES 的案例分析与总结(一)【图】

上次咸鱼对关于 AES 的JS加密方法做了总结,这次把咸鱼遇到的 AES 的案例做了汇总,这个汇总系列会持续更新,攒到一定数量的网站就发一次。 关于 AES 的处理可以参考下面这篇文章: Python爬虫进阶必备 | 关于AES 的案例分析与总结 XX 财险 aHR0cHM6Ly90aWFuYXcuOTU1MDUuY24vdGFjcGMvIy9sb2dpbg== 抓包分析抓包分析,分析加密字段 jsonKey 加密定位 直接全局搜索 jsonKey ,可以看到只有一个相关的文件点开搜索的结果继续检索,找到...

Python爬虫进阶必备 | X薯中文网加密分析【代码】【图】

这次来分析某个小说网站。aHR0cHM6Ly9nLmhvbmdzaHUuY29tL2NvbnRlbnQvOTM0MTYvMTM4Nzc5MTIuaHRtbA== 分析请求 先来看看页面的请求【图1-1】图1-1经过查看请求,并没有请求的加密参数,但是响应的内容却不正常,许多文字在响应中都变成了 span 标签【图1-2】图1-2这样的反爬虫措施,如何分析? 定位加密 既然这里替换的内容都是 span 那就从它开始入手吧。可以看到应该显示在正文的内容显示在 CSS 的 content 中【图2-1】。图2-1这个...