首页 / 正则 / Python爬取站长素材图片（正则）

Python爬取站长素材图片（正则）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python爬取站长素材图片（正则），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1256字，纯文字阅读大概需要2分钟。

内容图文

反爬机制：图片懒加载，只有当图片被显示在可视化范围之内，则图片才能被加载出来
伪属性：src2。阻止图片加载的，只有当伪属性被变成真正的src属性值图片才会被加载出来
分析：
图片数据是否为动态加载数据
除了可以在response选项卡中进行局部搜索外，我们还可以观察preview这个选项卡中的可视化内容
发现preview中只显示了图片的名称，并没有显示图片数据
url='https://sc.chinaz.com/tag_tupian/YaZhouMeiNv.html
‘User-agent’:‘Mozilla/5.0 (Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/85.0.4183.121 Safari/537.36’**
*

import requests
import re
import os
headers={
    'User-agent':'Mozilla/5.0 (Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/85.0.4183.121 Safari/537.36'
}
url='https://sc.chinaz.com/tag_tupian/YaZhouMeiNv.html'
page_text=requests.get(url=url,headers=headers).text#获取字符串形式的响应数据
#通过正则进行图片地址的解析
#a标签开始到a标签结束，得到src
ex='<a.*?<img src2="(.*?)" alt.*?</a>'
img_src_list=re.findall(ex,page_text,re.S)
#re.S处理回车
for src in img_src_list:
    img_data=requests.get(url=url,headers=headers).content
    #生成图片名字
    img_name=src.split('/')[-1]
    #图片存放路径，本地的111文件夹
    imgPath='./111/'+img_name
    with open(imgPath,'wb')as fp:
        fp.write(img_data)
        print(img_name,"下载成功")

打开本地的文件夹即可看到爬取的图片
Python爬取站长素材图片（正则） - 文章图片

内容总结

以上是互联网集市为您收集整理的Python爬取站长素材图片（正则）全部内容，希望文章能够帮你解决Python爬取站长素材图片（正则）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/620562.html

来源：【匿名】

【上一篇】python——正则的使用re 【下一篇】正则表达式语法

更多 ►

【Python爬取站长素材图片（正则）】教程文章相关的互联网学习教程文章

Python爬取全书网小说全文——正则表达式的应用【代码】【图】

1. 引言各位读者新年好，今天给大家带来的案例是爬取全书网小说全文，主要用到了正则表达式。我们知道，正则表达式一般用来进行格式化的精确匹配，用来爬取多文本的内容非常方便。本次采用面向过程的方法，理解起来较为简单。2. 代码实现过程首先进入全书网（网址：https://www.xs4.cc/），随便选一篇小说，比如这个《我在古代日本当剑豪》这一偏小说。点进去之后可以看到已经更新到352章了。接下来就是正式爬取的过程了，总共分...

python爬取图片(正则表达式)【代码】

** 利用py的requests库爬取图片代码如下 import requests import re import urllib3 import urllib.request def getHtml(url):try:r=requests.get(url)r.raise_for_status()r.encoding='utf-8'print(r.text)return r.textexcept:return "" def getImg(html):#reg=r'src="(http.+?\.jpg)"'reg=r'src="(http.+?\.jpg)"'imglist=re.findall(reg,html)print(imglist)i=0for url in imglist:with open(".\\wb\\"+str(i)+".jpg","wb") a...