首页 / 正则 / Python爬取站长素材图片(正则)
Python爬取站长素材图片(正则)
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Python爬取站长素材图片(正则),小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1256字,纯文字阅读大概需要2分钟。
内容图文
![Python爬取站长素材图片(正则)](/upload/InfoBanner/zyjiaocheng/621/e4c1b221724746a8a64736d81d36d03a.jpg)
反爬机制:图片懒加载,只有当图片被显示在可视化范围之内,则图片才能被加载出来
伪属性:src2。阻止图片加载的,只有当伪属性被变成真正的src属性值图片才会被加载出来
分析:
图片数据是否为动态加载数据
除了可以在response选项卡中进行局部搜索外,我们还可以观察preview这个选项卡中的可视化内容
发现preview中只显示了图片的名称,并没有显示图片数据
url='https://sc.chinaz.com/tag_tupian/YaZhouMeiNv.html
‘User-agent’:‘Mozilla/5.0 (Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/85.0.4183.121 Safari/537.36’**
*
import requests
import re
import os
headers={
'User-agent':'Mozilla/5.0 (Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/85.0.4183.121 Safari/537.36'
}
url='https://sc.chinaz.com/tag_tupian/YaZhouMeiNv.html'
page_text=requests.get(url=url,headers=headers).text#获取字符串形式的响应数据
#通过正则进行图片地址的解析
#a标签开始到a标签结束,得到src
ex='<a.*?<img src2="(.*?)" alt.*?</a>'
img_src_list=re.findall(ex,page_text,re.S)
#re.S处理回车
for src in img_src_list:
img_data=requests.get(url=url,headers=headers).content
#生成图片名字
img_name=src.split('/')[-1]
#图片存放路径,本地的111文件夹
imgPath='./111/'+img_name
with open(imgPath,'wb')as fp:
fp.write(img_data)
print(img_name,"下载成功")
打开本地的文件夹即可看到爬取的图片
内容总结
以上是互联网集市为您收集整理的Python爬取站长素材图片(正则)全部内容,希望文章能够帮你解决Python爬取站长素材图片(正则)所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。