【Python爬虫】:爬取干货集中营上的全部美女妹子(翻页处理)
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了【Python爬虫】:爬取干货集中营上的全部美女妹子(翻页处理),小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含2037字,纯文字阅读大概需要3分钟。
内容图文
![【Python爬虫】:爬取干货集中营上的全部美女妹子(翻页处理)](/upload/InfoBanner/zyjiaocheng/611/47b24ba5ac444471b04e52da259f0ad3.jpg)
一.确定爬取思路
今天突发奇想,能不能使用python爬虫来爬取一些妹子图片呢,于是摩拳擦掌开始干了起来。首先打开python基础教程网页htttps://gank.io 当中的妹子专栏,
发现里面全是妹子,如下所示:
网址如下所示:
https://gank.io/special/Girl
翻到最下面发现按钮,一共有十个分页,如下所示:
因此我点击了第二个分页,进去查看网页,看点击之后的网址会不会发生改变,如果网址没有发生改变。说明这是一个静态网页,如果改变则说明点击按钮触发了ajax请求,则有可能是get也有可能是post请求。
后来观察发现网址变成了:
https://gank.io/special/Girl/page/2
翻页到第三页,网址则变成了:
https://gank.io/special/Girl/page/3
因此我们肯定是加载的静态网页,因此我们进行翻页就太简单了,只需要变化请求网页的网址即可。于是我们在每一个网页当中查看当前网址的源代码,找到图片源在哪儿:
如下图所示:
这样我们就可以确定图片的url了,在爬取的时候在后面加上jpg的后缀即可。
二.开始编写代码
这样代码就很简单了,如下所示:
import requests
import re
import time
from pandas import Series,DataFrame
#1.编写爬取美女土图片
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}
page_text=''
print("开始网络爬虫!!")
for i in range(1,10):
#对指定url发起的请求url是携带参数的
url = 'https://gank.io/special/Girl/page/'
url=url+str(i)
print(url)
response=requests.get(url=url,headers=headers)
page_text=page_text+'\n'+response.text
print("这是第{}轮爬取".format(i))
#print(page_text)
page_text=page_text.split("\n")
# style="background-image:url(
# 这里进行正则匹配
url_list=[]
for i in page_text:
if re.match(' style="background-image:url',i):
url_list.append(i)
else:
pass
i=0
while i<len(url_list):
url_list[i]='https://gank.io'+eval(url_list[i].split("(")[1].split(")")[0])
i+=1
#开始下载图片,每下载成功一次图片,就会显示下载成功
for i in url_list:
image_data=requests.get(i,headers=headers).content
image_name='/'+i.split("/")[4]
image_path='./'+image_name+'.jpg'
with open(image_path,'wb') as fp:
fp.write(image_data)
print("{} : 下载成功!".format(image_name))
得解!最后在文件夹里的图片如下所示:
内容总结
以上是互联网集市为您收集整理的【Python爬虫】:爬取干货集中营上的全部美女妹子(翻页处理)全部内容,希望文章能够帮你解决【Python爬虫】:爬取干货集中营上的全部美女妹子(翻页处理)所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。