首页 / 爬虫 / 爬虫--百度贴吧每一页中的图片
爬虫--百度贴吧每一页中的图片
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了爬虫--百度贴吧每一页中的图片,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1732字,纯文字阅读大概需要3分钟。
内容图文
![爬虫--百度贴吧每一页中的图片](/upload/InfoBanner/zyjiaocheng/1047/78f3deb174de44b4ae678ac7309c0187.jpg)
import urllib.request import urllib.parse import ssl ssl._create_default_https_context = ssl._create_unverified_context from lxml import etree def loadPage(url): headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"} request = urllib.request.Request(url, headers = headers) html = urllib.request.urlopen(request).read() #解析HTML文档为HTML_DOM模型 content = etree.HTML(html) #返回所有匹配成功的列表集合 link_list = content.xpath(‘//li[@class=" j_thread_list clearfix"]//div[@class="threadlist_title pull_left j_th_tit "]/a/@href‘) print(link_list,len(link_list)) for link in link_list: fulllink = "http://tieba.baidu.com" + link #每个帖子的链接 loadImage(fulllink) #取出每个帖子中每个图片的的链接 def loadImage(link): headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"} request = urllib.request.Request(link, headers=headers) html = urllib.request.urlopen(request).read() content = etree.HTML(html) #返回帖子里所有图片链接的列表集合 link_list = content.xpath(‘//img[@class="BDE_Image"]/@src‘) for link in link_list: filename = link[-15:] urllib.request.urlretrieve(link,‘./tieba/‘+filename) print("下载成功"+‘----‘+filename) def tiebaSpider(url, beginPage, endPage): for page in range(beginPage, endPage + 1): pn = (page - 1) * 50 fullurl = url + "&pn=" + str(pn) loadPage(fullurl) if __name__ == "__main__": kw = input("请输入要爬取的贴吧名:") startPage = int(input("请输入起始页:")) endPage = int(input("请输入结束页:")) url = "https://tieba.baidu.com/f?" # 可以使用urlencode({‘kw‘:kw}) ---> https://tieba.baidu.com/f?kw=美女 key = urllib.parse.urlencode({"kw": kw}) fullurl = url + key # fullurl = url + ‘kw=‘ +kw # print(fullurl) tiebaSpider(fullurl, startPage, endPage)
原文:https://www.cnblogs.com/dongpei/p/9404640.html
内容总结
以上是互联网集市为您收集整理的爬虫--百度贴吧每一页中的图片全部内容,希望文章能够帮你解决爬虫--百度贴吧每一页中的图片所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。
来源:【匿名】