首页 / 爬虫 / 爬虫--百度贴吧每一页中的图片

爬虫--百度贴吧每一页中的图片

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫--百度贴吧每一页中的图片，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1732字，纯文字阅读大概需要3分钟。

内容图文

import urllib.request
import urllib.parse
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
from lxml import etree

def loadPage(url):
    headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}
    request = urllib.request.Request(url, headers = headers)
    html = urllib.request.urlopen(request).read()

    #解析HTML文档为HTML_DOM模型
    content = etree.HTML(html)
    #返回所有匹配成功的列表集合
    link_list = content.xpath(‘//li[@class=" j_thread_list clearfix"]//div[@class="threadlist_title pull_left j_th_tit "]/a/@href‘)
    print(link_list,len(link_list))

    for link in link_list:
        fulllink = "http://tieba.baidu.com" + link      #每个帖子的链接
        loadImage(fulllink)

#取出每个帖子中每个图片的的链接
def loadImage(link):
    headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}
    request = urllib.request.Request(link, headers=headers)
    html = urllib.request.urlopen(request).read()
    content = etree.HTML(html)

    #返回帖子里所有图片链接的列表集合
    link_list = content.xpath(‘//img[@class="BDE_Image"]/@src‘)
    for link in link_list:
        filename = link[-15:]
        urllib.request.urlretrieve(link,‘./tieba/‘+filename)
        print("下载成功"+‘----‘+filename)


def tiebaSpider(url, beginPage, endPage):

    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50
        fullurl = url + "&pn=" + str(pn)
        loadPage(fullurl)


if __name__ == "__main__":
    kw = input("请输入要爬取的贴吧名:")
    startPage = int(input("请输入起始页："))
    endPage = int(input("请输入结束页："))

    url = "https://tieba.baidu.com/f?"

    # 可以使用urlencode({‘kw‘:kw})  --->  https://tieba.baidu.com/f?kw=美女
    key = urllib.parse.urlencode({"kw": kw})
    fullurl = url + key
    # fullurl = url + ‘kw=‘ +kw
    # print(fullurl)

    tiebaSpider(fullurl, startPage, endPage)

原文：https://www.cnblogs.com/dongpei/p/9404640.html

内容总结

以上是互联网集市为您收集整理的爬虫--百度贴吧每一页中的图片全部内容，希望文章能够帮你解决爬虫--百度贴吧每一页中的图片所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1046109.html

来源：【匿名】

首页 / 爬虫 / 爬虫--百度贴吧每一页中的图片

爬虫--百度贴吧每一页中的图片

内容导读

内容图文

内容总结

内容备注

内容手机端

爬虫 - 最新教程

爬虫 - 最热教程