爬虫小程序之爬取百度贴吧图片

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫小程序之爬取百度贴吧图片，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2055字，纯文字阅读大概需要3分钟。

内容图文

利用Python第三方库请求库requests和解析库lxml等工具爬取百度贴吧任意贴吧名里的所有图片：

要求如下：

　　1、.编程范式------面向对象

　　2、采取简单的反反爬措施：如请求时间不宜过于频繁、请求头中的User-Agent要隐藏爬取工具且随机随机生成User-Agent规避反爬

　　3、只爬取吧主发布的图片，其他图片禁止爬取

代码如下：

import requests
from lxml import etree
import os
import time
from fake_useragent import UserAgent
import warnings
import random

warnings.filterwarnings('ignore')


class BaiduSpider(object):
    def __init__(self, keyword, page_number):
        self.url = 'http://tieba.baidu.com/'
        self.useragent = UserAgent()
        self.headers = {'User-Agent': self.useragent.random}
        self.keyword = keyword
        self.page_number = page_number

    # 获取帖子链接
    def get_tlink(self, data):
        res = requests.get(self.url, headers=self.headers, params=data)
        res.encoding = 'utf-8'
        html = res.text
        html = html.replace(r"<!--", '').replace(r"-->", '')
        # print(html)
        parse_html = etree.HTML(html)
        t_list = parse_html.xpath(
            '//ul[@id="thread_list"]/li[@class=" j_thread_list clearfix"]/div//a/@href')
        # print(t_list)
        for t in t_list:
            # 拼接每个帖子的链接
            t_link = 'http://tieba.baidu.com' + t
            # 向帖子链接发请求，获取图片链接，向图片链接发请求，保存图片到本地
            # print(t_link)
            self.get_ilink(t_link)

    # 提取图片链接
    def get_ilink(self, t_link):
        res = requests.get(t_link, headers=self.headers)
        res.encoding = 'utf-8'
        html = res.text
        parse_html = etree.HTML(html)
        i_list = parse_html.xpath(
            '//div[@class="d_post_content_main d_post_content_firstfloor"]//div[@class="d_post_content j_d_post_content  clearfix"]/img[@class="BDE_Image"]/@src')
        print(i_list)
        for i in i_list:
            html = requests.get(i, heasers=self.headers).content
            self.write_image(html, i)

    # 保存图片
    def write_image(self, html, i):
        filename = './' + self.keyword + '/' + i[-10:]
        with open(filename, 'wb') as f:
            f.write(html)

    def main(self):
        if os.path.exists(self.keyword):
            os.remove(self.keyword)
        for i in range(1, self.page_number + 1):
            data = {
                'kw': self.keyword,
                'pn': str((i - 1) * 50)
            }
            self.get_tlink(data)
            print('第%d页下载完毕' % i)
            time.sleep(random.randint(1, 10))


if __name__ == "__main__":
    spider = BaiduSpider('高考吧', 1)
    spider.main()

内容总结

以上是互联网集市为您收集整理的爬虫小程序之爬取百度贴吧图片全部内容，希望文章能够帮你解决爬虫小程序之爬取百度贴吧图片所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/789985.html

来源：【匿名】

【上一篇】Python 爬虫从入门到进阶之路（五）【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫小程序之爬取百度贴吧图片】教程文章相关的互联网学习教程文章

（1）爬取豆瓣电影Top250https://blog.csdn.net/fighting_no1/article/details/50926008（2）爬虫博客 https://cuiqingcai.com/?s=%E7%88%AC%E8%99%ABpre.ctl { font-family: "Liberation Mono", monospace } p { margin-bottom: 0.1in; line-height: 120% } a:link { } 原文：https://www.cnblogs.com/cekong/p/9968925.html

python爬虫编写英译中小程序【代码】【图】

1.选择一个翻译页面，我选择的是有道词典（http://dict.youdao.com）2.随便输入一个英语单词进行翻译，然后查看源文件，找到翻译后的内容所在的位置，看它在什么标签里3.开始编写程序（1）首先引入requests库跟BeautifulSoup库（2）更改请求头，防止被页面发现是爬虫，可以在审查元素里找（3）确定URL，在有道是 http://dict.youdao.com/w/%s/#keyfrom=dict2.top（4）开始写简单的程序，主要内容就三行第一步：r = requests.get(ur...

python编写爬虫小程序

起因深夜忽然想下载一点电子书来扩充一下kindle，就想起来python学得太浅，什么“装饰器”啊、“多线程”啊都没有学到。想到廖雪峰大神的python教程很经典、很著名。就想找找有木有pdf版的下载，结果居然没找到！！CSDN有个不完整的还骗走了我一个积分！！尼玛！！怒了，准备写个程序直接去爬廖雪峰的教程，然后再html转成电子书。过程过程很有趣呢，用浅薄的python知识，写python程序，去爬python教程，来学习python。想想有点...

pythoy超级超级超级简单的一个爬虫小程序_html/css_WEB-ITnose

首次接触爬虫，这个程序可以让初学者明白爬虫是啥，爬虫的基本逻辑。（参照网易云课堂heibanke老师的程序编写的。hebanke老师的课程讲得很清楚，感兴趣的选手可以去看看）被爬虫的网址是http://www.heibanke.com/lesson/crawler_ex00/需要完成的任务是在网址后面输入显示的数字转入下一个网址，再次读取显示的数字，转入下一个网址，以此循环爬虫要求在爬虫的时候需要需要用到两个库，一个urllib，...

爬虫之小程序某日优鲜msgin破解1【代码】【图】

小程序爬虫首先声明：本文章仅供学习之用，不可它用一、前言反编译，其实还是简单的，要想拿到微信小程序源码，找到源文件在手机存放的位置就行，源文件拿到，用反编译脚本程序跑一下，微信小程序代码包里的所有文件、所有资源就出来了（除了project.config.json小程序配置文件）。小程序分为主包和分包二、所需工具 1.nodejs运行环境，这是反编译脚本所需运行环境。 2.安装手机模拟器（用于下载微信小程序包）和文件管理器 3....

【Fidder网络抓包+Python爬虫】下载微信小程序视频【代码】【图】

首先声明本篇博客以学习为目的，侵权即删。文章目录 1. Fidder抓包1.1 在电脑上打开微信小程序视频播放页以及Fidder软件1.2 点击视频播放按钮，并查看Fidder抓到的数据包 2. Python爬虫2.1 视频下载2.2 视频合并2.3 完整代码 3. 写在最后 1. Fidder抓包关于fidder软件的安装和配置，这里我就不多赘述了，大家上网都很容易搜到。 1.1 在电脑上打开微信小程序视频播放页以及Fidder软件1.2 点击视频播放按钮，并查看Fidder抓...

爬虫(21)crawlspider讲解古诗文案例补充+小程序社区案例+汽车之家案例+scrapy内置的下载文件的方法【代码】【图】

文章目录第二十一章 crawlspider讲解1. 古诗文案例crawlspider1.1 需求1.2 处理1.3 解析 2. 小程序社区案例2.1 创建项目2.2 项目配置2.3 解析详情页的数据 3. 汽车之家案例（二进制数据爬取）3.1 创建项目3.2 项目配置3.3 定位图片3.4 配置settings3.5 创建开始文件3.6 打开管道3.7 在管道中操作3.8 图片存储路径代码解释3.9 解决报错问题3.10 翻页 4. 其他方法爬取图片4.1 在items文件中创建两个字段4.2 导入items文件中的类并在...

爬虫小程序（爬取英雄联盟的英雄皮肤）【代码】【图】

一、爬虫流程： 1、明确目标：url = https://daoju.qq.com/lol/list/17-0-0-0-0-0-0-0-0-0-0-00-0-0-1-1.shtml?ADTAG=innercop.lol.SY.shoppinglist_new_17 2、判断数据类型：动态/静态（这里是动态类型，是通过JS渲染的）备注：如何来判断数据类型？是通过源码来判断的，如果网页源码中可以找到我们需要爬取的数据，那么就代表是静态，可以通过访问网页后结合正则就可以获取数据， ...

爬虫小程序之爬取西刺免费高匿IP构建代理池【代码】

反爬机制很多，其中一种便是web服务器通过记录IP访问服务器的频率来判断该IP地址是否为爬虫IP，为了避免IP被封，同时可以提高爬取数据的稳定性，可以通过第三方IP地址发起请求，为了后期数据爬取的稳定性，可以构建自己的代理池，本程序是通过爬取西刺代理网站里的免费高匿IP，构建后期工作所需的IP代理池工具包，具体程序如下：注：1>高匿：高度匿名，web服务器只能看到代理IP地址，无法看到客户自身地址，更无法识别是否使用代理...