首页 / PYTHON / Python多线程爬取斗图表情包

Python多线程爬取斗图表情包

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python多线程爬取斗图表情包，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2286字，纯文字阅读大概需要4分钟。

内容图文

一、使用技术：

Lxml：解析网页
Requests库：获取网页信息
re：替换非法字符
os：处理文件名
Queue：实现安全的多线程
urllib :下载获取的图片

二、设计思路:

这里采用生产者消费者模式来设计多线程，消费者负责解析网页并得到一个网页上所有图片的url，而消费者则负责下载图片到本地即进行IO操作，在这里设计了5个消费者以及五个生产者

三、Demo:

import requests
from lxml import etree
import os
import re
from urllib import request
from queue import Queue
import threading
HEADRES = {
    'User-Agent':
        'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Mobile Safari/537.36'
}
class Producers(threading.Thread):
    def __init__(self, page_queue, img_queue, *args, **kwargs):
        super(Producers, self).__init__(*args, **kwargs)
        self.pq = page_queue
        self.iq = img_queue
    def run(self):
        while True:
            if self.pq.empty():
                break
            url = self.pq.get()
            self.parse_page(url)
    def getHtml(self, url):
        r = requests.get(url, headers=HEADRES)
        r.encoding = r.apparent_encoding
        return r.text
    def parse_page(self, url):
        text = self.getHtml(url)
        html = etree.HTML(text)
        imgs = html.xpath('//div[@class="page-content text-center"]//img[@class!="gif"]')
        imgurls = []
        alts = []
        for img in imgs:
            img_url = img.get('data-original')
            alt = img.get('alt')
            if img_url not in imgurls:
                imgurls.append(img_url)  # 爬取下来的url每个都有两份 处理一下 存在就不加入
            if alt not in alts:
                alts.append(alt)
        for value in zip(imgurls, alts):
            imgurl, alt = value
            alt1 = re.sub(r'[\?？\.，。！!*]', '', alt)  # windows文件名不能有这些字符 re处理掉
            suffix = os.path.splitext(imgurl)[1]
            filename = alt1 + suffix
            self.iq.put((imgurl, filename))
class Customer(threading.Thread):
    def __init__(self, page_queue, img_queue, *args, **kwargs):
        super(Customer, self).__init__(*args, **kwargs)
        self.pq = page_queue
        self.iq = img_queue
    def run(self):
        while True:
         if self.pq.empty() and self.iq.empty():
             break
         imgurl, filename  = self.iq.get()
         request.urlretrieve(imgurl, 'images/' + filename)
         print(filename+'下载完毕')
if __name__ == '__main__':
    page_queue = Queue(100)
    img_queue = Queue(1000)
    for i in range(1, 50):
     url = 'http://www.doutula.com/photo/list/?page='+str(i)
     page_queue.put(url)
    for x in range(5):
        t = Producers(page_queue, img_queue)
        t.start()
    for x in range(5):
        t = Customer(page_queue, img_queue)
        t.start()

可以与单线程爬取速度作比较，可明显观察到性能的提升

内容总结

以上是互联网集市为您收集整理的Python多线程爬取斗图表情包全部内容，希望文章能够帮你解决Python多线程爬取斗图表情包所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/761343.html

来源：【匿名】

【上一篇】python遍历列表【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python多线程爬取斗图表情包】教程文章相关的互联网学习教程文章

python的各种网络请求库 urllib3 requests aiohttp 分别请求http和https 的效率对比，多线程、gevent、asyncio对比，超大线程池、2n + 1 线程池对比【代码】【图】

此文三个目的，不能光意淫概念误入歧途，有的人以为得概念一套一套的，其实并不是想的那样，实践对比才能出真知，要尊重实践。此文使用各种网络请求库和各种并发模式和各种大小的线程池来测试请求50000次一个内容源码很小的百度静态页面，分别测试http和httpshttps://www.baidu.com/content-search.xmlhttp://www.baidu.com/content-search.xml网页内容很小，（基本可以排除认为请求得慢，耍赖说是网速带宽差造成的）。 1.总结一下...

PYTHON——多线程：从Thread类继承【代码】

从Thread类继承　　通过继承Thread来实现多线程可以提高对线程任务的个性化定制，具体实现如下：实例代码：# 从Thread类继承import threading from time import sleep,ctime# 线程类,从Thread类继承而来。class MyThread(threading.Thread):# 重写父类的构造方法，其中，func是线程函数，args是传入线程函数的参数，name是线程名称def__init__(self,func,args,name=‘‘):# 使用super函数调用父类的构造方法，并传入相应的参数值。...

python 多线程爬虫

最近，一直在做网络爬虫相关的东西。看了一下开源C++写的larbin爬虫，仔细阅读了里面的设计思想和一些关键技术的实现。1、larbin的URL去重用的很高效的bloom filter算法； 2、DNS处理，使用的adns异步的开源组件； 3、对于url队列的处理，则是用部分缓存到内存，部分写入文件的策略。 4、larbin对文件的相关操作做了很多工作 5、在larbin里有连接池，通过创建套接字，向目标站点发送HTTP协议中GET方法，获取内容，再解析header之类...

14-08-07 关于程序、进程、线程，以及python中实现多线程的办法【代码】【图】

考核题目中涉及到多线程编程，于是复习了一下系统编程里面的各种概念。首先，程序是代码，没有活动。通过编译连接之后被加载到内存里运行时，内存活动的就是进程，这里的进程不仅仅是代码段，还包括涉及的数据等。而线程是在同一个进程下的小程序，它们可以“同时”地运行，其中会有一个主线程来控制。接下来是多线程或着多进程的实现，两者原理基本一样，都是把CPU的时间分片然后进行分配给某个进程或者线程，也就是说在同...

python 多线程ping大量服务器在线情况【代码】【图】

需要ping一个网段所有机器的在线情况，shell脚步运行时间太长，用python写个多线程ping吧，代码如下：#!/usr/bin/python #coding=utf-8‘‘‘ Created on 2015-8-4 @author: Administrator ‘‘‘import threading,subprocess from time import ctime,sleep,time import Queuequeue=Queue.Queue()class ThreadUrl(threading.Thread):def__init__(self,queue):threading.Thread.__init__(self)self.queue=queuedef run(self):while ...

Python多线程的初步的认识（转载自https://www.cnblogs.com/yeayee/p/4952022.html）【代码】

单线程　　在好些年前的MS-DOS时代，操作系统处理问题都是单任务的，我想做听音乐和看电影两件事儿，那么一定要先排一下顺序。（好吧！我们不纠结在DOS时代是否有听音乐和看影的应用。^_^）from time import ctime,sleepdef music():for i in range(2):print "I was listening to music. %s" %ctime()sleep(1)def move():for i in range(2):print "I was at the movies! %s" %ctime()sleep(5)if __name__ == ‘__main__‘:music()...

python学习笔记——正则表达式和多线程【代码】

正则表达式30分钟正则表达式 python中对于正则表达式使用re模块处理因为python本身也用\转义，所以可以在字符串前使用r前缀，这样就不用考虑转义问题了。match()match()方法判断是否匹配成功，然会一个match()对象，否则返回None。import re test = '字符串' if re.match(r'正则表达式',test):print('ok') else:print('failed')split()re模块中的split([正则表达式],[字符串])方法可以使用正则表达式分割字符串，返回值为分割后的...

为什么在python里推荐使用多进程而不是多线程？--转同事的一篇文章

最近在看Python的多线程，经常我们会听到老手说：“python下多线程是鸡肋，推荐使用多进程！”，但是为什么这么说呢？要知其然，更要知其所以然。所以有了下面的深入研究：首先强调背景：1、GIL是什么？GIL的全称是Global Interpreter Lock(全局解释器锁)，来源是python设计之初的考虑，为了数据安全所做的决定。2、每个CPU在同一时间只能执行一个线程（在单核CPU下的多线程其实都只是并发，不是并行，并发和并行从宏观上来讲都是同...

python多线程-共享全局变量【代码】

目录多线程-共享全局变量多线程-共享全局变量列表当作实参传递到线程中总结多线程-共享全局变量问题多线程开发可能遇到的问题测试1测试2多线程-共享全局变量多线程-共享全局变量import threading import timeg_num = 200 def test1():global g_numfor i in range(5):g_num += 1print("--test1, g_num = %d--" % g_num)def test2():global g_num print("--test2, g_num = %d--" % g_num)if __name__ == "__main__":print("--执行...

模拟MapReduce，Python多线程处理【代码】【图】

? MapReduce是一个编程模型，也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。模拟一个最简单的map reduce 的编程#### 实现一个map reduce 编程。 #### 有一串数字作为输入。，每个数字对7取余。最后把余数相加import time mylist=[134,43...

python多线程之Threading【代码】

什么是线程？线程是操作系统内核调度的基本单位，一个进程中包含一个或多个线程，同一个进程内的多个线程资源共享，线程相比进程是“轻”量级的任务，内核进行调度时效率更高。多线程有什么优势？多线程可以实现多任务并发执行，简化代码的编写难度，每一个独立的模块都可以设计成一个独立的线程运行线程间通信比进程间通信难度更小，效率更高，因为资源共享线程的调度比进程的调度效率高Python 语言内置了多线程功能支持，而不是单...

【Python3 爬虫】U24_多线程爬虫之Thread类创建多线程【代码】【图】

目录1.开篇知识补充2.继承自threading.Thread类1.开篇知识补充查看线程数 threading.enumerate()函数可以查看当前线程数量。查看当前线程的名字使用threading.current_thread()可以查看当前线程的信息。2.继承自threading.Thread类为了让线程更好的封装，，可以使用threading模块下的Thread，继承这个类，然后实现run方法，线程就会自动运行run方法中的代码。示例代码如下：import threading import timeclass DanceThread(thread...

python_way ,day9 socket 和soctet多线程的使用【代码】【图】

1、socket的基础 tcp/ip tcp ip 协议是主机接入互联网以及接入互联网互联两台主机通信互联标准物理层：传输二进制链路层：对二进制数进行分组，唯一标示一台主机数据帧组成：包头：18个字节原地址，目标地址，数据类型，数据：最大1500字节网络层：跑的ip协议，可以让各个子网之间进行通信，标示两台主机的ip地址传输层：tcp/tdp，标示端口号：应用程序会话层：表示层应用层 soctet:就是对tcp/ip协议的...

python 多线程-02 线程池【代码】

from concurrent.futures import ThreadPoolExecutor import timedef task(a1,a2):time.sleep(1)print("{},{}".format(a1, a2,))if __name__ == '__main__':# 定义线程池pool = ThreadPoolExecutor(10)for i in range(100):# 申请线程池中的线程pool.submit(task, i, 8)原文：https://www.cnblogs.com/pythonPath/p/12459702.html

初识python：多线程【代码】【图】

多线程：在一个程序中，独立运行的程序片断叫作“线程”（Thread），利用它编程的概念就叫作“多线程处理”。即：一个进程中，多个线程。举个例说明：就像是一列火车就是一个“进程”（程序），火车的每一节车厢就是一个“线程”。每个线程可以独立的做一些事情。python 中 threading 模块提供了多线程编程方法。threading.enumerate() 查看当前线程的数量threading.current_thread() 查看当前线程的信息下面通过两种方式加以说明“...

首页 / PYTHON / Python多线程爬取斗图表情包

Python多线程爬取斗图表情包

内容导读

内容图文

一、使用技术：

Lxml：解析网页

Requests库：获取网页信息

re：替换非法字符

os：处理文件名

Queue：实现安全的多线程

urllib :下载获取的图片

二、设计思路:

三、Demo:

内容总结

内容备注

内容手机端

【Python多线程爬取斗图表情包】教程文章相关的互联网学习教程文章

python的各种网络请求库 urllib3 requests aiohttp 分别请求http和https 的效率对比，多线程、gevent、asyncio对比，超大线程池、2n + 1 线程池对比【代码】【图】

PYTHON——多线程：从Thread类继承【代码】

python 多线程爬虫

14-08-07 关于程序、进程、线程，以及python中实现多线程的办法【代码】【图】

python 多线程ping大量服务器在线情况【代码】【图】

Python多线程的初步的认识（转载自https://www.cnblogs.com/yeayee/p/4952022.html）【代码】

python学习笔记——正则表达式和多线程【代码】

为什么在python里推荐使用多进程而不是多线程？--转同事的一篇文章

python多线程-共享全局变量【代码】

模拟MapReduce，Python多线程处理【代码】【图】

python多线程之Threading【代码】

【Python3 爬虫】U24_多线程爬虫之Thread类创建多线程【代码】【图】

python_way ,day9 socket 和soctet多线程的使用【代码】【图】

python 多线程-02 线程池【代码】

初识python：多线程【代码】【图】

PYTHON - 相关标签

多线程 - 相关标签

图表 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程