python多线程爬虫

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python多线程爬虫，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5810字，纯文字阅读大概需要9分钟。

内容图文

python多线程爬虫

一、进程与线程的定义

进程：

进程就是一个程序在一个数据集上的一次动态执行过程。进程一般由程序、数据集、进程控制块三部分组成。我们编写的程序用来描述进程要完成哪些功能以及如何完成；数据集则是程序在执行过程中所需要使用的资源；进程控制块用来记录进程的外部特征，描述进程的执行变化过程，系统可以利用它来控制和管理进程，它是系统感知进程存在的唯一标志。

线程：

线程也叫轻量级进程，它是一个基本的CPU执行单元，也是程序执行过程中的最小单元，是处理器调度和分派的基本单位，由线程ID、程序计数器、寄存器集合和堆栈共同组成。线程的引入减小了程序并发执行时的开销，提高了操作系统的并发性能。

进程与线程的关系

(1)一个线程只能属于一个进程，而一个进程可以有多个线程，但至少有一个线程。
(2)资源分配给进程，同一进程的所有线程共享该进程的所有资源。
(3)CPU分给线程，即真正在CPU上运行的是线程。

技术分享图片

简单点理解：电脑上同时运行微信、QQ、钉钉，这就是多进程。在QQ上一边视频一边发信息就是多线程。

二、创建线程

1.面向过程方式

t = threading.Thread(target=xxx, name=xxx, args=(xx, xx))
target: 线程启动之后要执行的函数
name: 线程的名字
获取线程名字：threading.current_thread().name
args: 主线程向子线程传递参数
t.start() : 启动线程
t.join() : 让主线程等待子线程结束

            #
            面向过程的实现方法
            import
             threading

            import
             time


            def
             sing(key):
    
            for item in range(1,7):
        print("我在唱歌")
        time.sleep(1)

def dance(key):
    for item in range(1,7):
        print("我在跳舞")
        time.sleep(1)

if__name__=="__main__":
    key="小强"# 面向过程方式创建线程
    sThread = threading.Thread(target=sing, name="唱歌", args=(key,))
    dThread = threading.Thread(target=dance, name="跳舞", args=(key,))
    sThread.start()
    dThread.start()
    sThread.join()
    dThread.join()
    print("主线程结束")

2.面向对象方式

            #
            面向对象的实现方法
            import
             threading

            import
             time


            """
            
    定义一个类，继承自threading.Thread

            """
            class
             singThread(threading.Thread):
    
            def
            __init__
            (self,name,args):
        super().
            __init__
            ()
        self.name=name
        self.args=args


    def run(self):
        for i in range(1,7):
            print(‘线程{}----{}:i am sing‘.format(self.name,self.args))
            time.sleep(0.5)


class danceThread(threading.Thread):
    def__init__(self, name, args):
        super().__init__()
        self.name = name
        self.args = args

    def run(self):
        for i in range(1,7):
            print(‘线程{}----{}:i am dance‘.format(self.name,self.args))
            time.sleep(0.5)

def main():
    #创建线程
    sing =singThread(1,‘小丽‘)
    dance =danceThread(2,‘小强‘)
    #启动线程    sing.start()
    dance.start()
    #设置主线程等待子线程结束    sing.join()
    dance.join()

if__name__ == "__main__":
    main()

三、线程同步

线程之间共享全局变量，当同时需要对某个全局变量进行操作的时候会出现数据混乱的现象，这个时候要使用线程锁来处理这种情况。多个线程之间谁抢到谁上锁，谁使用，完毕之后将锁释放。

　　创建锁：s = threading.Lock()

　　上锁：s.acquire()

　　释放锁：s.release()

四、队列（queue）

先进先出原则

　　创建队列：q = Queue(5)

　　给队列添加数据：q.put(‘xxx‘)

　　q.put(‘xxx‘, False) 如果队列满，程序直接报错

　　q.put(‘xxx‘, True, 3) 如果队列满，程序等待3s再报错

　　q.get() 获取数据，如果队列为空卡在这里等待

　　q.get(False) 如果队列为空，程序直接报错

　　q.get(True, 3) 如果队列为空，程序等待3s报错

　　q.empty() 判断队列是否为空

　　q.full() 判断队列是否已满

　　q.qsize() 获取队列长度

五、多线程爬虫

构建两类线程：爬取、解析

　　url队列：爬取线程从url队列get数据，获取需要爬取的地址，爬取数据　　

　　内容队列：爬取线程往队列中put数据，解析线程从队列get数据，并负责写入数据。

　　写数据：上锁

            #
            -*-coding:gb2312-*-
            import
             requests

            import
             threading

            from queue import Queue
from lxml import etree
import time
import json

#定义标记位
data_flag=False

#创建队列def creatQueue():
    #创建存储爬取的页码的url队列
    page_queue=Queue()
    #创建存储爬取到的网页内容的队列
    data_queue=Queue()
    #爬取50页内容for i in range(1,11):
        page_queue.put(i)

    return page_queue,data_queue

#crawl 爬取
#parse 解析
#创建爬取线程存储列表
Crawl_thread_list=[]
#创解析取线程存储列表
Parse_thread_list=[]
#创建爬取线程类class Crawl_thread(threading.Thread):
    def__init__(self,name,page_queue,data_queue):
        super(Crawl_thread, self).__init__()
        self.name=name
        self.page_queue=page_queue
        self.data_queue=data_queue
        self.url=r‘http://www.ifanjian.net/jiantu-{}‘
        self.header={‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36‘}

    def run(self):
        print(‘%s-------启动‘%self.name)
        while 1:
            #爬取线程退出if self.page_queue.empty():
                print(‘{}爬取完毕，线程退出‘.format(self.name))
                break# 获取要采集的页码序号并拼接urlprint(‘{}开始爬取数据‘.format(self.name))
            url= self.url.format(self.page_queue.get())
            #爬取网页信息
            r= requests.get(url=url,headers=self.header)
            #将爬取的网页信息放入数据队列中            self.data_queue.put(r.text)
        print(‘%s-------结束‘%self.name)

#创建解析线程类class Parse_thread(threading.Thread):
    def__init__(self,name,data_queue,fp,lock):
        super(Parse_thread, self).__init__()
        self.name=name
        self.data_queue = data_queue
        self.fp=fp
        self.lock=lock


    def run(self):
        print(‘%s-------启动‘%self.name)
        #count=1while 1:

            #解析线程结束if data_flag:
                print(‘{}数据解析完毕，线程退出‘.format(self.name))
                break#从数据队列中获取要采集到的数据
            data= self.data_queue.get()
            print(‘{}开始解析数据‘.format(self.name))
            self.parse_content(data)
            #count += 1print(‘%s-------结束‘%self.name)

    def parse_content(self, data):
        tree = etree.HTML(data)
        # 对取出的数据进行解析# 获取 标题和图片地址所在的位置
        li = tree.xpath("//div[@class=‘page-body clearfix‘]//li[@class=‘cont-item‘]")
        # 建立列表临时存储解析出的数据
        items = []
        for temp in li:
            # 获取标题
            tittle = temp.xpath(".//h2/a/text()")
            # 获取图片src,懒加载
            image_src = temp.xpath("./div[2]//img/@data-src")
            item = {‘标题‘: tittle, ‘链接‘: image_src}

            # 临时存储数据            items.append(item)
        print(items)

        # 将数据写入文件# 获取全局锁        self.lock.acquire()
        # 写入数据print(‘{}开始写入数据‘.format(self.name))
        self.fp.write(json.dumps(items, ensure_ascii=False) + ‘\n‘)
        # 释放全局锁        self.lock.release()




#定义爬取线程创建函数def Creat_crawl_thread(num,page_queue,data_queue):
    #创建线程名称列表
    name_list=[‘爬取线程{}‘.format(i) for i in range(1,num+1)]
    #创建爬取线程for name in name_list:
        crawl_thread= Crawl_thread(name,page_queue,data_queue)
        Crawl_thread_list.append(crawl_thread)

#定义解析线程创建函数def Creat_parse_thread(num,data_queue,fp,lock):
    #创建线程名称列表
    name_list=[‘解析线程{}‘.format(i) for i in range(1,num+1)]
    #创建爬取线程for name in name_list:
        parse_thread= Parse_thread(name,data_queue,fp,lock)
        Parse_thread_list.append(parse_thread)

def main():
   #创建队列
    page_queue,data_queue= creatQueue()
   #创建数据存储文件
    fp= open(‘fangjian.json‘,‘a‘,encoding=‘utf8‘)
   #创建全局锁
    lock= threading.Lock()
   #创建线程#创建爬取线程
    Creat_crawl_thread(3,page_queue,data_queue)
   #创建解析线程
    Creat_parse_thread(3,data_queue,fp,lock)
   #启动爬取线程for crawl_thread in Crawl_thread_list:
       crawl_thread.start()
    #等待10秒#time.sleep(10)# 启动解析线程for parse_thread in Parse_thread_list:
       parse_thread.start()

    # 判断数据是否爬取解析完毕while 1:
        if page_queue.empty():
            breakwhile 1:
        if data_queue.empty():
            global data_flag
            data_flag = True
            break#设置主线程等待子线程结束for crawl_thread in Crawl_thread_list:
        crawl_thread.join()
    for parse_thread in Parse_thread_list:
        parse_thread.join()



    #数据写入结束，关闭文件    fp.close()
    print(‘主线程结束‘)


if__name__ == ‘__main__‘:
    main()

原文：https://www.cnblogs.com/gostClimbers/p/14323049.html

内容总结

以上是互联网集市为您收集整理的python多线程爬虫全部内容，希望文章能够帮你解决python多线程爬虫所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1191885.html

来源：【匿名】

【上一篇】scrapy爬虫框架调用百度地图api数据存入数据库【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python多线程爬虫】教程文章相关的互联网学习教程文章

python多线程爬虫一、进程与线程的定义进程：进程就是一个程序在一个数据集上的一次动态执行过程。进程一般由程序、数据集、进程控制块三部分组成。我们编写的程序用来描述进程要完成哪些功能以及如何完成；数据集则是程序在执行过程中所需要使用的资源；进程控制块用来记录进程的外部特征，描述进程的执行变化过程，系统可以利用它来控制和管理进程，它是系统感知进程存在的唯一标志。线程：线程也叫轻量级进程，它是一个基本的CP...

Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？【代码】

最近正在学习Python中的异步编程，看了一些博客后做了一些小测验：对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异，注释：在爬虫中我几乎没有使用任何计算性任务，为了探测异步的性能，全部都只是做了网络IO请求，就是说aiohttp把网页get完就程序就done了。结果发现前者的效率比后者还要高。我询问了另外一位博主，(提供代码的博主没回我信息)，他说使用concurrent.futures的话因为...

多线程爬虫案例【代码】【图】

多线程糗事百科案例案例要求参考上一个糗事百科单进程案例Queue（队列对象）Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。而Queue，是线程安全的，因此在满足使用条件下，建议使用队列初始化： class Queue.Queue(maxsize) FIFO 先进先出包中的常用方法:Queue.qsize() 返回队列...

【Python3 爬虫】U28_多线程爬取斗图啦的表情包【代码】【图】

目录1.需求描述2.实战代码2.1 单线程爬取2.2 多线程版1.需求描述爬取斗图啦网站，地址为：https://www.doutula.com/photo/list/，网站截图如下：现在需要按页爬取前2页的表情包，那么接下来直接上代码吧。2.实战代码2.1 单线程爬取 from urllib import request import requests from lxml import etree import re import osHEADERS= {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like...

自定义爬虫架构之多线程爬虫与异步爬虫【代码】【图】

async/await关键字是出现在python3.4以后。网上已经有很多文章对async/await这两个关键字都有讲解，包括如何由python2的yield from发展到async/await这两个关键字，以及一些代码实现都有。但是对于像我这样初次接触的人来说，光看代码分析也不一定能理解，我也是在度娘上搜索很多相关的网站，当中也有官网，都没有发现能让我一眼看懂在什么地方可以用await，什么情况用await的文章。经过自己的重新思考，总算对async、await有一些初...

多线程爬虫之生产者和消费者模式【代码】

1.什么是生产者消费者模式生产者消费者模式是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯，而通过阻塞队列来进行通讯，所以生产者生产完数据之后不用等待消费者处理，直接扔给阻塞队列，消费者不找生产者要数据，而是直接从阻塞队列里取，阻塞队列就相当于一个缓冲区，平衡了生产者和消费者的处理能力。2.为什么要使用生产者和消费者模式在进程世界里，生产者就是生产数据的...

12-多线程爬虫-锁机制(threading.Lock类)【代码】【图】

多线程存在共享全局变量的问题: 多线程都是在同一个进程中运行的，因此在进程中的全局变量所有线程都是可共享的。这就造成一个问题，因为线程执行的顺序时无序的，有可能会造成数据错误以上结果正常的话，应该是10000000和20000000，但因为多线程运行的不确定性，因此最后的结果可能是随机的扩展：启动一个线程时，线程并不会立即执行，而是等待CPU的资源调度，因次每个线程执行顺序是随机无序的，具有不确定性# 多线程共享全局...

PHP使用swoole实现多线程爬虫【代码】【图】

在swoole中,php可以借助其启动子进程的方式,实现php的多进程：<?php $s_time = time(); echo 开始时间:.date(H:i:s,$s_time).PHP_EOL; //进程数 $work_number=6;// $worker=[];//模拟地址 $curl=[https://blog.csdn.net/feiwutudou,https://wiki.swoole.com/wiki/page/215.html,http://fanyi.baidu.com/?aldtype=16047#en/zh/manager,http://wanguo.net/Salecar/index.html,http://o.ngking.com/themes/mskin/login/login.jsp,http...

php与python实现的线程池多线程爬虫功能实例详解

这篇文章主要介绍了php与python实现的线程池多线程爬虫功能,结合实例形式分析了php与python实现线程池多线程爬虫的完整实现方法,需要的朋友可以参考下多线程爬虫可以用于抓取内容了这个可以提升性能了，这里我们来看php与python 线程池多线程爬虫的例子，代码如下：php例子<?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { self::$ch =...

Laravel下使用Guzzle编写多线程爬虫实战

说明 Guzzle库是一套强大的 PHP HTTP 请求套件。本文重点演示如何使用 Guzzle 发起多线程请求。参考 Github 官方用户接口文档 Guzzle 并发请求文档 Laravel LTS 5.1 - Artisan 文档创建命令 1. 运行命令行创建命令 php artisan make:console MultithreadingRequest --command=test:multithreading-request 2. 注册命令编辑 app/Console/Kernel.php，在 $commands 数组...

php与python实现的线程池多线程爬虫功能示例

本文实例讲述了php与python实现的线程池多线程爬虫功能。分享给大家供大家参考，具体如下：多线程爬虫可以用于抓取内容了这个可以提升性能了，这里我们来看php与python 线程池多线程爬虫的例子，代码如下： php例子 <?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { self::$ch = curl_init(); curl_setopt(self::$ch, CURLOPT_TIMEOUT...

使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号【图】

不知道大家过年都是怎么过的，反正栏主是在家睡了一天，醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码，想起之前练手的时候写过一个抓取百度贴吧发帖记录中的邮箱与手机号的爬虫，于是开源分享给大家学习与参考。需求分析：本爬虫主要是对百度贴吧中各种帖子的内容进行抓取，并且分析帖子内容将其中的手机号和邮箱地址抓取出来。主要流程在代码注释中有详细解释。测试环境：代码在Windows7 64bit，python 2.7 64bit（安装mysq...

Python多线程爬虫爬取电影天堂资源【图】

最近花些时间学习了一下Python，并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址，代码已经上传到GitHub上了，需要的同学可以自行下载。刚开始学习python希望可以获得宝贵的意见。　　先来简单介绍一下，网络爬虫的基本实现原理吧。一个爬虫首先要给它一个起点，所以需要精心选取一些URL作为起点，然后我们的爬虫从这些起点出发，抓取并解析所抓取到的页面，将所需要的信息提取出来，同时获得的新的URL插入到队列中...

使用多线程爬虫抓取*里面的邮箱与手机号【图】

本爬虫主要是对百度贴吧中各种帖子的内容进行抓取，并且分析帖子内容将其中的手机号和邮箱地址抓取出来。主要流程在代码注释中有详细解释。测试环境：代码在Windows7 64bit，python 2.7 64bit（安装mysqldb扩展）以及centos 6.5，python 2.7（带mysqldb扩展）环境下测试通过环境准备：工欲善其事必先利其器，大家可以从截图看出我的环境是Windows 7 + PyCharm。Python环境是Python 2.7 64bit。这是比较适合新手使用的开发环境。然后...

Python多线程爬虫实战_爬取糗事百科段子的实例_python

下面小编就为大家分享一篇Python多线程爬虫实战_爬取糗事百科段子的实例，具有很好的参考价值，希望对大家有所帮助。对Python感兴趣的小伙伴们一起跟随小编过来看看吧多线程爬虫：即程序中的某些程序段并行执行，合理地设置多线程，可以让爬虫效率更高糗事百科段子普通爬虫和多线程爬虫分析该网址链接得出：https://www.qiushibaike.com/8hr/page/页码/多线程爬虫也就和JAVA的多线程差不多，直接上代码 #此处代码为普通爬虫 import...

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / python多线程爬虫

python多线程爬虫

内容导读

内容图文

一、进程与线程的定义

二、创建线程

1.面向过程方式

2.面向对象方式

三、线程同步

四、队列（queue）

五、多线程爬虫

内容总结

内容备注

内容手机端

【python多线程爬虫】教程文章相关的互联网学习教程文章

python多线程爬虫【代码】【图】

Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？【代码】

多线程爬虫案例【代码】【图】

【Python3 爬虫】U28_多线程爬取斗图啦的表情包【代码】【图】

自定义爬虫架构之多线程爬虫与异步爬虫【代码】【图】

多线程爬虫之生产者和消费者模式【代码】

12-多线程爬虫-锁机制(threading.Lock类)【代码】【图】

PHP使用swoole实现多线程爬虫【代码】【图】

php与python实现的线程池多线程爬虫功能实例详解

Laravel下使用Guzzle编写多线程爬虫实战

php与python实现的线程池多线程爬虫功能示例

使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号【图】

Python多线程爬虫爬取电影天堂资源【图】

使用多线程爬虫抓取*里面的邮箱与手机号【图】

Python多线程爬虫实战_爬取糗事百科段子的实例_python

多线程 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程