八、多线程爬虫之糗事百科案例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了八、多线程爬虫之糗事百科案例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3985字，纯文字阅读大概需要6分钟。

内容图文

案例要求参考上一个糗事百科单进程案例

Queue（队列对象）

Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式

python下多线程的思考

对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。而Queue，是线程安全的，因此在满足使用条件下，建议使用队列

初始化： class Queue.Queue(maxsize) FIFO 先进先出
包中的常用方法:
- Queue.qsize() 返回队列的大小
- Queue.empty() 如果队列为空，返回True,反之False
- Queue.full() 如果队列满了，返回True,反之False
- Queue.full 与 maxsize 大小对应
- Queue.get([block[, timeout]])获取队列，timeout等待时间
创建一个“队列”对象
- import Queue
- myqueue = Queue.Queue(maxsize = 10)
将一个值放入队列中
- myqueue.put(10)
将一个值从队列中取出
- myqueue.get()

多线程示意图

技术分享图片

# -*- coding:utf-8 -*-
import requests
from lxml import etree
from Queue import Queue
import threading
import time
import json


class thread_crawl(threading.Thread):
    ‘‘‘
    抓取线程类
    ‘‘‘

    def __init__(self, threadID, q):
        threading.Thread.__init__(self)
        self.threadID = threadID
        self.q = q

    def run(self):
        print "Starting " + self.threadID
        self.qiushi_spider()
        print "Exiting ", self.threadID

    def qiushi_spider(self):
        # page = 1while True:
            if self.q.empty():
                breakelse:
                page = self.q.get()
                print ‘qiushi_spider=‘, self.threadID, ‘,page=‘, str(page)
                url = ‘http://www.qiushibaike.com/8hr/page/‘ + str(page) + ‘/‘
                headers = {
                    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36‘,
                    ‘Accept-Language‘: ‘zh-CN,zh;q=0.8‘}
                # 多次尝试失败结束、防止死循环
                timeout = 4while timeout > 0:
                    timeout -= 1try:
                        content = requests.get(url, headers=headers)
                        data_queue.put(content.text)
                        break
                    except Exception, e:
                        print ‘qiushi_spider‘, e
                if timeout < 0:
                    print ‘timeout‘, url


class Thread_Parser(threading.Thread):
    ‘‘‘
    页面解析类；
    ‘‘‘

    def __init__(self, threadID, queue, lock, f):
        threading.Thread.__init__(self)
        self.threadID = threadID
        self.queue = queue
        self.lock = lock
        self.f = f

    def run(self):
        print ‘starting ‘, self.threadID
        global total, exitFlag_Parser
        while not exitFlag_Parser:
            try:
                ‘‘‘
                调用队列对象的get()方法从队头删除并返回一个项目。可选参数为block，默认为True。
                如果队列为空且block为True，get()就使调用线程暂停，直至有项目可用。
                如果队列为空且block为False，队列将引发Empty异常。
                ‘‘‘
                item = self.queue.get(False)
                if not item:
                    pass
                self.parse_data(item)
                self.queue.task_done()
                print ‘Thread_Parser=‘, self.threadID, ‘,total=‘, total
            except:
                pass
        print ‘Exiting ‘, self.threadID

    def parse_data(self, item):
        ‘‘‘
        解析网页函数
        :param item: 网页内容
        :return:
        ‘‘‘
global total
        try:
            html = etree.HTML(item)
            result = html.xpath(‘//div[contains(@id,"qiushi_tag")]‘)
            for site in result:
                try:
                    imgUrl = site.xpath(‘.//img/@src‘)[0]
                    title = site.xpath(‘.//h2‘)[0].text
                    content = site.xpath(‘.//div[@class="content"]/span‘)[0].text.strip()
                    vote = None
                    comments = None
                    try:
                        vote = site.xpath(‘.//i‘)[0].text
                        comments = site.xpath(‘.//i‘)[1].text
                    except:
                        pass
                    result = {
                        ‘imgUrl‘: imgUrl,
                        ‘title‘: title,
                        ‘content‘: content,
                        ‘vote‘: vote,
                        ‘comments‘: comments,
                    }

                    with self.lock:
                        # print ‘write %s‘ % json.dumps(result)
                        self.f.write(json.dumps(result, ensure_ascii=False).encode(‘utf-8‘) + "\n")

                except Exception, e:
                    print ‘site in result‘, e
        except Exception, e:
            print ‘parse_data‘, e
        with self.lock:
            total += 1

data_queue = Queue()
exitFlag_Parser = False
lock = threading.Lock()
total = 0

def main():
    output = open(‘qiushibaike.json‘, ‘a‘)

    #初始化网页页码page从1-10个页面
    pageQueue = Queue(50)
    for page in range(1, 11):
        pageQueue.put(page)

    #初始化采集线程
    crawlthreads = []
    crawlList = ["crawl-1", "crawl-2", "crawl-3"]

    for threadID in crawlList:
        thread = thread_crawl(threadID, pageQueue)
        thread.start()
        crawlthreads.append(thread)

    #初始化解析线程parserList
    parserthreads = []
    parserList = ["parser-1", "parser-2", "parser-3"]
    #分别启动parserList
    for threadID in parserList:
        thread = Thread_Parser(threadID, data_queue, lock, output)
        thread.start()
        parserthreads.append(thread)

    # 等待队列清空
    while not pageQueue.empty():
        pass

    # 等待所有线程完成
    for t in crawlthreads:
        t.join()

    while not data_queue.empty():
        pass
    # 通知线程是时候退出
    global exitFlag_Parser
    exitFlag_Parser = True

    for t in parserthreads:
        t.join()
    print "Exiting Main Thread"
    with lock:
        output.close()


if __name__ == ‘__main__‘:
    main()

技术分享图片

原文：https://www.cnblogs.com/steven9898/p/11436661.html

内容总结

以上是互联网集市为您收集整理的八、多线程爬虫之糗事百科案例全部内容，希望文章能够帮你解决八、多线程爬虫之糗事百科案例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1209882.html

来源：【匿名】

【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【八、多线程爬虫之糗事百科案例】教程文章相关的互联网学习教程文章

案例要求参考上一个糗事百科单进程案例Queue（队列对象）Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。而Queue，是线程安全的，因此在满足使用条件下，建议使用队列初始化： class Queue.Queue(maxsize) FIFO 先进先出包中的常用方法:Queue.qsize() 返回队列的大小Queue.empty(...

python爬虫中多线程的使用【代码】

queue介绍queue是python的标准库，俗称队列.可以直接import引用,在python2.x中,模块名为Queue。python3直接queue即可在python中，多个线程之间的数据是共享的，多个线程进行数据交换的时候，不能够保证数据的安全性和一致性，所以当多个线程需要进行数据交换的时候，队列就出现了，队列可以完美解决线程间的数据交换，保证线程间数据的安全性和一致性。#多线程实战栗子（糗百） #用一个队列Queue对象， #先产生所有url，put进队列；...

爬虫学习之第四章爬虫进阶之多线程爬虫【代码】

多线程爬虫有些时候，比如下载图片，因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程介绍：多线程是为了同步完成多项任务，通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢，而进程则是火车。车厢离开火车是无法跑动的，同理火车也可以有多节车厢。多线...

python多线程爬虫【代码】【图】

python多线程爬虫一、进程与线程的定义进程：进程就是一个程序在一个数据集上的一次动态执行过程。进程一般由程序、数据集、进程控制块三部分组成。我们编写的程序用来描述进程要完成哪些功能以及如何完成；数据集则是程序在执行过程中所需要使用的资源；进程控制块用来记录进程的外部特征，描述进程的执行变化过程，系统可以利用它来控制和管理进程，它是系统感知进程存在的唯一标志。线程：线程也叫轻量级进程，它是一个基本的CP...

Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？【代码】

最近正在学习Python中的异步编程，看了一些博客后做了一些小测验：对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异，注释：在爬虫中我几乎没有使用任何计算性任务，为了探测异步的性能，全部都只是做了网络IO请求，就是说aiohttp把网页get完就程序就done了。结果发现前者的效率比后者还要高。我询问了另外一位博主，(提供代码的博主没回我信息)，他说使用concurrent.futures的话因为...

多线程爬虫案例【代码】【图】

多线程糗事百科案例案例要求参考上一个糗事百科单进程案例Queue（队列对象）Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。而Queue，是线程安全的，因此在满足使用条件下，建议使用队列初始化： class Queue.Queue(maxsize) FIFO 先进先出包中的常用方法:Queue.qsize() 返回队列...

【Python3 爬虫】U28_多线程爬取斗图啦的表情包【代码】【图】

目录1.需求描述2.实战代码2.1 单线程爬取2.2 多线程版1.需求描述爬取斗图啦网站，地址为：https://www.doutula.com/photo/list/，网站截图如下：现在需要按页爬取前2页的表情包，那么接下来直接上代码吧。2.实战代码2.1 单线程爬取 from urllib import request import requests from lxml import etree import re import osHEADERS= {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like...

自定义爬虫架构之多线程爬虫与异步爬虫【代码】【图】

async/await关键字是出现在python3.4以后。网上已经有很多文章对async/await这两个关键字都有讲解，包括如何由python2的yield from发展到async/await这两个关键字，以及一些代码实现都有。但是对于像我这样初次接触的人来说，光看代码分析也不一定能理解，我也是在度娘上搜索很多相关的网站，当中也有官网，都没有发现能让我一眼看懂在什么地方可以用await，什么情况用await的文章。经过自己的重新思考，总算对async、await有一些初...

多线程爬虫之生产者和消费者模式【代码】

1.什么是生产者消费者模式生产者消费者模式是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯，而通过阻塞队列来进行通讯，所以生产者生产完数据之后不用等待消费者处理，直接扔给阻塞队列，消费者不找生产者要数据，而是直接从阻塞队列里取，阻塞队列就相当于一个缓冲区，平衡了生产者和消费者的处理能力。2.为什么要使用生产者和消费者模式在进程世界里，生产者就是生产数据的...

12-多线程爬虫-锁机制(threading.Lock类)【代码】【图】

多线程存在共享全局变量的问题: 多线程都是在同一个进程中运行的，因此在进程中的全局变量所有线程都是可共享的。这就造成一个问题，因为线程执行的顺序时无序的，有可能会造成数据错误以上结果正常的话，应该是10000000和20000000，但因为多线程运行的不确定性，因此最后的结果可能是随机的扩展：启动一个线程时，线程并不会立即执行，而是等待CPU的资源调度，因次每个线程执行顺序是随机无序的，具有不确定性# 多线程共享全局...

PHP使用swoole实现多线程爬虫【代码】【图】

在swoole中,php可以借助其启动子进程的方式,实现php的多进程：<?php $s_time = time(); echo 开始时间:.date(H:i:s,$s_time).PHP_EOL; //进程数 $work_number=6;// $worker=[];//模拟地址 $curl=[https://blog.csdn.net/feiwutudou,https://wiki.swoole.com/wiki/page/215.html,http://fanyi.baidu.com/?aldtype=16047#en/zh/manager,http://wanguo.net/Salecar/index.html,http://o.ngking.com/themes/mskin/login/login.jsp,http...

php与python实现的线程池多线程爬虫功能实例详解

这篇文章主要介绍了php与python实现的线程池多线程爬虫功能,结合实例形式分析了php与python实现线程池多线程爬虫的完整实现方法,需要的朋友可以参考下多线程爬虫可以用于抓取内容了这个可以提升性能了，这里我们来看php与python 线程池多线程爬虫的例子，代码如下：php例子<?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { self::$ch =...

Laravel下使用Guzzle编写多线程爬虫实战

说明 Guzzle库是一套强大的 PHP HTTP 请求套件。本文重点演示如何使用 Guzzle 发起多线程请求。参考 Github 官方用户接口文档 Guzzle 并发请求文档 Laravel LTS 5.1 - Artisan 文档创建命令 1. 运行命令行创建命令 php artisan make:console MultithreadingRequest --command=test:multithreading-request 2. 注册命令编辑 app/Console/Kernel.php，在 $commands 数组...

php与python实现的线程池多线程爬虫功能示例

本文实例讲述了php与python实现的线程池多线程爬虫功能。分享给大家供大家参考，具体如下：多线程爬虫可以用于抓取内容了这个可以提升性能了，这里我们来看php与python 线程池多线程爬虫的例子，代码如下： php例子 <?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { self::$ch = curl_init(); curl_setopt(self::$ch, CURLOPT_TIMEOUT...

使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号【图】

不知道大家过年都是怎么过的，反正栏主是在家睡了一天，醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码，想起之前练手的时候写过一个抓取百度贴吧发帖记录中的邮箱与手机号的爬虫，于是开源分享给大家学习与参考。需求分析：本爬虫主要是对百度贴吧中各种帖子的内容进行抓取，并且分析帖子内容将其中的手机号和邮箱地址抓取出来。主要流程在代码注释中有详细解释。测试环境：代码在Windows7 64bit，python 2.7 64bit（安装mysq...

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / 八、多线程爬虫之糗事百科案例