进程线程协程在爬虫中的使用例子

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了进程线程协程在爬虫中的使用例子，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3575字，纯文字阅读大概需要6分钟。

内容图文

一.多进程

import requests
from lxml import etree
from multiprocessing import Pool
from multiprocessing import Manager

# url = 'http://www.mzitu.com/'
# url2 = 'http://www.mzitu.com/page/2/'
# url3 = 'http://www.mzitu.com/page/3/'

def get_all_pages(base_url, q):
    for i in range(196):
        url = base_url.format(i+1)
        q.put((url, get_one_page))
        break

def get_one_page(url, q):
    response = requests.get(url, timeout=3)
    html_ele = etree.HTML(response.text)
    href_list = html_ele.xpath('//ul[@id="pins"]/li/a/@href')
    for href in href_list:
        q.put((href, get_detailed_page))

def get_detailed_page(url, q):
    response = requests.get(url, timeout=3)
    html_ele = etree.HTML(response.text)
    max_num = html_ele.xpath('//div[@class="pagenavi"]/a[last()-1]/span/text()')[0]

    for i in range(int(max_num)):
        detail_url = url + '/' + str(i+1) + '/'
        q.put((detail_url, get_one_img_url))

def get_one_img_url(url, q):
    response = requests.get(url, timeout=3)
    html_ele = etree.HTML(response.text)
    print('current url = ', url)
    src = html_ele.xpath('//div[@class="main-image"]//img/@src')[0]
    q.put((src, download_image, url))

def download_image(url, referer):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
        'referer': referer,
    }
    file_dir = 'download'
    import os
    if not os.path.exists(file_dir):
        os.mkdir(file_dir)
    filename = file_dir + "/" + url.split('/')[-1]
    print('downloading ......', url)
    response = requests.get(url, headers = headers, timeout=3)

    with open(filename, 'wb') as f:
        f.write(response.content)

if __name__ == '__main__':
    pool = Pool(processes=16)
    # 进程池中共享数据的结构
    q = Manager().Queue()

    import time
    start_time = time.time()
    base_url = 'http://www.mzitu.com/page/{}/'
    q.put((base_url, get_all_pages))
    while True:
        try:
            item = q.get(timeout=5)
        except:
            break
        url = item[0]
        func = item[1]
        if len(item) == 3:
            referer = item[2]
            pool.apply_async(func=func, args=(url, referer))
            #func(url, referer)
        else:
            pool.apply_async(func=func, args=(url, q))
            #func(url, request_list)

    print('loops over')
    pool.close()
    pool.join()

    print('时间是：' , time.time() - start_time)

二.多线程

import threading
import time

def runWemen(name):
    print(name + '很漂亮')
    time.sleep(10)
    print(name + '和老王的故事')

def runMen(name):
    print(name + '很帅气')
    time.sleep(7)
    print(name + '和小三的故事')

def runConclusion():
    print('为什么男生外遇叫小三，女生外遇叫老王')
    print('因为王比三多个棍')

# 生成一个多线程或者多进程的类
# 开启这个多线程或者多进程
# 等待他们执行结束
if __name__ == '__main__':
    # t1 = threading.Thread(target=runWemen, args=('萌萌',))
    # t2 = threading.Thread(target=runMen, args=('王琨',))
    # t3 = threading.Thread(target=runConclusion)
    #
    # t1.start()
    # t2.start()
    # t3.start()
    #
    # t1.join()
    # t2.join()
    # t3.join()

    runWemen('萌萌')
    runMen('王琨')
    runConclusion()

三.多协程

port requests
import time
import gevent

from gevent import monkey
monkey.patch_all()

def get_content_from_url(url):
    print(url)
    response = requests.get(url, verify=False)
    print('接收到的数据大小是：', len(response.text), url)

# if __name__ == '__main__':
#     start_time = time.time()
#     urlList = ['https://www.python.org', 'https://github.com/', 'https://www.taobao.com/']
#     for url in urlList:
#         get_content_from_url(url)
#
#     end_time = time.time()
#     print('花费的时间是：', end_time - start_time)

if __name__ == '__main__':
    start_time = time.time()
    gList = []
    urlList = ['https://www.python.org', 'https://github.com/', 'https://www.taobao.com/']
    for url in urlList:
        g = gevent.spawn(get_content_from_url, url)
        gList.append(g)

    gevent.joinall(gList)
    end_time = time.time()
    print('花费的时间是：', end_time - start_time)

内容总结

以上是互联网集市为您收集整理的进程线程协程在爬虫中的使用例子全部内容，希望文章能够帮你解决进程线程协程在爬虫中的使用例子所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/973063.html

来源：【匿名】

【上一篇】Ubuntu 16.04后台运行scrapy爬虫程序【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【进程线程协程在爬虫中的使用例子】教程文章相关的互联网学习教程文章

以梨视频为例分析页面请求抓取网页数据。本次抓取梨视频生活分类页面下的部分视频数据，并保存到本地。一、分析网页　　打开抓取网页，查看网页代码结构，发现网页结构里面存放视频的地址并不是真正的视频地址。　　　　　　　　　　进入视频详情页面查看后，可以在response中找到真正的视频地址。保存这个地址的并不是标签，而是一个变量，我们使用re来解析这个变量，提取信息。　　　　　　　　二、代码实现"""使用多线程爬取梨...

进程池与回调函数与正则表达式和re爬虫例子【代码】

# 使用进程池的进程爬取网页内容，使用回调函数处理数据，用到了正则表达式和re模块import re from urllib.request import urlopen from multiprocessing import Pooldef get_page(url,pattern):response=urlopen(url).read().decode(‘utf-8‘)return pattern,response # 返回正则表达式编译结果网页内容def parse_page(info):pattern,page_content=info # 接收到正则表达式编译结果，与网页内容res=re.findall(pattern,pag...

小爬虫程序进程版

import multiprocessing,requests,time,re,os """ 其实在我的项目内和多线程差不多，多进程多个进程之间不共享全局变量所以意思是我只需要一个全局变量就可以 """ package_list = [] # 1.每页的url从1-531，使用for循环拼接url # 2.打开url之后，使用正则findall抓取该页的具体包链接，存入package_list def get_pic_url(page):try:os.mkdir(str(page))except Exception as e:passhead = {‘User-Agent‘: ‘Mozilla/5.0 (Windo...

Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？【代码】

最近正在学习Python中的异步编程，看了一些博客后做了一些小测验：对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异，注释：在爬虫中我几乎没有使用任何计算性任务，为了探测异步的性能，全部都只是做了网络IO请求，就是说aiohttp把网页get完就程序就done了。结果发现前者的效率比后者还要高。我询问了另外一位博主，(提供代码的博主没回我信息)，他说使用concurrent.futures的话因为...

网页爬虫-linux执行php进程的问题

用phpfetch框架写了个php的爬虫，他这个框架的用法是执行php filename.php命令（因为我放在了阿里云上，所以用的putty），但是这样的话，我的电脑就不能关putty（电脑也不能关机），否则的话爬虫就会停止执行。我想问怎么才能我输上执行php进程的命令以后，我就可以关掉putty，然后爬虫爬完一遍自己结束就好了。回复内容：用phpfetch框架写了个php的爬虫，他这个框架的用法是执行php filename.php命令（因为我放在了阿里云上，所以...

python爬虫线程和进程的使用（附代码）

本篇文章给大家带来的内容是关于python爬虫线程和进程的使用（附代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。进程使用导入类库import multiprocessing创建进程p1 = multiprocessing.Process(target=test1)Process参数：group=None,target=None, name=None, args=(), kwargs={})全局变量import time, os import multiprocessingnums = [11, 22, 33] def test():nums.append(44)print(在进程1中nums=%s ...

Python多线程、异步＋多进程爬虫实现代码

安装Tornado 省事点可以直接用grequests库，下面用的是tornado的异步client。异步用到了tornado，根据官方文档的例子修改得到一个简单的异步爬虫类。可以参考下最新的文档学习下。 pip install tornado 异步爬虫#!/usr/bin/env python # -*- coding:utf-8 -*-import time from datetime import timedelta from tornado import httpclient, gen, ioloop, queues import tracebackclass AsySpider(object):"""A simple class of as...

Python多进程爬虫东方财富盘口异动数据+Python读写Mysql与Pandas读写Mysql效率对比【代码】【图】

先上个图看下网页版数据、mysql结构化数据通过Python读写mysql执行时间为：1477s，而通过Pandas读写mysql执行时间为：47s，方法2速度几乎是方法1的30倍。在于IO读写上，Python多线程显得非常鸡肋，具体分析可参考：https://cuiqingcai.com/3325.html 1、Python读写Mysql# -*- coding: utf-8 -*- import pandas as pd import tushare as ts import pymysql import time import requests import json from multiprocessing ...

Python多进程爬虫东方财富盘口异动数据+Python读写Mysql与Pandas读写Mysql效率对比【图】

Python爬虫技术--基础篇--进程 vs. 线程和分布式进程【代码】

1.进程 vs. 线程我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现Master-Worker，主线程就是Master，其他线程就是Worker。多...

Python使用多进程提高网络爬虫的爬取速度，爬取多项目必备技能【图】

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文来自腾讯云，作者：Python小屋屋主多线程技术并不能充分利用硬件资源和大幅度提高系统吞吐量，类似需求应使用多进程编程技术满足。以爬取中国工程院院士简介和照片为例，参考代码如下，请自行分析目标网页结构并与参考代码进行比对。另外需要注意，该程序最好在cmd命令提示符环境执行。声明：爬虫系列文章仅...

进程池+爬虫

#进程池+爬虫---------------------------------------------------import re #导包refrom urllib.request import urlopen#导包urllib.request.urlopenfrom multiprocessing import Pool#导包Pool def get_page(url,pattern):#获得网页，读取网页??? response=urlopen(url).read().decode('utf-8')#获取网页源代码并解码??? return pattern ,response#将正则方法，与网页读取的结果返回给回调函数 def parse_page(info):#解析网页，...

爬虫-多进程（10）【代码】

#1. 实例化Thread #2. 继承Thread类 import time from threading import Threaddef sleep_task(sleep_time):print("sleep {} seconds start!".format(sleep_time))time.sleep(sleep_time)print("sleep {} seconds end!".format(sleep_time))class SleepThread(Thread):def __init__(self, sleep_time):self.sleep_time = sleep_timesuper().__init__()def run(self):print("sleep {} seconds start!".format(self.sleep_time))time...

从爬虫看多进程开发【代码】

简介因为写英文应用文与写作需要参考新闻信息，但是，我脑子里除了报纸没有其他更好的信息整合平台。遂打算下载renming日报参考链接 https://www.liaoxuefeng.com/wiki/1016959663602400/1017628290184064 https://blog.csdn.net/qq_38161040/article/details/88366427 https://blog.csdn.net/baidu_28479651/article/details/76158051?utm_source=blogxgwz7 code 第一版70%手动 30%自动需要频繁的创建文件夹和更改下载次数# co...

python爬虫多进程,多线程,协程以及组合应用的效率对比--以爬取小说全文为例【代码】【图】

本篇将测试爬取单本小说下：利用多进程，多线程，协程，以及多进程加多线程，多进程加协程组合应用的效率。以爬取--笔趣阁--大道争锋为例测试相关组合的性能。多线程代码如下： # -*- coding: utf-8 -*- """ Created on Wed Mar 4 10:39:55 2020@author: wenzhe.tian多进程+多线程多进程+协程 """book_name_list=[大道争锋]####### 开始工作 import time from concurrent.futures import ThreadPoolExecutor import requests...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / 进程线程协程在爬虫中的使用例子

进程线程协程在爬虫中的使用例子

内容导读

内容图文

一.多进程

二.多线程

三.多协程

内容总结

内容备注

内容手机端

【进程线程协程在爬虫中的使用例子】教程文章相关的互联网学习教程文章

爬虫——使用多进程爬取视频数据【代码】【图】

进程池与回调函数与正则表达式和re爬虫例子【代码】

小爬虫程序进程版

Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？【代码】

网页爬虫-linux执行php进程的问题

python爬虫线程和进程的使用（附代码）

Python多线程、异步＋多进程爬虫实现代码

Python多进程爬虫东方财富盘口异动数据+Python读写Mysql与Pandas读写Mysql效率对比【代码】【图】

Python多进程爬虫东方财富盘口异动数据+Python读写Mysql与Pandas读写Mysql效率对比【图】

Python爬虫技术--基础篇--进程 vs. 线程和分布式进程【代码】

Python使用多进程提高网络爬虫的爬取速度，爬取多项目必备技能【图】

进程池+爬虫

爬虫-多进程（10）【代码】

从爬虫看多进程开发【代码】

python爬虫多进程,多线程,协程以及组合应用的效率对比--以爬取小说全文为例【代码】【图】

爬虫 - 相关标签

进程 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程