异步爬虫之多任务异步协程

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了异步爬虫之多任务异步协程，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1903字，纯文字阅读大概需要3分钟。

内容图文

一、前提条件
（1）如果想要使用该模式进行异步的数据爬取必须：
    将等待即将爬取的页面url单独的抽取存储到一个列表中
（2）通常情况下的玩法：
    使用requests将等待爬取的页面的url获取
    将url写入列表，使用多任务异步协程爬取列表中的页面数据

#特殊函数内部：不可以出现不支持异步模块，requests不支持异步
#每个阻塞操作前要加await，保证异步执行操作的过程中可以保证阻塞操作执行完毕
async  def get_content(url):
    #使用aiohttp进行网络请求
    async with aiohttp.ClientSession() as session: #实例化一个请求对象叫session，with帮助省略close操作
        #session.get(url,headers,params,proxy)
        #session.post(url,headers,data,proxy)
        #proxy = "http://ip:port
        async with await session.get(url=url,headers=headers) as response: #调用get发送请求，返回一个响应对象
            #text（）返回字符串形式的响应数据，返回bytes类型的响应数据
            page_text = await response.text()
            return page_text

#定义一个任务对象的回调函数
#注意：回调函数必须要有一个参数，该参数表示就是该函数的绑定者
#多任务的异步爬虫中数据解析或者持久化存储操作需要写在任务对象的回调函数中
def parse(task):
    #resul():返回的就是特殊函数的返回值
    page_text = task.result()
    # print("i am task callback!特殊函数的返回值为：",page_text)
    tree = etree.HTML(page_text)
    title = tree.xpath('//a[@id="cb_post_title_url"]/span/text()')[0]
    print("标题：",title)
if __name__ == '__main__':
    start = time.time()
    urls = [
        # "https://www.baidu.com/",
        "https://www.cnblogs.com/c-x-a/p/10208179.html",
        "https://www.cnblogs.com/c-x-a/p/10453432.html"
    ]
    #定义一个任务列表
    tasks = []
    for url in urls:
        #创建三个协程对象
        c = get_content(url)
        #创建三个任务对象
        task = asyncio.ensure_future(c)
        task.add_done_callback(parse)#绑定回调
        tasks.append(task)
    # 创建一个事件循环对象
    loop = asyncio.get_event_loop()
    #将任务列表中的多个任务注册到事件循环中
    # loop.run_until_complete(tasks)
    loop.run_until_complete(asyncio.wait(tasks))#wait表示挂起的意思，asynico.wait()将任务列表中每一个任务对象进行挂起
    #挂起：让当前任务对象交出cpu使用权
    print("总耗时：",time.time()-start)

内容总结

以上是互联网集市为您收集整理的异步爬虫之多任务异步协程全部内容，希望文章能够帮你解决异步爬虫之多任务异步协程所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/996411.html

来源：【匿名】

【上一篇】爬虫框架-scrapy的使用【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【异步爬虫之多任务异步协程】教程文章相关的互联网学习教程文章

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今天是第一篇，后面会陆续更新。首先最容易的是while true死循环挂起，上代码import osimport timeimport sysfrom datetime import datetime, timedeltadef One_Plan():# 设置启动周期Second_update_time = 24 * 60 * 60# 当前时间now_Time = datetime.now()# 设置任务启动时间...

异步爬虫之多任务异步协程【代码】

一、前提条件（1）如果想要使用该模式进行异步的数据爬取必须：将等待即将爬取的页面url单独的抽取存储到一个列表中（2）通常情况下的玩法：使用requests将等待爬取的页面的url获取将url写入列表，使用多任务异步协程爬取列表中的页面数据#特殊函数内部：不可以出现不支持异步模块，requests不支持异步 #每个阻塞操作前要加await，保证异步执行操作的过程中可以保证阻塞操作执行完毕 async def get_content(url):#使用...

【原创】编写多线程Python爬虫来过滤八戒网上的发布任务【代码】

目标：以特定语言技术为关键字，爬取八戒网中网站设计开发栏目下发布的任务相关信息需求：用户通过设置自己感兴趣的关键字或正则表达式，来过滤信息。我自己选择的是通过特定语言技术作为关键字，php、java和python。注意：如果不选用正则表达式，就会把javascript也爬进来，那前端的信息就比较多了。为什么要使用多线程：网络烂，读网页时很容易阻塞，这个时候后面的工作都得等；在保存页面时，有对硬盘I/O的需求，如果阻塞了也...

Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？【代码】

最近正在学习Python中的异步编程，看了一些博客后做了一些小测验：对比asyncio+aiohttp的爬虫和asyncio+aiohttp+concurrent.futures(线程池/进程池)在效率中的差异，注释：在爬虫中我几乎没有使用任何计算性任务，为了探测异步的性能，全部都只是做了网络IO请求，就是说aiohttp把网页get完就程序就done了。结果发现前者的效率比后者还要高。我询问了另外一位博主，(提供代码的博主没回我信息)，他说使用concurrent.futures的话因为...

python爬虫任务接单渠道【图】

python哪里接爬虫任务？相关推荐：《python视频》职业分类：（1）在校大学生。最好是数学或计算机相关专业，编程能力还可以的话，稍微看一下爬虫知识，主要涉及一门语言的爬虫库、html解析、内容存储等，复杂的还需要了解URL排重、模拟登录、验证码识别、多线程、代理、移动端抓取等。由于在校学生的工程经验比较少，建议只接一些少量数据抓取的项目，而不要去接一些监控类的项目、或大规模抓取的项目。慢慢来，步子不要迈太大。（...

java sql编辑器数据库备份还原 quartz定时任务调度自定义表单 java图片爬虫 java代码生成器

B 集成代码生成器 [正反双向](单表、主表、明细表、树形表，快速开发利器)+快速表单构建器 freemaker模版技术，0个代码不用写，生成完整的一个模块，带页面、建表sql脚本，处理类，service等完整模块C 集成阿里巴巴数据库连接池druid 数据库连接池阿里巴巴的 druid。Druid在监控、可扩展性、稳定性和性能方面都有明显的优势D 集成安全权限框架shiro Shiro 是一个用 Java 语言实现的框架，通过一个简单易用的 API 提供身份验证...

java sql编辑器动态报表数据库备份还原 quartz定时任务调度自定义表单 java图片爬虫

A代码编辑器，在线模版编辑，仿开发工具编辑器，pdf在线预览，文件转换编码B 集成代码生成器 [正反双向](单表、主表、明细表、树形表，快速开发利器)+快速表单构建器 freemaker模版技术，0个代码不用写，生成完整的一个模块，带页面、建表sql脚本，处理类，service等完整模块C 集成阿里巴巴数据库连接池druid 数据库连接池阿里巴巴的 druid。Druid在监控、可扩展性、稳定性和性能方面都有明显的优势D 集成安全权限框架shiro S...

java sql编辑器动态报表数据库备份还原 quartz定时任务调度自定义表单 java图片爬虫

Python爬虫定时计划任务的几种常见方法【代码】【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资料以及群交流解答点击即可加入记得以前的Windows任务定时是可以正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下Python爬虫定时任务的几种解决方法。方法一、while True 首先最容易的是while true死循环挂起...

python爬虫与数据可视化——python爬虫任务及流程介绍【图】

以任务的形式完成剩下的学习 https:s表示加密的访问方式

【重学Node.js 第4篇】实现一个简易爬虫&启动定时任务

实现一个简易爬虫&启动定时任务课程介绍看这里：https://www.cnblogs.com/zhangran/p/11963616.html 项目github地址：https://github.com/hellozhangran/happy-egg-server 爬虫目前 node.js 爬虫工具比较火的有 node-crawler puppeteer。不过我目前没打算用这些，因为至少现在我们的项目还用不到。只要能发送请求、解析dom我们就能自己实现一个爬虫。所以我选择了axios + cheerio来自己写爬虫。获取博客园的推荐文章首先我们用...

支线任务-Python爬虫【代码】【图】

五一小长假要到了，甄开心，肯定比写博客要开心多了，哈哈哈哈我还在犹豫要不要写爬虫这篇，因为网上已经有大量爬虫相关资源，爬虫也不是以研究为主，而是一个获取数据的手段。书写目的：数据数量和质量对你运行模型的效果有着重要影响；如果数据购买昂贵又没有现成数据下载，不论个人还是公司都会首选爬虫；不需要深入爬虫知识（比如Scrapy爬虫工程），就可以获取大部分网站数据；装包提示：装包用pip install XXX，Baidu一下有...

阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis将任务队列push进redis【代码】【图】

Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个服务器的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生的项目(items)存储以供后续处理使用...

爬虫进阶(四)——多任务协程爬取【代码】

基于Flask的示例 Server端from flask import Flask,render_template import timeapp = Flask(__name__)@app.route(/bobo) def index_bobo():time.sleep(2)return render_template(test.html)@app.route(/jay) def index_jay():time.sleep(2)return render_template(test.html)@app.route(/tom) def index_tom():time.sleep(2)return render_template(test.html)if __name__ == __main__:app.run(threaded=True)爬虫端（异步爬取）i...

异步爬虫之多任务异步协程【代码】

首页 / 爬虫 / 异步爬虫之多任务异步协程

异步爬虫之多任务异步协程

内容导读

内容图文

内容总结

内容备注

内容手机端

【异步爬虫之多任务异步协程】教程文章相关的互联网学习教程文章

python 爬虫定时计划任务【代码】

异步爬虫之多任务异步协程【代码】

【原创】编写多线程Python爬虫来过滤八戒网上的发布任务【代码】

Python有了asyncio和aiohttp在爬虫这类型IO任务中多线程/多进程还有存在的必要吗？【代码】

python爬虫任务接单渠道【图】

java sql编辑器数据库备份还原 quartz定时任务调度自定义表单 java图片爬虫 java代码生成器

java sql编辑器动态报表数据库备份还原 quartz定时任务调度自定义表单 java图片爬虫

java sql编辑器动态报表数据库备份还原 quartz定时任务调度自定义表单 java图片爬虫

Python爬虫定时计划任务的几种常见方法【代码】【图】

python爬虫与数据可视化——python爬虫任务及流程介绍【图】

【重学Node.js 第4篇】实现一个简易爬虫&启动定时任务

支线任务-Python爬虫【代码】【图】

阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis将任务队列push进redis【代码】【图】

爬虫进阶(四)——多任务协程爬取【代码】

异步爬虫之多任务异步协程【代码】

爬虫 - 相关标签

异步 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程