首页 / 爬虫 / 记录学习python的日常分布式爬虫

记录学习python的日常分布式爬虫

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了记录学习python的日常分布式爬虫，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3822字，纯文字阅读大概需要6分钟。

内容图文

首先创建分布式管理：管理内得到的队列注册到网络上然后暴露网络

url管理进程针对每一个url进行分析操作 url_manager_proc()

判断url类中是否有新的链接有的话塞入url_q队列中

判断在conn_q队列中有没有新的内容有的话塞入url类中

result_solve_proc 主要是从爬虫调度器中出来的数据爬虫调度器每一条url中爬出来的信息依次塞入 result_q队列

有关新url 的放入 conn_q队列

数据则放入数据储存队列 store_q

store_proc 主要是处理store_q 队列中的内容依次存储数据库或本地

from multiprocessing.managers import BaseManager
import time

from multiprocessing import Process, Queue

from DataOutputNew import DataOutputNew
from URLManagerNew import UrlManagerNew

# 首先创建分布式管理：管理内得到的队列 注册到网络上 然后暴露网络

# url管理进程  针对每一个url进行分析 操作  url_manager_proc()
# 判断url类中是否有新的链接 有的话塞入url_q队列中
# 判断在conn_q队列中有没有新的内容 有的话 塞入url类中

# result_solve_proc  主要是从爬虫调度器中出来的数据  爬虫调度器每一条url中爬出来的信息 依次塞入 result_q队列
# 有关新url 的 放入 conn_q队列
# 数据则放入数据储存队列 store_q

# store_proc  主要是处理store_q 队列中的内容 依次存储数据库或本地

class NodeManage(object):
    # 创造分布式管理
    def star_Manager(self,url_q,result_q):
        # 把创建的两个队列注册在网络上，利用register方法，callable参数关联了Queue对象，
        # 将Queue对象在网络中暴露
        BaseManager.register('get_task_queue', callable=lambda: url_q)
        BaseManager.register('get_result_queue', callable=lambda: result_q)
        manager = BaseManager(address=('',8001),authkey=b'ceshi')
        return manager

    # URL管理进程将从conn_
    # q队列获取到的新URL提交给URL管理器，经过去重之后，取出url放到url_queue 给爬虫调度
    # conn_q 新的url
    def url_manager_proc(self,url_q,conn_q,root_url):
        url_manager = UrlManagerNew()
        url_manager.add_new_url(root_url)
        while True:
            while(url_manager.has_new_url()):
                #从URL管理器获取新的url
                new_url = url_manager.get_new_url()
                #将新的URL发给工作节点
                url_q.put(new_url)
                print ('old_url=',url_manager.old_url_size())
                #加一个判断条件，当爬去2000个链接后就关闭,并保存进度
                if(url_manager.old_url_size()>100):
                    #通知爬行节点工作结束
                    url_q.put('end')
                    print ('控制节点发起结束通知!')
                    #关闭管理节点，同时存储set状态
                    url_manager.save_progress('new_urls.txt',url_manager.new_urls)
                    url_manager.save_progress('old_urls.txt',url_manager.old_urls)
                    return
            #将从result_solve_proc获取到的urls添加到URL管理器之间
            try:
                if not conn_q.empty():
                    urls = conn_q.get()
                    url_manager.add_new_urls(urls)
            except :
                time.sleep(0.1)#延时休息

    # 数据提取进程从result_queue
    # 队列读取返回的数据，并将数据中的URL添加到conn_q.
    # 队列交给URL管理进程, 将数据中的文章标题和摘要添加到store_q队列交给数据存储进程。
    # store_q存储进程队列
    def result_solve_proc(self,result_q,conn_q,store_q):
        while(True):
            try:
                if not result_q.empty():
                    content = result_q.get(True)
                    if content['new_urls']=='end':
                        #结果分析进程接受通知然后结束
                        print ('结果分析进程接受通知然后结束!')
                        store_q.put('end')
                        return
                    conn_q.put(content['new_urls'])#url为set类型
                    store_q.put(content['data'])#解析出来的数据为dict类型
                else:
                    time.sleep(0.1)#延时休息
            except :
                time.sleep(0.1)#延时休息


    def store_proc(self,store_q):
        output = DataOutputNew()
        while True:
            if not store_q.empty():
                data = store_q.get()
                if data=='end':
                    print ('存储进程接受通知然后结束!')
                    output.ouput_end(output.filepath)
                    return
                output.store_data(data)
            else:
                time.sleep(0.1)
        pass


if __name__=='__main__':
    #初始化4个队列

    url_q = Queue()
    result_q = Queue()
    store_q = Queue()
    conn_q = Queue()
    # 创建分布式应用
    node = NodeManage()
    manager = node.star_Manager(url_q,result_q)
    #创建URL管理进程、 数据提取进程和数据存储进程
    url_manager_proc = Process(target=node.url_manager_proc, args=(url_q,conn_q,'http://baike.baidu.com/item/网络爬虫',))
    result_solve_proc = Process(target=node.result_solve_proc, args=(result_q,conn_q,store_q,))
    store_proc = Process(target=node.store_proc, args=(store_q,))
    #启动3个进程和分布式管理器
    url_manager_proc.start()
    result_solve_proc.start()
    store_proc.start()
    manager.get_server().serve_forever()

内容总结

以上是互联网集市为您收集整理的记录学习python的日常分布式爬虫全部内容，希望文章能够帮你解决记录学习python的日常分布式爬虫所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/614958.html

来源：【匿名】

【上一篇】python爬虫：主播颜值怎么样？我说了算！python实现颜值检测（检测篇）【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【记录学习python的日常分布式爬虫】教程文章相关的互联网学习教程文章

(9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(一)【代码】【图】

转载请注明出处：http://www.cnblogs.com/codefish/p/4993809.html 最近在群里频繁的被问到ajax和js的处理问题，我们都知道，现在很多的页面都是用动态加载的技术，这一方面带来了良好的页面体验，另一方面，在抓取时或者或少的带来了相当大的麻烦，因为我们知道直接get主页页面url，这些内容是没有办法显示的。那怎么处理这些内容呢？上图是一个直观的分析，在抓取数据时，我们一般优先考虑到手机端的网站，因为手机端的网站得到...

python分布式爬虫搭建开发环境（一）

目录：开发IDE----pycharm数据库--------mysql、redis、elasticsearch开发环境--virtualenvpycharm使用技巧:再设置里输入 interpreter 即可查看或者修改当前使用的python版本，输入keymap，可看查看当前快捷键原文：http://www.cnblogs.com/Mjonj/p/7636542.html

教你如何写Python爬虫| 不会分布式爬虫？一步一步带你走【图】

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云，作者：Python进击者首先，什么是分布式爬虫？其实简单粗暴一点解释就是我们平时写的爬虫都是孤军奋战，分布式爬虫就是一支军队作战。专业点来说就是应用多台机器同时实现爬虫任务，这多台机器上的爬虫，就是称作分布式爬虫。分布式爬虫的难点不在于他本身有多难写，而是在于多台机器之间...

基于 Scrapy-redis 的分布式爬虫详细设计【代码】【图】

基于 Scrapy-redis 的分布式爬虫设计目录前言安装环境Debian / Ubuntu / Deepin 下安装Windows 下安装基本使用初始化项目创建爬虫运行爬虫爬取结果进阶使用分布式爬虫anti-anti-spiderURL Filter总结相关资料前言在本篇中，我假定您已经熟悉并安装了 Python3。如若不然，请参考 Python 入门指南。关于 ScrapyScrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等...

分布式爬虫技术架构【图】

SpidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。项目结构：依赖关系如下：webmagicwebmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。工程结构：工程间的关系：众推用...

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

Scrapy单机架构在这里scrapy的核心是scrapy引擎，它通过里面的一个调度器来调度一个request的队列，将request发给downloader，然后来执行request请求但是这些request队列都是维持在本机上的，因此如果要多台主机协同爬取，需要一个request共享的机制——requests队列，在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。单主机爬虫架构调度器负责从队列中调度requests进行爬取，而...

分布式爬虫【代码】

分布式爬虫分布式概述? 基于多台电脑组建一个分布式机群，然后让机群中的每一台电脑执行同一组程序，然后让它们对同一个网站的数据进行分布爬取作用：提升爬虫数据的效率实现：基于scrapy+redis的形式实现分布式，scrapy结合这scrapy-redis组件实现的分布式原生scrapy无法实现分布式原因：? 1.调度器无法被分布式机群共享? 2.管道无法被共享scrapy-redis组件的作用：提供可以被共享的调度器和管道环境安装： 1.redis? 2.pip In...

scrapy-redis 分布式爬虫爬取房天下网站所有国内城市的新房和二手房信息【代码】

scrapy-redis 分布式爬虫爬取房天下网站所有国内城市的新房和二手房信息先完成单机版的爬虫，然后将单机版爬虫转为分布式爬虫爬取思路1. 进入 https://www.fang.com/SoufunFamily.htm 页面，解析所有的省份和城市，获取到城市首页链接 2. 通过分析，每个城市的新房都是在首页链接上添加newhouse和house/s/字符串，二手房都死在首页链接上添加esf字段以上海为例：首页：https://sh.fang.com/ 新房：https://sh.newhouse....

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

scrapy爬虫-scrapy-redis分布式【代码】

1、如何将一个scrapy爬虫项目修改成为一个简单的分布式爬虫项目官方文档：https://scrapy-redis.readthedocs.io/en/stable/只用修改scrapy项目的两个文件就可以了一个是爬虫组件文件：# -*- coding: utf-8 -*-import scrapy from scrapy_redis.spiders import RedisSpider# 自定义爬虫类的继承类不再是scrapy.spiders下面的爬虫类， # 而是scrapy-redis.spiders下面的爬虫类class DistributedSpiderSpider(RedisSpider):name = ‘d...

分布式爬虫【代码】【图】

目录理论scrapy-redis架构scrapy - redis安装与使用安装scrapy-redis使用scrapy-redis的example来修改tree查看项目目录修改settings.py查看pipeline.py流程分布式爬取案例理论我们大多时候玩的爬虫都是运行在自己的机子之前我们为了提高爬虫的效率说过多进程相关的什么是分布式？你开发一个网站想要给别人访问就需要把网站部署到服务器当网站用户增多的时候一个服务器就不满足需求了于是就会把网站部署到多个服务器上这种情况通常叫...

分布式爬虫

概念：我们需要搭建一个分布式的集群，让其对一组资源进行分布联合爬取作用：提升爬取数据的效率如何实现分布式：安装一个scrapy-redis的组件原生的scrapy是不可以实现分布式爬虫的，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫scrapy-redis组件作用：可以给原生的scrapy框架提供可以被共享的管道和调度器实现流程：创建一个工程创建一个基于CrawlSpider的爬虫文件修改当前的爬虫文件导包：from scrapy_redis.spide...

伪分布式网络爬虫框架的设计与自定义实现【图】

【项目愿景】系统基于智能爬虫方向对数据由原来的被动整理到未来的主动进攻的转变的背景下，将赋予”爬虫”自我认知能力，去主动寻找”进攻”目标。取代人工复杂而又单调的重复性工作。能够实现在人工智能领域的某一方向上独当一面的作用。【项目进展】项目一期基本实现框架搭建，对数据的处理和简单爬取任务实现。【项目说明】为了能够更好理解优秀框架的实现原理，本项目尽量屏蔽优秀开源第三方jar包实现，自定义实现后再去择优而...

四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【代码】【图】

前面我们讲到的elasticsearch(搜索引擎)操作，如：增、删、改、查等操作都是用的elasticsearch的语言命令，就像sql命令一样，当然elasticsearch官方也提供了一个python操作elasticsearch(搜索引擎)的接口包，就像sqlalchemy操作数据库一样的ORM框，这样我们操作elasticsearch就不用写命令了，用elasticsearch-dsl-py这个模块来操作，也就是用python的方式操作一个类即可 elasticsearch-dsl-py下载下载地址：https://github.com/ela...

爬虫--Scrapy-CrawlSpider&分布式爬虫【代码】【图】

CrawlSpiderCrawlSpider：问题：如果我们想要对某一个网站的全站数据进行爬取？解决方案： 1. 手动请求的发送 2. CrawlSpider（推荐）之前的事基于Spider类CrawlSpider概念：CrawlSpider其实就是Spider的一个子类。CrawlSpider功能更加强大（链接提取器，规则解析器）。代码： 1. 创建一个基于CrawlSpider的爬虫文件 a) scrapy genspider –t crawl 爬虫名称起始url-------scrapy.spiders.CrawlSpider创建项目：sc...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 java网页爬虫正则表达式 c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 [Python] [爬虫] 1.批量政府网站的招投...Python爬虫入门【10】：电子书多线程爬...

首页 / 爬虫 / 记录学习python的日常分布式爬虫

记录学习python的日常分布式爬虫

内容导读

内容图文

首先创建分布式管理：管理内得到的队列注册到网络上然后暴露网络

url管理进程针对每一个url进行分析操作 url_manager_proc()

判断url类中是否有新的链接有的话塞入url_q队列中

判断在conn_q队列中有没有新的内容有的话塞入url类中

result_solve_proc 主要是从爬虫调度器中出来的数据爬虫调度器每一条url中爬出来的信息依次塞入 result_q队列

有关新url 的放入 conn_q队列

数据则放入数据储存队列 store_q

store_proc 主要是处理store_q 队列中的内容依次存储数据库或本地

内容总结

内容备注

内容手机端

【记录学习python的日常分布式爬虫】教程文章相关的互联网学习教程文章

(9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(一)【代码】【图】

python分布式爬虫搭建开发环境（一）

教你如何写Python爬虫| 不会分布式爬虫？一步一步带你走【图】

基于 Scrapy-redis 的分布式爬虫详细设计【代码】【图】

分布式爬虫技术架构【图】

Python爬虫【五】Scrapy分布式原理笔记【代码】【图】

分布式爬虫【代码】

scrapy-redis 分布式爬虫爬取房天下网站所有国内城市的新房和二手房信息【代码】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

scrapy爬虫-scrapy-redis分布式【代码】

分布式爬虫【代码】【图】

分布式爬虫

伪分布式网络爬虫框架的设计与自定义实现【图】

四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中【代码】【图】

爬虫--Scrapy-CrawlSpider&分布式爬虫【代码】【图】

PYTHON - 相关标签

分布式 - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

首页 / 爬虫 / 记录学习python的日常 分布式爬虫

记录学习python的日常 分布式爬虫

内容导读

内容图文

首先创建分布式管理：管理内得到的队列 注册到网络上 然后暴露网络

url管理进程 针对每一个url进行分析 操作 url_manager_proc()

判断url类中是否有新的链接 有的话塞入url_q队列中

判断在conn_q队列中有没有新的内容 有的话 塞入url类中

result_solve_proc 主要是从爬虫调度器中出来的数据 爬虫调度器每一条url中爬出来的信息 依次塞入 result_q队列

有关新url 的 放入 conn_q队列

数据则放入数据储存队列 store_q

store_proc 主要是处理store_q 队列中的内容 依次存储数据库或本地

内容总结

内容备注

内容手机端

【记录学习python的日常 分布式爬虫】教程文章相关的互联网学习教程文章

PYTHON - 相关标签

分布式 - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

首页 / 爬虫 / 记录学习python的日常分布式爬虫

记录学习python的日常分布式爬虫

首先创建分布式管理：管理内得到的队列注册到网络上然后暴露网络

url管理进程针对每一个url进行分析操作 url_manager_proc()

判断url类中是否有新的链接有的话塞入url_q队列中

判断在conn_q队列中有没有新的内容有的话塞入url类中

result_solve_proc 主要是从爬虫调度器中出来的数据爬虫调度器每一条url中爬出来的信息依次塞入 result_q队列

有关新url 的放入 conn_q队列

store_proc 主要是处理store_q 队列中的内容依次存储数据库或本地

【记录学习python的日常分布式爬虫】教程文章相关的互联网学习教程文章