首页 / REDIS / scrapy-redis分布式爬取猫眼电影

scrapy-redis分布式爬取猫眼电影

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了scrapy-redis分布式爬取猫眼电影，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3347字，纯文字阅读大概需要5分钟。

内容图文

能够利用redis缓存数据库的优点去重来避免数据的大面积冗余

1、首先就是要创建猫眼爬虫项目

2、进入项目内部创建一个爬虫文件

创建完文件之后就是要爬取的内容，我这边以爬取猫眼电影的title和link为例（这个完全看个人你可以先去写爬虫，然后再来写items文件）

3、编写item文件

            class
             MaoyanTestItem(scrapy.Item):
    
            #
             define the fields for your item here like:
            #
             name = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    pass

4、编写爬虫文件（确定自己要爬的内容，然后与items中的指定字段连接起来）

            import
             scrapy

            from fake_useragent import UserAgent
from scrapy.selector import Selector
from maoyan_test.items import MaoyanTestItem


headers = {
    ‘user-agent‘: UserAgent(verify_ssl=False).chrome
}


class MovieSpiderSpider(scrapy.Spider):
    name = ‘movie‘
    allowed_domains = [‘www.maoyan.com/board/4‘]
    start_urls = [‘http://www.maoyan.com/board/4?offset=%s‘]

    def start_requests(self):
        for i in range(10):
            url = self.start_urls[0] % str((i*10))
            yield scrapy.Request(url, callback=self.parse, dont_filter=False, headers=headers)

    def parse(self, response):
        item = MaoyanTestItem()
        sel = Selector(response)
        movie_list = sel.xpath(‘//dl[@class="board-wrapper"]/dd‘)
        for movie in movie_list:

            title = movie.xpath(‘a/@title‘).extract_first()
            link = ‘https://www.maoyan.com‘ + movie.xpath(‘a/@href‘).extract_first()
            item[‘title‘] = title
            item[‘link‘] = link
            yield item

5、编写Pipline文件：--> 这里面主要是通过redis缓存数据库来对数据进行筛选，然后将数据主要保存到Mysql中

　　首先配置settings文件

            #
             这个是需要手动加上的，通过scrapy-redis自带的pipeline将item存入redis中
ITEM_PIPELINES = {
    ‘maoyan_test.pipelines.MaoyanTestPipeline‘: 300,
    ‘scrapy_redis.pipelines.RedisPipeline‘: 400
}
# 启动redis自带的去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 启用调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"# 是否在关闭spider的时候保存记录
SCHEDULER_PERSIST = True
# 使用优先级调度请求队列（默认使用）
SCHEDULER_QUEUE_CLASS = 
 ‘scrapy_redis.queue.SpiderPriorityQueue‘# 指定redis的地址和端口，有密码的需要加上密码
REDIS_HOST = ‘127.0.0.1‘
REDIS_PORT = ‘6379‘
REDIS_PARAMS = {
    ‘password‘: ‘123456‘,
}

#SCHEDULER_QUEUE_KEY = ‘%(spider)s:requests‘  # 调度器中请求存放在redis中的key
#SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"  # 对保存到redis中的数据进行序列化，默认使用pickle#SCHEDULER_FLUSH_ON_START = False  # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空
# SCHEDULER_IDLE_BEFORE_CLOSE = 10  # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。
#SCHEDULER_DUPEFILTER_KEY = ‘%(spider)s:dupefilter‘  # 去重规则，在redis中保存时对应的key  chouti:dupefilter
#SCHEDULER_DUPEFILTER_CLASS = ‘scrapy_redis.dupefilter.RFPDupeFilter‘  # 去重规则对应处理的类
#DUPEFILTER_DEBUG = False
#上述的扩展类需要的
MYEXT_ENABLED = True  # 开启扩展
IDLE_NUMBER = 10  # 配置空闲持续时间单位为 10个 ，一个时间单位为5s#如果为True，则使用redis的‘spop‘进行操作。
#因为本次请求每一次带上的都是时间戳，所以就用了lpush
#如果需要避免起始网址列表出现重复，这个选项非常有用。开启此选项urls必须通过sadd添加，否则会出现类型错误。
#REDIS_START_URLS_AS_SET = True

　　之后就是要在pipeline文件中将真是的数据保存到MySQL中：

            import
             pymysql



            class
             MaoyanTestPipeline(object):
    comments = []

    def__init__(self):
        self.conn = pymysql.connect(
            host=‘localhost‘,
            user=‘root‘,
            passwd=‘123456‘,
            port=3306,
            db=‘spider‘,
            charset=‘utf8‘,
            autocommit=True
        )
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        self.comments.append([item[‘title‘], item[‘link‘]])
        if len(self.comments) == 1:
            self.insert_to_sql(self.comments)
            self.comments.clear()

        return item

    def close_spider(self, spider):
        self.insert_to_sql(self.comments)

    def insert_to_sql(self, data):
        try:
            sql = ‘insert into maoyan_movie (title, link) values (%s, %s);‘print(data)
            self.cursor.executemany(sql, data[0])
        except:
            print(‘插入数据有误...‘)
            self.conn.rollback()

原文：https://www.cnblogs.com/tulintao/p/11531457.html

内容总结

以上是互联网集市为您收集整理的scrapy-redis分布式爬取猫眼电影全部内容，希望文章能够帮你解决scrapy-redis分布式爬取猫眼电影所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1142399.html

来源：【匿名】

【上一篇】Redis的配置和使用【下一篇】redis可以做什么？

更多 ►

【scrapy-redis分布式爬取猫眼电影】教程文章相关的互联网学习教程文章

Scrapy-redis分布式+Scrapy-redis实战【代码】【图】

【学习目标】Scrapy-redis分布式的运行流程Scheduler与Scrapy自带的Scheduler有什么区别Duplication Filter作用源码自带三种spider的使用6. Scrapy-redis分布式组件Scrapy 和 scrapy-redis的区别Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。pip install scrapy-redisScrapy-redis提供了下面四种组件（components）：(四种组件意...

scrapy-redis【代码】

下载scrapy-redis git clone https://github.com/rmax/scrapy-redis.git settingsPIDER_MODULES = [‘example.spiders‘] NEWSPIDER_MODULE = ‘example.spiders‘USER_AGENT = ‘scrapy-redis (+https://github.com/rolando/scrapy-redis)‘# 指定RFPDupeFilter方法给request对象去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 指定Scheduler队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler"# 队列中的内...

scrapy-redis【图】

1.请求对象的持久化2.去重指纹的永久化所有请求对象、去重指纹均存储在redis中，而不是在内存中，断电/关机即消失，如果第一次请求未完成，第二次需要重新请求全部。3.实现分布式所有的服务器公用一个redis中的request对象流程图：在项目中settings.py中配置：RedisPipeline：配置所请求的数据存储在redis中，RFPDupeFilter：配置指纹存储在redis中，Scheduler：配置调度器，所有request对象存储在redis中RedisPipeline redis中...

scrapy-redis 分布式爬虫爬取房天下网站所有国内城市的新房和二手房信息【代码】

scrapy-redis 分布式爬虫爬取房天下网站所有国内城市的新房和二手房信息先完成单机版的爬虫，然后将单机版爬虫转为分布式爬虫爬取思路1. 进入 https://www.fang.com/SoufunFamily.htm 页面，解析所有的省份和城市，获取到城市首页链接 2. 通过分析，每个城市的新房都是在首页链接上添加newhouse和house/s/字符串，二手房都死在首页链接上添加esf字段以上海为例：首页：https://sh.fang.com/ 新房：https://sh.newhouse....

scrapy-redis分布式爬取猫眼电影【代码】

能够利用redis缓存数据库的优点去重来避免数据的大面积冗余 1、首先就是要创建猫眼爬虫项目2、进入项目内部创建一个爬虫文件创建完文件之后就是要爬取的内容，我这边以爬取猫眼电影的title和link为例（这个完全看个人你可以先去写爬虫，然后再来写items文件）3、编写item文件class MaoyanTestItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()title = scrapy.Field()link = scrapy.Field()p...

scrapy爬虫-scrapy-redis分布式【代码】

1、如何将一个scrapy爬虫项目修改成为一个简单的分布式爬虫项目官方文档：https://scrapy-redis.readthedocs.io/en/stable/只用修改scrapy项目的两个文件就可以了一个是爬虫组件文件：# -*- coding: utf-8 -*-import scrapy from scrapy_redis.spiders import RedisSpider# 自定义爬虫类的继承类不再是scrapy.spiders下面的爬虫类， # 而是scrapy-redis.spiders下面的爬虫类class DistributedSpiderSpider(RedisSpider):name = ‘d...

淘搜索之网页抓取系统分析与实现（2）—redis + scrapy【图】

1.scrapy+redis使用(1)应用这里redis与scrapy一起,scrapy作为crawler，而redis作为scrapy的调度器。如架构图中的②所示。图1 架构图(2)为什么选择redis redis作为调度器的实现仍然和其特性相关，可见《一淘搜索之网页抓取系统分析与实现（1）——redis使用》(http://blog.csdn.net/u012150179/article/details/38226711)中关于redis的分析。2.redis实现scrapy scheduler 关于此部分内容可见《scrapy-redis实现分布式爬取分析与实现...

scrapy-redis组件【代码】

文章出处 https://www.cnblogs.com/wupeiqi/articles/6912807.html scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能：scheduler - 调度器dupefilter - URL去重规则（被调度器使用）pipeline - 数据持久化scrapy-redis组件1. URL去重?123456789101112131415161718192021222324252627282930313233343536373839404142434445464748定义去重规则（被调度器调用并应用） ...

scrapy-redis使用详解【代码】【图】

描述：1.使用两台机器，一台是win10，一台是centos7，分别在两台机器上部署scrapy来进行分布式抓取一个网站2.centos7的ip地址为192.168.1.112，用来作为redis的master端，win10的机器作为slave3.master的爬虫运行时会把提取到的url封装成request放到redis中的数据库：“dmoz:requests”，并且从该数据库中提取request后下载网页，再把网页的内容存放到redis的另一个数据库中“dmoz:items”4.slave从master的redis中取出待抓取的req...

scrapy 和 scrapy_redis 安装【代码】

安装sqlslte，scrapy需要这个模块yum install sqlite-develpython3.5下载包自己编译安装./configuremakemake install 自带pip，升到最新版pip3 install --upgrade pip python3 MySQL模块pip3 install pymysql 安装Twisted，scrapy使用的线程框架wget https://pypi.python.org/packages/6b/23/8dbe86fc83215015e221fbd861a545c6ec5c9e9cd7514af114d1f64084ab/Twisted-16.4.1.tar.bz2#md5=c6d09bdd681f538369659111f079c29d解包tar -...

scrapy-redis源代码分析【图】

原创文章，链接：http://blog.csdn.net/u012150179/article/details/38226253 + (I) connection.py 负责依据setting中配置实例化redis连接。被dupefilter和scheduler调用。总之涉及到redis存取的都要使用到这个模块。(II) dupefilter.py 负责运行requst的去重。实现的非常有技巧性，使用redis的set数据结构。可是注意scheduler并不使用当中用于在这个模块中实现的dupefilter键做request的调度。而是使用queue.py模块中实现的queu...

scrapy_redis使用【代码】

URL去重定义去重规则（被调度器调用并应用）a. 内部会使用以下配置进行连接Redis# REDIS_HOST = ‘localhost‘ # 主机名# REDIS_PORT = 6379 # 端口# REDIS_URL = ‘redis://user:pass@hostname:9001‘ # 连接URL（优先于以上配置）# REDIS_PARAMS = {} # Redis连接参数默认：REDIS_PARAMS = {‘socket_timeo...

linux下安装python、scrapy、redis、mysql【代码】

.org/ftp/python/2.7.11/Python-2.7.11.tgz tar zxvf Python-2.7.11.tgz cd Python-2.7.11 ./configure --prefix=/usr/local make && make altinstall检查Python版本 python -V安装scrapy安装python-develyum search all python-devel yum install python-devel.x86_64安装setuptoolswget --no-check-certificate https://bootstrap.pypa.io/ez_setup.py–2016-05-10 10:48:35– https://bootstrap.pypa.io/ez_setup.py Resol...

scrapy框架编写向redis数据库中存储数据的相关代码时报错解决办法【图】

错误信息：redis.exceptions.DataError: Invalid input of type: ‘dict‘. Convert to a byte, string or number first. 解决办法：python中redis包更新导致的问题，变更了srem方法的输入。使用旧版本pip install redis==2.10.6，即可解决 scrapy框架编写向redis数据库中存储数据的相关代码时报错解决办法标签：info inf put red ict 方法 src 数据库 http 本文系统来源：https://www.cnblogs.com/lys666/p/1...

Scrapy-redis<数据库篇>【图】

scrapy-redis爬虫数据库连接部分——windows准备做salve，Linux准备做master开展工作首先处理简单的windows熟悉的环境——安装Redis服务和Redis可视化~可视化也可以省略，但作为新手推荐使用： 1、安装redis服务：链接: https://pan.baidu.com/s/1EA0I-gx9NEU78vjZeZVqJA 提取码: 4s4i ——直接next下去 2、安装redis可视化：链接: https://pan.baidu.com/s/1KQh_g2o0tQijHQRFpKjcng 提取码: ny9c 安装redis可视化~： 1、确保red...

首页 / REDIS / scrapy-redis分布式爬取猫眼电影

scrapy-redis分布式爬取猫眼电影

内容导读

内容图文

内容总结

内容备注

内容手机端

【scrapy-redis分布式爬取猫眼电影】教程文章相关的互联网学习教程文章

Scrapy-redis分布式+Scrapy-redis实战【代码】【图】

scrapy-redis【代码】

scrapy-redis【图】

scrapy-redis 分布式爬虫爬取房天下网站所有国内城市的新房和二手房信息【代码】

scrapy-redis分布式爬取猫眼电影【代码】

scrapy爬虫-scrapy-redis分布式【代码】

淘搜索之网页抓取系统分析与实现（2）—redis + scrapy【图】

scrapy-redis组件【代码】

scrapy-redis使用详解【代码】【图】

scrapy 和 scrapy_redis 安装【代码】

scrapy-redis源代码分析【图】

scrapy_redis使用【代码】

linux下安装python、scrapy、redis、mysql【代码】

scrapy框架编写向redis数据库中存储数据的相关代码时报错解决办法【图】

Scrapy-redis<数据库篇>【图】

SCRAPY - 相关标签

REDIS - 相关标签

分布式 - 相关标签

REDIS - 技术教程分类

REDIS - 最新教程

REDIS - 最热教程