scrapy+mongodb

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了scrapy+mongodb，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3679字，纯文字阅读大概需要6分钟。

内容图文

我们都知道scrapy适合爬取大量的网站信息，爬取到的信息储存到数据库显然需要更高的效率，scrapy配合mongodb是非常合适的，这里记录一下如何在scrapy中配置mongodb。

文件结构

$ scrapy startproject myscrapy

当我们创建一个scrapy工程的时候，scrapy会自动给我们创建目录结构，像下面这样：

├── scrapy.cfg
└── myscrapy
    ├── __init__.py
    ├── items.py
    ├── pipelines.py
    ├── settings.py
    └── spiders
        └── __init__.py

提取数据

items.py文件用于定义存储“容器”，用来存储将要抓取的数据。

MyscrapyItem()类继承自Item (文档)，主要包含一些Scrapy已经为我们创建好的预定义对象：

import scrapy


class MyscrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass

添加一些想要收集的项。用户想要每条问题的标题和URL。那么，照这样更新items.py：

from scrapy.item import Item, Field
 
class MyscrapyItem(Item):
    title = Field()
    url = Field()

创建蜘蛛

$ scrapy genspider myspider baidu.com

这样，scrapy会为我们在spiders目录下生成一个myspider.py的文件

import scrapy
from myscrapy.items import MyscrapyItem  # 导入我们的item类


class MyspiderSpider(scrapy.Spider):
    name = ‘myspider‘
    allowed_domains = [‘baidu.com‘]
    start_urls = [‘http://baidu.com/‘]

    def parse(self, response):
        item = MyscrapyItem()  # 实例化item类
        item[‘title‘] = response.title  # 此行为伪代码
        item[‘url] = response.url
        yield item  # 这句会将item数据交给pipelines处理

最初一些变量的含义很容易理解（文档）：

定义蜘蛛的名字。
allowed_domains 包含构成许可域的基础URL，供蜘蛛去爬。
start_urls 是一个URL列表，蜘蛛从这里开始爬。蜘蛛从start_urls中的URL下载数据，所有后续的URL将从这些数据中获取。

抓取数据的伪代码已经写好了，接下来要将拿到的数据存储到数据库中

在MongoDB中存储数据

每当有一项返回，我们想验证数据，然后添加进一个Mongo集合。

第一步是创建一个我们计划用来保存所有抓取数据的数据库。打开settings.py，指定管道然后加入数据库设置：

ITEM_PIPELINES = {
   ‘myscrapy.pipelines.MyscrapyPipeline‘: 300,
}
MONGODB_SERVER = "localhost"
MONGODB_PORT = 27017
MONGODB_DB = "crawl"
MONGODB_COLLECTION = "item"

管道管理

我们建立了爬虫去抓取数据，而且已经设置了数据库配置。现在要在pipelines.py中通过一个管道连接两个部分。

连接数据库

首先，让我们定义一个函数去连接数据库：

import pymongo

from scrapy.conf import settings


class MyscrapyPipeline(object):
    def __init__(self):
        connection = pymongo.Connection(
            settings[‘MONGODB_SERVER‘],
            settings[‘MONGODB_PORT‘]
        )
        db = connection[settings[‘MONGODB_DB‘]]
        self.collection = db[settings[‘MONGODB_COLLECTION‘]]
        
    def process_item(self, item, spider):
        return item

这里，我们创建一个类，MongoDBPipeline()，我们有一个构造函数初始化类，它定义Mongo的设置然后连接数据库。

处理数据

下一步，我们需要定义一个函数去处理被解析的数据：

import pymongo

from scrapy.conf import settings
from scrapy.exceptions import DropItem
from scrapy import log


class MyscrapyPipeline(object):
    def __init__(self):
        connection = pymongo.Connection(
            settings[‘MONGODB_SERVER‘],
            settings[‘MONGODB_PORT‘]
        )
        db = connection[settings[‘MONGODB_DB‘]]
        self.collection = db[settings[‘MONGODB_COLLECTION‘]]

    def process_item(self, item, spider):
        valid = True
        for data in item:
            if not data:
                valid = False
                raise DropItem("Missing {0}!".format(data))
        if valid:
            self.collection.insert(dict(item))  # 将item解包后存入mongodb中
            log.msg("Question added to MongoDB database!",
                    level=log.DEBUG, spider=spider)
        return item

现在可以运行我们的scrapy了！

在总的myscrapy目录下运行下面命令：

$ $ scrapy crawl myscrapy

如果日志打印成功，可以去mongodb里找我们对应的数据库和集合，去查看数据。

scrapy+mongodb

标签：setting local rom 数据库配置 res 容器 tar eve 问题

本文系统来源：http://www.cnblogs.com/sxzwj/p/6972470.html

内容总结

以上是互联网集市为您收集整理的scrapy+mongodb全部内容，希望文章能够帮你解决scrapy+mongodb所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/483880.html

来源：【匿名】

【上一篇】在.net下打造mongoDb基于官方驱动最新版本【下一篇】在MongoDB上如何进行数据的导入与导出

更多 ►

【scrapy+mongodb】教程文章相关的互联网学习教程文章

好久没有写爬虫了，写一个scrapy的小爬爬来抓取网易新闻，代码原型是github上的一个爬虫，近期也看了一点mongoDB。顺便小用一下。体验一下NoSQL是什么感觉。言归正传啊。scrapy爬虫主要有几个文件须要改动。这个爬虫须要你装一下mongodb数据库和pymongo，进入数据库之后。利用find语句就能够查看数据库中的内容，抓取的内容例如以下所看到的：{"_id" : ObjectId("5577ae44745d785e65fa8686"),"from_url" : "http://tech.163.com/",...

scrapy爬小说程序（mongodb版）的完善【代码】

一、背景：原程序爬取小说要求一次成功，否则，必须从头再来，影响爬取效率。二、完善思路（1）增加对已爬取内容的检索，若mongodb已有内容，则不再爬取。（2）增加对总爬取时间的计时。三、代码（1）xbiquge/pipelines.py# Define your item pipelines here # # Don‘t forget to add your pipeline to the ITEM_PIPELINES setting # See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html import os import time fr...

scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下：# Standard Python library imports # 3rd party modules import pymongo from scrapy import log from scrapy.conf import settings from scrapy.exceptions import DropItem class MongoDBPipeline(object):def __init__(self):self.server = settings[MONGODB_SERVER]self.port = settings[MONGODB_PORT]self.db = se...

Scrapy和MongoDB的应用---爬取【代码】【图】

settings.pyBOT_NAME = ‘novelspider‘SPIDER_MODULES = [‘novelspider.spiders‘] NEWSPIDER_MODULE = ‘novelspider.spiders‘ITEM_PIPELINES = [‘novelspider.pipelines.NovelspiderPipeline‘]　　#导入pipelines.py中的方法USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0‘ COOKIES_ENABLED = TrueMONGODB_HOST = ‘127.0.0.1‘ MONGODB_PORT = 27017 MONGODB_DBNAME = ‘z...

爬虫框架Scrapy之将数据存在Mongodb【代码】【图】

spiders/douban.py import scrapy from doubanSpider.items import DoubanspiderItemclass DoubanSpider(scrapy.Spider):name = "douban"allowed_domains = ["movie.douban.com"]start = 0url = ‘https://movie.douban.com/top250?start=‘end = ‘&filter=‘start_urls = [url + str(start) + end]def parse(self, response):item = DoubanspiderItem()movies = response.xpath("//div[@class=\‘info\‘]")for each in movies:t...

利用Scrapy爬取所有知乎用户详细信息并存至MongoDB【代码】【图】

MongoDB 非关系型数据库，项目开始之前请先安装好 MongoDB 并启动服务。 PyMongo Python 的 MongoDB 连接库，安装方式如下： pip3 install pymongo创建项目安装好以上环境之后，我们便可以开始我们的项目了。在项目开始之首先我们用命令行创建一个项目： scrapy startproject zhihuuser创建爬虫接下来我们需要创建一个 spider，同样利用命令行，不过这次命令行需要进入到项目里运行。 cd zhihuuser scrapy genspider zhihu www.z...

Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案（Chapter 1st）

+ Robomongo + Xshell请确保你的 python版本为2.7.5以上版本强烈推荐直接【翻墙安装】，简单轻松 yum install gcc libffi-devel python-devel openssl-devel pip install scrapy 如果提示以下错误 AttributeError: ‘module‘ object has no attribute ‘OP_NO_TLSv1_1‘ 说明你的 Twisted 版本过高，请执行 pip install Twisted==16.4.1然后再安装以下内容 pip install "ScrapyMongoDB" pip install beautifulsoup4 pip insta...

利用scrapy抓取网易新闻并将其存储在mongoDB【代码】

{"_id" : ObjectId("5577ae44745d785e65fa8686"),"from_url" : "http://tech.163.com/","news_body" : ["科技讯 6月9日凌晨消息2015","全球开发人员大会（WWDC 2015）在旧","召开，网易科技进行了全程图文直播。最新","9操作系统在","上性能得到极大提升，能够实现分屏显示。也能够支持画中画功能。","新版iOS 9 添加了QuickType 键盘，让输入和编辑都更简单快捷。在搭配外置键盘使用 iPad 时。用户能够用快捷键来进行操作，比如在...

scrapy+mongodb【代码】

我们都知道scrapy适合爬取大量的网站信息，爬取到的信息储存到数据库显然需要更高的效率，scrapy配合mongodb是非常合适的，这里记录一下如何在scrapy中配置mongodb。文件结构$ scrapy startproject myscrapy当我们创建一个scrapy工程的时候，scrapy会自动给我们创建目录结构，像下面这样：├── scrapy.cfg └── myscrapy├── __init__.py├── items.py├── pipelines.py├── settings.py└── spiders└── __init_...

scrapy+mongodb报错 TypeError: name must be an instance of str【代码】

经过各种排查，最后找到原因，在settings文件中配置文件大小写写错了，在pipelines中 mongo_db=crawler.settings.get(‘MONGODB_DB‘),get 获取的是‘MONGO_DB‘,而在settings 配置文件中我配置成 MONGODB_db,最后修改成全部大写，问题解决。都是不小心惹的祸scrapy+mongodb报错 TypeError: name must be an instance of str标签：tin div err ror 问题 line set blog mongodb 本文系统来源：https://www.cnblog...

scrapy中把数据写入mongodb【代码】

# ‘tianmao.pipelines.TianmaoPipeline‘: 300, }2.setting.py中写入mongodb配置# mongodb HOST = "127.0.0.1" # 服务器地址 PORT = 27017 # mongo默认端口号 USER = "用户名" PWD = "密码" DB = "数据库名" TABLE = "表名"3.pipeline.py文件中倒入pymongo，数据写入数据库from pymongo import MongoClientclass TianmaoPipeline(object):def __init__(self, host, port, user, pwd, db, table):self.host = hostself.port = po...

在scrapy中将数据保存到mongodb中

利用item pipeline可以实现将数据存入数据库的操作，可以创建一个关于数据库的item pipeline 需要在类属性中定义两个常量DB_URL：数据库的URL地址DB_NAME：数据库的名字在Spider爬取的整个过程中，数据库的连接和关闭操作只需要进行一次就可以，应该在开始处理之前就要连接数据库，并在处理完所有数据之后就关闭数据库。所以需要在open_spider和close_spider中定义数据库的连接和关闭操作在process_item中实现MongoDB的写入操...

scrapy爬虫案例：用MongoDB保存数据【代码】

DoubanspiderItem(scrapy.Item):# 电影标题title = scrapy.Field()# 电影评分score = scrapy.Field()# 电影信息content = scrapy.Field()# 简介info = scrapy.Field() spiders/douban.pyimport scrapy from doubanSpider.items import DoubanspiderItemclass DoubanSpider(scrapy.Spider):name = "douban"allowed_domains = ["movie.douban.com"]start = 0url = ‘https://movie.douban.com/top250?start=‘end = ‘&filter=‘sta...

用Scrapy爬虫爬取豆瓣电影排行榜数据，存储到Mongodb数据库【代码】【图】

爬虫第一步：新建项目选择合适的位置，执行命令：scrapy startproje xxxx（我的项目名：douban）爬虫第二步：明确目标豆瓣电影排行url：https://movie.douban.com/top250?start=0，分析url后发现srart=后面的数字，以25的步长递增，最大为225，所以可以利用这个条件来发Request请求本文只取了三个字段，电影名、评分和介绍，当然你想去更多信息也是可以的item["name"]:电影名 item["rating_num"]:评分 item["inq"]:介绍用xpath提...

scrapy爬虫案例数据存入MongoDB【代码】

爬虫py文件 # -*- coding: utf-8 -*- import scrapy from ..items import RtysItemclass RtSpider(scrapy.Spider):name = rt #爬虫名，启动项目时用# allowed_domains = [www.baidu.com] #定义爬虫范围注释掉就可以start_urls = [https://www.woyaogexing.com/touxiang/] #起始url 项目启动时，会自动向url发起请求def parse(self, response): # response直接代替响应div_list=response.xpath(//div[@class="list-l...

MONGODB - 技术教程分类

MongoDB 教程 MongoDB 简介 MongoDB 概念解析 MongoDB 连接 MongoDB 创建数据库 MongoDB 删除数据库 MongoDB 创建集合 MongoDB 删除集合 MongoDB 插入文档 MongoDB 更新文档 MongoDB 删除文档 MongoDB 查询文档 MongoDB 条件操作符 MongoDB $type 操作符 MongoDB Limit与Skip方法 MongoDB 排序 MongoDB 索引 MongoDB 聚合 MongoDB 复制(副本集) MongoDB 分片 MongoDB 备份与恢复 MongoDB 监控 MongoDB PHP 扩展 Node.js MongoDB MongoDB 关系 MongoDB 数据库引用 MongoDB 覆盖索引查询 MongoDB 查询分析 MongoDB 原子操作 MongoDB 高级索引 MongoDB 索引限制 MongoDB ObjectId MongoDB Map Reduce MongoDB 全文检索 MongoDB 管理工具 MongoDB GridFS MongoDB 固定集合 MongoDB 自动增长 mongodb 全部

MONGODB - 最热教程

TP5(thinkPHP5)框架mongodb扩展安装及特...MongoDB数据库设置初始化脚本【MongoDB】在windows平台下mongodb的分...MongoDB查询超时异常SocketTimeoutExce...mongodb关于启动权限的问题 mongodb chunk 大小设置 MongoDB分片集群配置 mongodb web管理工具rockmongo MongoDB中insert方法、update方法、sav...mongodb如何对子文档进行分页

首页 / MONGODB / scrapy+mongodb

scrapy+mongodb

内容导读

内容图文

文件结构

提取数据

创建蜘蛛

在MongoDB中存储数据

管道管理

内容总结

内容备注

内容手机端

【scrapy+mongodb】教程文章相关的互联网学习教程文章

利用scrapy抓取网易新闻并将其存储在mongoDB

scrapy爬小说程序（mongodb版）的完善【代码】

scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

Scrapy和MongoDB的应用---爬取【代码】【图】

爬虫框架Scrapy之将数据存在Mongodb【代码】【图】

利用Scrapy爬取所有知乎用户详细信息并存至MongoDB【代码】【图】

Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案（Chapter 1st）

利用scrapy抓取网易新闻并将其存储在mongoDB【代码】

scrapy+mongodb【代码】

scrapy+mongodb报错 TypeError: name must be an instance of str【代码】

scrapy中把数据写入mongodb【代码】

在scrapy中将数据保存到mongodb中

scrapy爬虫案例：用MongoDB保存数据【代码】

用Scrapy爬虫爬取豆瓣电影排行榜数据，存储到Mongodb数据库【代码】【图】

scrapy爬虫案例数据存入MongoDB【代码】

MONGODB - 相关标签

MONGODB - 技术教程分类

MONGODB - 最新教程

MONGODB - 最热教程