首页 / MONGODB / Scrapy和MongoDB的应用---爬取

Scrapy和MongoDB的应用---爬取

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Scrapy和MongoDB的应用---爬取，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2681字，纯文字阅读大概需要4分钟。

内容图文

　　Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取Web站点并从页面中提取结构化的数据.它最吸引人的地方在于任何人都可以根据需求方便的修改。
　　MongoDB是现下非常流行的开源的非关系型数据库（NoSql），它是以“key-value”的形式存储数据的，在大数据量、高并发、弱事务方面都有很大的优势。
　　当Scrapy与MongoDB两者相碰撞会产生怎样的火花呢？与MongoDB两者相碰撞会产生怎样的火花呢？现在让我们做一个简单的爬取小说的TEST
   1.安装Scrapy
        pip install scrapy
   2.下载安装MongoDB和MongoVUE可视化
        [MongoDB下载地址](https://www.mongodb.org/)
        下载安装的步骤略过，在bin目录下创建一个data文件夹用来存放数据的。

[MongoVUE下载地址](http://www.mongovue.com/)

　　　安装完成后我们需要创建一个数据库。

技术分享
   3.创建一个Scrapy项目
        scrapy startproject novelspider
    目录结构：其中的novspider.py是需要我们手动创建的(contrloDB不需要理会)

技术分享

　　4.编写代码

　　　　目标网站:http://www.daomubiji.com/

技术分享

　　settings.py

BOT_NAME = ‘novelspider‘

SPIDER_MODULES = [‘novelspider.spiders‘]
NEWSPIDER_MODULE = ‘novelspider.spiders‘

ITEM_PIPELINES = [‘novelspider.pipelines.NovelspiderPipeline‘]　　#导入pipelines.py中的方法

USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0‘
COOKIES_ENABLED = True

MONGODB_HOST = ‘127.0.0.1‘   
MONGODB_PORT = 27017
MONGODB_DBNAME = ‘zzl‘　　　　#数据库名
MONGODB_DOCNAME = ‘Book‘　　　#表名

pipelines.py

            from scrapy.conf import settings
import pymongo

class NovelspiderPipeline(object):
    def__init__(self):
        host = settings[‘MONGODB_HOST‘]
        port = settings[‘MONGODB_PORT‘]
        dbName = settings[‘MONGODB_DBNAME‘]
        client = pymongo.MongoClient(host=host, port=port)
        tdb = client[dbName]
        self.post = tdb[settings[‘MONGODB_DOCNAME‘]]

    def process_item(self, item, spider):
        bookInfo = dict(item)
        self.post.insert(bookInfo)
        return item

　　items.py

            from scrapy import Item,Field


class NovelspiderItem(Item):
    # define the fields for your item here like:# name = scrapy.Field()
    bookName = Field()
    bookTitle = Field()
    chapterNum = Field()
    chapterName = Field()
    chapterURL = Field()

　　在spiders目录下创建novspider.py

            from scrapy.spiders import CrawlSpider
from scrapy.selector import Selector
from novelspider.items import NovelspiderItem

class novSpider(CrawlSpider):
    name = "novspider"
    redis_key = ‘novspider:start_urls‘
    start_urls = [‘http://www.daomubiji.com/‘]

    def parse(self,response):
        selector = Selector(response)
        table = selector.xpath(‘//table‘)
        for each in table:
            bookName = each.xpath(‘tr/td[@colspan="3"]/center/h2/text()‘).extract()[0]
            content = each.xpath(‘tr/td/a/text()‘).extract()
            url = each.xpath(‘tr/td/a/@href‘).extract()
            for i in range(len(url)):
                item = NovelspiderItem()
                item[‘bookName‘] = bookName
                item[‘chapterURL‘] = url[i]
                try:
                    item[‘bookTitle‘] = content[i].split(‘‘)[0]
                    item[‘chapterNum‘] = content[i].split(‘‘)[1]
                except Exception,e:
                    continuetry:
                    item[‘chapterName‘] = content[i].split(‘‘)[2]
                except Exception,e:
                    item[‘chapterName‘] = content[i].split(‘‘)[1][-3:]
                yield item

　　5.启动项目命令: scrapy crawl novspider.

　　抓取结果

技术分享

原文：http://www.cnblogs.com/alarm1673/p/4812460.html

内容总结

以上是互联网集市为您收集整理的Scrapy和MongoDB的应用---爬取全部内容，希望文章能够帮你解决Scrapy和MongoDB的应用---爬取所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1235363.html

来源：【匿名】

【下一篇】在MongoDB上如何进行数据的导入与导出

更多 ►

【Scrapy和MongoDB的应用---爬取】教程文章相关的互联网学习教程文章

Scrapy和MongoDB的应用---爬取【代码】【图】

利用scrapy抓取网易新闻并将其存储在mongoDB

好久没有写爬虫了，写一个scrapy的小爬爬来抓取网易新闻，代码原型是github上的一个爬虫，近期也看了一点mongoDB。顺便小用一下。体验一下NoSQL是什么感觉。言归正传啊。scrapy爬虫主要有几个文件须要改动。这个爬虫须要你装一下mongodb数据库和pymongo，进入数据库之后。利用find语句就能够查看数据库中的内容，抓取的内容例如以下所看到的：{"_id" : ObjectId("5577ae44745d785e65fa8686"),"from_url" : "http://tech.163.com/",...

scrapy爬小说程序（mongodb版）的完善【代码】

一、背景：原程序爬取小说要求一次成功，否则，必须从头再来，影响爬取效率。二、完善思路（1）增加对已爬取内容的检索，若mongodb已有内容，则不再爬取。（2）增加对总爬取时间的计时。三、代码（1）xbiquge/pipelines.py# Define your item pipelines here # # Don‘t forget to add your pipeline to the ITEM_PIPELINES setting # See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html import os import time fr...

scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下：# Standard Python library imports # 3rd party modules import pymongo from scrapy import log from scrapy.conf import settings from scrapy.exceptions import DropItem class MongoDBPipeline(object):def __init__(self):self.server = settings[MONGODB_SERVER]self.port = settings[MONGODB_PORT]self.db = se...

Scrapy和MongoDB的应用---爬取【代码】【图】

settings.pyBOT_NAME = ‘novelspider‘SPIDER_MODULES = [‘novelspider.spiders‘] NEWSPIDER_MODULE = ‘novelspider.spiders‘ITEM_PIPELINES = [‘novelspider.pipelines.NovelspiderPipeline‘]　　#导入pipelines.py中的方法USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0‘ COOKIES_ENABLED = TrueMONGODB_HOST = ‘127.0.0.1‘ MONGODB_PORT = 27017 MONGODB_DBNAME = ‘z...

爬虫框架Scrapy之将数据存在Mongodb【代码】【图】

spiders/douban.py import scrapy from doubanSpider.items import DoubanspiderItemclass DoubanSpider(scrapy.Spider):name = "douban"allowed_domains = ["movie.douban.com"]start = 0url = ‘https://movie.douban.com/top250?start=‘end = ‘&filter=‘start_urls = [url + str(start) + end]def parse(self, response):item = DoubanspiderItem()movies = response.xpath("//div[@class=\‘info\‘]")for each in movies:t...

利用Scrapy爬取所有知乎用户详细信息并存至MongoDB【代码】【图】

MongoDB 非关系型数据库，项目开始之前请先安装好 MongoDB 并启动服务。 PyMongo Python 的 MongoDB 连接库，安装方式如下： pip3 install pymongo创建项目安装好以上环境之后，我们便可以开始我们的项目了。在项目开始之首先我们用命令行创建一个项目： scrapy startproject zhihuuser创建爬虫接下来我们需要创建一个 spider，同样利用命令行，不过这次命令行需要进入到项目里运行。 cd zhihuuser scrapy genspider zhihu www.z...

Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案（Chapter 1st）

+ Robomongo + Xshell请确保你的 python版本为2.7.5以上版本强烈推荐直接【翻墙安装】，简单轻松 yum install gcc libffi-devel python-devel openssl-devel pip install scrapy 如果提示以下错误 AttributeError: ‘module‘ object has no attribute ‘OP_NO_TLSv1_1‘ 说明你的 Twisted 版本过高，请执行 pip install Twisted==16.4.1然后再安装以下内容 pip install "ScrapyMongoDB" pip install beautifulsoup4 pip insta...

利用scrapy抓取网易新闻并将其存储在mongoDB【代码】

{"_id" : ObjectId("5577ae44745d785e65fa8686"),"from_url" : "http://tech.163.com/","news_body" : ["科技讯 6月9日凌晨消息2015","全球开发人员大会（WWDC 2015）在旧","召开，网易科技进行了全程图文直播。最新","9操作系统在","上性能得到极大提升，能够实现分屏显示。也能够支持画中画功能。","新版iOS 9 添加了QuickType 键盘，让输入和编辑都更简单快捷。在搭配外置键盘使用 iPad 时。用户能够用快捷键来进行操作，比如在...

scrapy+mongodb【代码】

我们都知道scrapy适合爬取大量的网站信息，爬取到的信息储存到数据库显然需要更高的效率，scrapy配合mongodb是非常合适的，这里记录一下如何在scrapy中配置mongodb。文件结构$ scrapy startproject myscrapy当我们创建一个scrapy工程的时候，scrapy会自动给我们创建目录结构，像下面这样：├── scrapy.cfg └── myscrapy├── __init__.py├── items.py├── pipelines.py├── settings.py└── spiders└── __init_...

scrapy+mongodb报错 TypeError: name must be an instance of str【代码】

经过各种排查，最后找到原因，在settings文件中配置文件大小写写错了，在pipelines中 mongo_db=crawler.settings.get(‘MONGODB_DB‘),get 获取的是‘MONGO_DB‘,而在settings 配置文件中我配置成 MONGODB_db,最后修改成全部大写，问题解决。都是不小心惹的祸scrapy+mongodb报错 TypeError: name must be an instance of str标签：tin div err ror 问题 line set blog mongodb 本文系统来源：https://www.cnblog...

scrapy中把数据写入mongodb【代码】

# ‘tianmao.pipelines.TianmaoPipeline‘: 300, }2.setting.py中写入mongodb配置# mongodb HOST = "127.0.0.1" # 服务器地址 PORT = 27017 # mongo默认端口号 USER = "用户名" PWD = "密码" DB = "数据库名" TABLE = "表名"3.pipeline.py文件中倒入pymongo，数据写入数据库from pymongo import MongoClientclass TianmaoPipeline(object):def __init__(self, host, port, user, pwd, db, table):self.host = hostself.port = po...

在scrapy中将数据保存到mongodb中

利用item pipeline可以实现将数据存入数据库的操作，可以创建一个关于数据库的item pipeline 需要在类属性中定义两个常量DB_URL：数据库的URL地址DB_NAME：数据库的名字在Spider爬取的整个过程中，数据库的连接和关闭操作只需要进行一次就可以，应该在开始处理之前就要连接数据库，并在处理完所有数据之后就关闭数据库。所以需要在open_spider和close_spider中定义数据库的连接和关闭操作在process_item中实现MongoDB的写入操...

scrapy爬虫案例：用MongoDB保存数据【代码】

DoubanspiderItem(scrapy.Item):# 电影标题title = scrapy.Field()# 电影评分score = scrapy.Field()# 电影信息content = scrapy.Field()# 简介info = scrapy.Field() spiders/douban.pyimport scrapy from doubanSpider.items import DoubanspiderItemclass DoubanSpider(scrapy.Spider):name = "douban"allowed_domains = ["movie.douban.com"]start = 0url = ‘https://movie.douban.com/top250?start=‘end = ‘&filter=‘sta...

用Scrapy爬虫爬取豆瓣电影排行榜数据，存储到Mongodb数据库【代码】【图】

爬虫第一步：新建项目选择合适的位置，执行命令：scrapy startproje xxxx（我的项目名：douban）爬虫第二步：明确目标豆瓣电影排行url：https://movie.douban.com/top250?start=0，分析url后发现srart=后面的数字，以25的步长递增，最大为225，所以可以利用这个条件来发Request请求本文只取了三个字段，电影名、评分和介绍，当然你想去更多信息也是可以的item["name"]:电影名 item["rating_num"]:评分 item["inq"]:介绍用xpath提...

首页 / MONGODB / Scrapy和MongoDB的应用---爬取

Scrapy和MongoDB的应用---爬取

内容导读

内容图文

内容总结

内容备注

内容手机端

【Scrapy和MongoDB的应用---爬取】教程文章相关的互联网学习教程文章

Scrapy和MongoDB的应用---爬取【代码】【图】

利用scrapy抓取网易新闻并将其存储在mongoDB

scrapy爬小说程序（mongodb版）的完善【代码】

scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

Scrapy和MongoDB的应用---爬取【代码】【图】

爬虫框架Scrapy之将数据存在Mongodb【代码】【图】

利用Scrapy爬取所有知乎用户详细信息并存至MongoDB【代码】【图】

Scrapy+BeautifulSoup+MongoDB 高性能数据采集方案（Chapter 1st）

利用scrapy抓取网易新闻并将其存储在mongoDB【代码】

scrapy+mongodb【代码】

scrapy+mongodb报错 TypeError: name must be an instance of str【代码】

scrapy中把数据写入mongodb【代码】

在scrapy中将数据保存到mongodb中

scrapy爬虫案例：用MongoDB保存数据【代码】

用Scrapy爬虫爬取豆瓣电影排行榜数据，存储到Mongodb数据库【代码】【图】

SCRAPY - 相关标签

应用 - 相关标签

MONGODB - 技术教程分类

MONGODB - 最新教程

MONGODB - 最热教程