首页 / 爬虫 / Python中使用MongoDB存储爬虫数据

Python中使用MongoDB存储爬虫数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python中使用MongoDB存储爬虫数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含707字，纯文字阅读大概需要2分钟。

内容图文

现在在做一个简单的搜索引擎，使用今日头条的新闻数据作为数据源。这些数据都是非结构性的，比较适合用 MongoDB 来进行存储。

以下为简单使用的示例。

#!/usr/bin/python
# -*- coding:utf-8 -*-
 
import pymongo
 
class documentManager(object):
    def __init__(self):
        pass
 
    def connect_mongo(self):
        client = pymongo.Connection("127.0.0.1",27017)
        db = client.data_db
        collection = db.data_collection
        mydict = {"name":"Lucy", "sex":"female","job":"nurse"}
        collection.insert(mydict)
 
        for i in collection.find({"name":"Lucy"}):
            print i
 
if __name__ == '__main__':
    manager = documentManager()
    manager.connect_mongo()

内容总结

以上是互联网集市为您收集整理的Python中使用MongoDB存储爬虫数据全部内容，希望文章能够帮你解决Python中使用MongoDB存储爬虫数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/431914.html

来源：【匿名】

【上一篇】Python爬虫使用代理proxy抓取网页【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Python中使用MongoDB存储爬虫数据】教程文章相关的互联网学习教程文章

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

scrapy爬虫框架调用百度地图api数据存入数据库【代码】【图】

scrapy安装配置不在本文提及，1.在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令scrapy startproject mySpider其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：下面来简单介绍一下各个主要文件的作用：scrapy.cfg ：项目的配置文件mySpider/ ：项目的Python模块，将会从这里引用代码mySpider/items.py ：项目的目标文件mySpider/pipelines.py ：项目的...

新浪明星日志推荐系统——爬虫爬取数据（2）【图】

由于之前的改造，现在将爬虫的功能做了一些改变，具体实现的功能是将推荐的日志全部抓取下来，并存放在以文章标题命名的文件中，代码如下：import urllibimport os,reimport sysfrom bs4 import BeautifulSoupreload(sys)sys.setdefaultencoding("utf-8")def if_str(str_t):if re.search(r"^.*[a-zA-Z].*",str_t)== None:print " saf"def get_blog(url):page = urllib.urlopen(url).read()if len(page)!=0:if BeautifulSoup(page)....

WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库（二）【图】

关于一些基本内容可查看上一篇博客：http://blog.csdn.net/u013082989/article/details/51176073一、首先看一下爬虫的内容：（1）学科类型、课程、课程对应章节、课程对应参考教材（主要是要将课程章节对应到上一级爬取的课程上，还有就是课程教材的爬取比较麻烦，下面会讲到）课程章节：课程教材教材内容二、实体类的设计：（1）课程类、课程对应章节类（一对多），课程对应教材类（一对多），关于hibernate映射文件就不说明了。三...

nodejs爬虫数据抓取 -- 问题总结【图】

一返回的信息提示 Something went wrong request模块请求出现未知错误其中，所用代码如下（无User-Agent部分）问题多次派查无果，包括：　　1：postman请求正常　　2. curl 请求正常　　解决办法：为请求添加user-agent头，如取消上注释部分。（我发现，只要有了user-agent这个key,无论其value是否为空，都可以正常返回了）所以对于模拟请求，有时候相应的http头部信息还是必须的。原文：http://www.cnblogs.com/imwtr/p/4679...

Python3爬虫爬取淘宝商品数据【代码】

这次的主要的目的是从淘宝的搜索页面获取商品的信息。其实分析页面找到信息很容易，页面信息的存放都是以静态的方式直接嵌套的页面上的，很容易找到。主要困难是将信息从HTML源码中剥离出来，数据和网页源码结合的很紧密，剥离数据有一定的难度。然后将获取的信息写入excel表格保存起来，这次只爬取了前面10页的内容。在运行代码的过程中发现，30页后面的数据有问题，出现了手机价格为0的情况，这是不符合实际的，码也没有写错误处...

python爬虫12--文件存储之非关系型数据库存储Redis【代码】

1.Redis连接启动服务：cd redis的安装路径------>redis-server.execd redis的安装路径------>redis-clipython中连接redis：#第一种连接from redis import StrictRedis redis = StrictRedis(host=‘localhost‘,port=6379,db=0) #第二种连接from redis import StrictRedis,ConnectionPool pool = ConnectionPool(host=‘localhost‘,port=6379,db=0) redis = StrictRedis(connection_pool=pool) redis.set(‘name‘,‘bob‘) print(...

网络爬虫采集数据几个问题

最近在做网络爬虫抓取数据，遇到几个重要问题，记录下来，以免忘记。目前用的是第三方开源爬虫框架webmagic，所以暂时记录下来的不是爬虫实现和结构上的问题，而主要是在此框架上的逻辑开发问题。1.要采集的数据在不同的页面上比如，采集网站http://down.7po.com/上的应用，在应用列表页面有应用的id等信息，而此应用的详细页面没有列表页面的这些字段信息，那么就要从列表页面和详细页面中取出字段然后再合成一个应用的整...

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

程序说明：抓取斗鱼直播平台的直播房间号及其观众人数，最后统计出某一时刻的总直播人数和总观众人数。过程分析：一、进入斗鱼首页http://www.douyu.com/directory/all进入平台首页，来到页面底部点击下一页，发现url地址没有发生变化，这样的话再使用urllib2发送请求将获取不到完整数据，这时我们可以使用selenium和PhantomJS来模拟浏览器点击下一页，这样就可以获取完整响应数据了。首先检查下一页元素，如下：<a href="#" class...

Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据【代码】【图】

本周我们的目标是：B站（哔哩哔哩弹幕网 https://www.bilibili.com ）视频评论数据。我们都知道，B站有很多号称“镇站之宝”的视频，拥有着数量极其恐怖的评论和弹幕。所以这次我们的目标就是，爬取B站视频的评论数据，分析其为何会深受大家喜爱。首先去调研一下，B站评论数量最多的视频是哪一个。。。好在已经有大佬已经统计过了，我们来看一哈！?【B站大数据可视化】B站评论数最多的视频究竟是？来自 <https://www.bilibili.com/...

互联网金融爬虫怎么写－第四课雪球网股票爬虫（单页面多数据）【图】

Previous on 系列教程：互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）互联网金融爬虫怎么写－第二课雪球网股票爬虫（正则表达式入门）互联网金融爬虫怎么写－第三课雪球网股票爬虫（ajax分析）哈哈，我又来了，话说出教程就是这么任性，咱们乘热打铁，把上节课分析完成但是没写的代码给完成了！工具要求：教程中主要使用到了 1、神箭手云爬虫框架这个是爬虫的基础，2、Chrome浏览器和Chrome的插件XpathHelper 这个...

《python3网络爬虫开发实战》--Ajax数据爬取

1. ajax异步的 JavaScript和 XML。对于传统的网页，如果想更新其内容，那么必须要刷新整个页面，但有了 Ajax，便可以在页面不被全部刷新的情况下更新其内容。在这个过程中，页面实际上是在后台与服务器进行了数据交互，获取到数据之后，再利用 JavaScript改变网页，这样网页内容就会更新了。2. Ajax请求网页更新：发送请求解析内容渲染网页3. Ajax分析方法：查看请求过滤请求4. Ajax结果提取：分析请求分析响应原文：https:...

python爬虫学习笔记(八)-数据提取之Beautiful Soup的使用【代码】

1. Beautiful Soup的简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需...

Python爬虫实战：爬取美团美食数据【代码】【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：Britain_King 1.分析美团美食网页的url参数构成1）搜索要点美团美食，地址：北京，搜索关键词：火锅2）爬取的urlhttps://bj.meituan.com/s/%E7%81%AB%E9%94%85/3）说明url会有自动编码中文功能。所以火锅二字指的就是这一串我们不认识的代码%E7%81%AB%E9%94%85。通过关键词城市的url构造，解析当前...

数据挖掘---R语言爬虫(基于hardly的rvest包)

library(rvest)library(stringr)getdata<-function(page,urlwithoutpage){ #读取数据，规定编码 web<-read_html(paste0(urlwithoutpage,page),encoding="GBK") #获取书名这些符号（：（(—）后面的统统丢掉 titie_all <- web %>% html_nodes("div ul p.name") %>% html_text() title <- sapply(strsplit(titie_all,split = "[ ：（(—―]"),"[",2) #获取价格 price <-web %>% html_nodes("div ul span.search_now_price"...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / Python中使用MongoDB存储爬虫数据

Python中使用MongoDB存储爬虫数据

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python中使用MongoDB存储爬虫数据】教程文章相关的互联网学习教程文章

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

scrapy爬虫框架调用百度地图api数据存入数据库【代码】【图】

新浪明星日志推荐系统——爬虫爬取数据（2）【图】

WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库（二）【图】

nodejs爬虫数据抓取 -- 问题总结【图】

Python3爬虫爬取淘宝商品数据【代码】

python爬虫12--文件存储之非关系型数据库存储Redis【代码】

网络爬虫采集数据几个问题

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据【代码】【图】

互联网金融爬虫怎么写－第四课雪球网股票爬虫（单页面多数据）【图】

《python3网络爬虫开发实战》--Ajax数据爬取

python爬虫学习笔记(八)-数据提取之Beautiful Soup的使用【代码】

Python爬虫实战：爬取美团美食数据【代码】【图】

数据挖掘---R语言爬虫(基于hardly的rvest包)

MONGODB - 相关标签

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程