首页 / GO / 使用bs4对海投网内容信息进行提取并存入mongodb数据库

使用bs4对海投网内容信息进行提取并存入mongodb数据库

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用bs4对海投网内容信息进行提取并存入mongodb数据库，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2327字，纯文字阅读大概需要4分钟。

内容图文

example: http://xyzp.haitou.cc/article/722427.html

首先是直接下载好每个页面，可以使用 os.system( "wget "+str(url)) 或者urllib2.urlopen(url) ，很简单不赘述。

然后，重头戏，进行信息抽取：

            #
            !/usr/bin/env python
            
#
             coding=utf-8
            from bs4 import BeautifulSoup
import codecs
import sys
import os
reload(sys)
sys.setdefaultencoding("utf-8")
import re

from pymongo import MongoClient

def get_jdstr(fname):
    soup = ""
    retdict = {}
    with open(fname) as fr:
        soup = BeautifulSoup(fr.read().replace(‘""‘,‘"‘))
    
    jdstr = soup.get_text()
    
    retdict["inc_name"] = soup.title.string.split()[0]
    retdict["page_content"] = soup.find_all("div","panel-body panel-body-text")[0].get_text()
    retdict["index_url"] = re.search("http://xyzp.haitou.cc/article/\d+.html",jdstr).group()
    retdict["info_from"] = soup.find_all("p","text-ellipsis")[0].contents[1].get_text()
    retdict["workplace"] = soup.find_all("p","text-ellipsis")[1].contents[1].get_text()
    retdict["info_tag"] = soup.find_all("p","text-ellipsis")[2].contents[1].get_text()
    retdict["pub_time"] = soup.find_all("p","text-ellipsis")[3].contents[1].get_text()

    return retdict



def JD_extr():
    fnames = [ fname  for fname in os.listdir("./") if fname.endswith(".html") ]
    fw = codecs.open("tmp_jd_haitou_clean.csv","w","utf-8")
    res = []
    for fname in fnames[1:500]:
        tmp = []
        retdict =  get_jdstr(fname)
        res.append(retdict)
        for k,v in retdict.iteritems():
            tmp.append(v)
        fw.write(" , ".join(tmp)+"\n")
        fw.write("==="*20+"\n") 
    print fname,"done!"return res



def change2html():
    fnames = [ fname for fname in os.listdir("./") if fname.endswith(".txt") ]
    for fname in fnames:
        cmd = "mv "+str(fname) +""+fname[:-3]+"html"print cmd
        os.system(cmd)


def store2mongodb():
    client = MongoClient("localhost",27017)
    db = client.JD_Haitou
    
    documents = JD_extr()
    for d in documents:
        db.haitouJD.insert(d)

    mycol = db["haitouJD"]
    print mycol.count()



def split_jd_test_data(fname=‘./tmp_jd_haitou_clean.csv‘):
    fw = codecs.open(‘./split_jd_res.csv‘,‘w‘,‘utf-8‘)
    fr = codecs.open(fname,‘r‘,‘utf-8‘)
    indexurl = re.compile("http://xyzp.haitou.cc/article/\d+.html")
    for line in fr: 
        if indexurl.search(line):
            url = indexurl.search(line).group()
            cnt = ‘1‘#默认为1
            fw.write(url+"\t"+cnt+"\n")
    fr.close()
    fw.close()




if__name__ == "__main__":
　　 JD_extr()  # 抽取后存入文件
    store2mongodb()
    split_jd_test_data()
    print"done"

原文：http://www.cnblogs.com/jkmiao/p/4846799.html

内容总结

以上是互联网集市为您收集整理的使用bs4对海投网内容信息进行提取并存入mongodb数据库全部内容，希望文章能够帮你解决使用bs4对海投网内容信息进行提取并存入mongodb数据库所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1258783.html

来源：【匿名】

【下一篇】php和golang的区别是什么？

更多 ►

【使用bs4对海投网内容信息进行提取并存入mongodb数据库】教程文章相关的互联网学习教程文章

使用bs4对海投网内容信息进行提取并存入mongodb数据库【代码】

example: http://xyzp.haitou.cc/article/722427.html首先是直接下载好每个页面，可以使用 os.system( "wget "+str(url)) 或者urllib2.urlopen(url) ，很简单不赘述。然后，重头戏，进行信息抽取：#!/usr/bin/env python # coding=utf-8from bs4 import BeautifulSoup import codecs import sys import os reload(sys) sys.setdefaultencoding("utf-8") import refrom pymongo import MongoClientdef get_jdstr(fname):soup = ...

Django(数据库操作)【代码】【图】

在django中，数据库的创建一般是在models.py中完成一.单表操作（在表的创建过程中，不能同时对表进行增删等操作，要等表创建完再执行相关操作）1.创建表class AuthorDetail(models.Model):sex = models.BooleanField(max_length=1, choices=((0, ‘男‘),(1, ‘女‘),))email = models.EmailField()address = models.CharField(max_length=50)birthday = models.DateField()author = models.OneToOneField(Author)#声明一个类Autho...

Django Model数据库操作【代码】

1.1 Django中使用MySQL　　1、先写类：在 app01/models.py中写类from django.db import modelsclass UserInfo(models.Model):uid = models.AutoField(primary_key=True) # 自增idusername = models.CharField(max_length=32)password = models.CharField(max_length=64)app01/models.py　　2、在Django项目中使用MySQL　1. 创建管理员密码,与数据库　　　　　　　　1. mysqladmin -uroot password 123456 ...

mongoose 常用数据库操作插入【代码】【图】

项目 db.jsvar mongoose = require(‘mongoose‘); mongoose.connect(‘mongodb://127.0.0.1:27017/whhhh‘, { useMongoClient: true }); var db = mongoose.connection; db.on(‘error‘, console.error.bind(console, ‘connection error:‘)); db.once(‘open‘, function (callback) {console.log("数据库成功连接"); }); module.exports = db;try.jsvar User = require("./user.js");/*** 插入*/ function insert() {var user...

Django 中实现连接多个数据库并实现读写分离【代码】

读写分离其基本原理就是让主数据库处理事务性增,改,删操作(INSERT,UPDATE,DELETE)操作,而从数据库处理SELECT查询操作,数据库复制被用来把事物性操作导致的变更同步到其他从数据库,以SQL为例,主数据库负责写数据,读数据,读库仅负责读数据,每次有写库操作,同步更新到读库,写库就一个,读库可以有多个,采用日志同步的方式实现主库和多个数据库的数据同步具体配置如下在配置文件中增加slave数据库的配置在Django的配置文件settings.py中...

MongoDB的数据库基本操作

创建数据库>use mydbswitched to db mydb 查看所有的数据表>show collections system.indexes 创建数据表 >db.createCollection("tb_user"){"ok":1} > db.createCollection("Test",{capped:true, size:10000}) { "ok" : 1 }{"ok":1}-- 说明capped:true，表示该集合的结构不能被修改；size:在建表之初就指定一定的空间大小，接下来的插入操作会不断地按顺序APPEND数据在这个预分配好空间的文件中，如果已经超出空间大小，则回到文...

mongodb数据库的启动和停止

?? 数据库的启动和停止是数据库最基本的操作，也是数据库能够提供服务和被连接管理的前提条件。不同的数据库启动和停止的方式有一些差异，但也有相同之处，启动和关闭也必定会和数据库的进程有关。在oracle数据库中，数据库的启动和停止都是分三个过程的，正常的启动方法都是在sqlplus中执行startup命令启动，或者shutdown immediate命令关闭数据库；在一些特殊的情况下，会通过shutdown abort或者kill后台进程的方...

django模板中变更数据库信息后，如何把变更后的信息同步更新到数据库【图】

我们在基于django开发项目的过程中，经常会遇到数据库表字段增加，删除，或者修改的情况，以及字段属性更改的情况，因为django基于ORM模式来操作数据库的，传统上如果django项目中的数据库model信息变更以后，我们会根据相应的变更信息手动去数据库里进行修改，比如：在project(项目)模板中添加了一个age的字段，我们会去数据库中相应的手动添加age字段信息，并且在数据库添加的age字段其字段属性与model中的age字段属性应保持一致...

MFC+mongodb+nodejs 数据库的读取与写入操作【代码】【图】

首先通过nodejs和mongodb建立后端服务器一、在windows平台下启动mongodb服务器1、进入mongodb的安装目录，并进去bin目录启动mongod2、在d盘建立mongodb\data文件夹作为数据存储目录mongod.exe --dbpath d:\mongodb\data 二、建立js文件，并通过nodejs启动1、当向服务器发送01指令时，服务器将从mongodb 读取数据，并返回var HOST = "localhost"; var PORT = 6969; var dgram = require(‘dgram‘); var server_udp = dgram.createS...

django 中连接mysql数据库的操作步骤【代码】

django中连接mysql数据库的操作步骤：1 settings配置文件中DATABASES = {'default': {'ENGINE': 'django.db.backends.mysql','NAME': 'orm02', # 库的名字'USER':'root', # 数据库的用户名'PASSWORD':'666', # 数据库的密码'HOST':'127.0.0.1', 'PORT':3306,}} 2 项目文件夹下的init文件中写上下面内容,用pymysql替换mysqldbimport pymysqlpymysql.install_as_MySQLdb()3 models文件中创建一个类class UserInfo...

Python数据库mongodb的简单使用

## Mongodb的的增删改查### 1. mongodb插入数据命令：`db.集合名称.insert(document)````db.stu.insert({name:‘gj‘, gender:1})db.stu.insert({_id:"20170101", name:‘gj‘, gender:1})(不建议)```插文档时，如果不指定_id参数，MongoDB会为文档自动分配一个唯一的ObjectId ### 2. mongodb的保存命令：`db.集合名称.save(document)````db.stu.save({_id:‘20170101‘, name:‘gj‘, gender:2})db.stu.save({name:‘gj‘, gende...

django 数据库的一对多，多对一取值【图】

一对多是一行记录的对象，然后点外键，就可以点到多的那张表的属性了。原文：https://www.cnblogs.com/seanliang/p/9183518.html

java客户端连接MongoDB数据库的简单使用【代码】

1、下载mongoDB的jar包，并引入到工程的CLASSPATH中下载:mongodb2.5驱动包下载如果使用maven项目，最新的依赖如下:<dependency><groupId>org.mongodb</groupId><artifactId>mongodb-driver</artifactId><version>3.2.0</version></dependency>需要特别注意的是如果工程不是maven项目而是通过引入jar包的方式，那么在mongdb3.X之后，除了要引入mongo-java-driver之外，还需要手动引入bson和mongo-java-core的两个jar包，因为driver依...

django mysql 数据库创建【代码】

先在init下import pymysqlpymysql.install_as_MySQLdb()在setting下DATABASES = { ‘default‘: { ‘ENGINE‘: ‘django.db.backends.mysql‘, ‘NAME‘: ‘ctx‘, ‘HOST‘: ‘‘, ‘PORT‘: ‘3306‘, ‘USER‘: ‘root‘, ‘PASSWORD‘: ‘123‘, }}中英文时区修改LANGUAGE_CODE = ‘zh_Hans‘TIME_ZONE = ‘Asia/Shanghai‘原文：https://www.cnblogs.com/zj0724/p/9345636.h...

Django操作多个数据库读写分离【代码】

创建数据库: DATABASES = {‘default‘: {‘ENGINE‘: ‘django.db.backends.mysql‘,‘NAME‘:‘default‘,‘HOST‘: ‘127.0.0.1‘, # 主服务器的运行ip‘PORT‘: 3306, # 主服务器的运行port‘USER‘: ‘root‘, # 主服务器的用户名‘PASSWORD‘: ‘123456‘, # 主服务器的密码},‘slave‘: {‘ENGINE‘: ‘django.db.backends.mysql‘,‘NAME‘:‘slave‘,‘HOST‘: ‘127.0.0.1‘,‘PORT‘: 3306,‘USER‘: ‘root‘...

GO - 最热教程

Go语言（Golang）密码加密存储（数据库...Android的APP怎样制作LOGO的尺寸 SQLSERVER中GO的作用详解 goland: 从0到1创建一个hello word工程 go语言学习日记 - go语言环境配置 Golang http.Client设置超时 golang实现mysql数据库备份的操作方法 Go 字符串——遍历及切片 golang 性能优化分析：benchmark 结合 ...交互式编程之Golang基本配置（Jupyter-...

首页 / GO / 使用bs4对海投网内容信息进行提取并存入mongodb数据库

使用bs4对海投网内容信息进行提取并存入mongodb数据库

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用bs4对海投网内容信息进行提取并存入mongodb数据库】教程文章相关的互联网学习教程文章

使用bs4对海投网内容信息进行提取并存入mongodb数据库【代码】

Django(数据库操作)【代码】【图】

Django Model数据库操作【代码】

mongoose 常用数据库操作插入【代码】【图】

Django 中实现连接多个数据库并实现读写分离【代码】

MongoDB的数据库基本操作

mongodb数据库的启动和停止

django模板中变更数据库信息后，如何把变更后的信息同步更新到数据库【图】

MFC+mongodb+nodejs 数据库的读取与写入操作【代码】【图】

django 中连接mysql数据库的操作步骤【代码】

Python数据库mongodb的简单使用

django 数据库的一对多，多对一取值【图】

java客户端连接MongoDB数据库的简单使用【代码】

django mysql 数据库创建【代码】

Django操作多个数据库读写分离【代码】

数据库 - 相关标签

GO - 最新教程

GO - 最热教程