首页 / PYTHON / 通过python来实现“语象观察“自动化进阶版

通过python来实现“语象观察“自动化进阶版

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了通过python来实现“语象观察“自动化进阶版，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含7007字，纯文字阅读大概需要11分钟。

内容图文

“语象观察”是钱刚老师之前在做的一个研究项目，之前曾经在公众号“尽知天下事”（现已被封）上发布。我对这种通过数据来发掘有价值的内容的数据新闻很感兴趣，算是弥补自己文笔不行还想从事新闻传媒的曲线救国道路吧。

不过作为一个对电脑方面感兴趣但很小白的我来说，所有的步骤想起来都很简单，但实操起来无从下手，不过决心还是很坚定的，决定要做到现在基本完成将近10个月。

通过python来实现“语象观察“自动化进阶版 - 文章图片

一步步找问题，找解决办法，和一次次试验。念念不忘，必有回响。目前我已经实现了所有我最初的设想功能。

一：获取人民日报的数据

分析数据，第一步是要获取人民日报的数据。利用爬虫每月爬取人民日报当月内容为txt文件，爬虫这部分代码来源于CSDN用户@机灵鹤，帮助我解决了最难的变成问题，非常感谢。

1、代码如下：

import?requests
import?bs4
import?os
import?datetime
import?time

def?fetchUrl(url):
????'''
????功能：访问?url?的网页，获取网页内容并返回
????参数：目标网页的?url
????返回：目标网页的?html?内容
????'''

????headers?=?{
????????'accept':?'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
????????'user-agent':?'Mozilla/5.0?(Windows?NT?10.0;?WOW64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/68.0.3440.106?Safari/537.36',
????}

????r?=?requests.get(url,headers=headers)
????r.raise_for_status()
????r.encoding?=?r.apparent_encoding
????return?r.text

def?getPageList(year,?month,?day):
????'''
????功能：获取当天报纸的各版面的链接列表
????参数：年，月，日
????'''
????url?=?'http://paper.people.com.cn/rmrb/html/'?+?year?+?'-'?+?month?+?'/'?+?day?+?'/nbs.D110000renmrb_01.htm'
????html?=?fetchUrl(url)
????bsobj?=?bs4.BeautifulSoup(html,'html.parser')
????temp?=?bsobj.find('div',?attrs?=?{'id':?'pageList'})
????if?temp:
????????pageList?=?temp.ul.find_all('div',?attrs?=?{'class':?'right_title-name'})
????else:
????????pageList?=?bsobj.find('div',?attrs?=?{'class':?'swiper-container'}).find_all('div',?attrs?=?{'class':?'swiper-slide'})
????linkList?=?[]

????for?page?in?pageList:
????????link?=?page.a["href"]
????????url?=?'http://paper.people.com.cn/rmrb/html/'??+?year?+?'-'?+?month?+?'/'?+?day?+?'/'?+?link
????????linkList.append(url)

????return?linkList

def?getTitleList(year,?month,?day,?pageUrl):
????'''
????功能：获取报纸某一版面的文章链接列表
????参数：年，月，日，该版面的链接
????'''
????html?=?fetchUrl(pageUrl)
????bsobj?=?bs4.BeautifulSoup(html,'html.parser')
????temp?=?bsobj.find('div',?attrs?=?{'id':?'titleList'})
????if?temp:
????????titleList?=?temp.ul.find_all('li')
????else:
????????titleList?=?bsobj.find('ul',?attrs?=?{'class':?'news-list'}).find_all('li')
????linkList?=?[]

????for?title?in?titleList:
????????tempList?=?title.find_all('a')
????????for?temp?in?tempList:
????????????link?=?temp["href"]
????????????if?'nw.D110000renmrb'?in?link:
????????????????url?=?'http://paper.people.com.cn/rmrb/html/'??+?year?+?'-'?+?month?+?'/'?+?day?+?'/'?+?link
????????????????linkList.append(url)

????return?linkList

def?getContent(html):
????'''
????功能：解析?HTML?网页，获取新闻的文章内容
????参数：html?网页内容
????'''
????bsobj?=?bs4.BeautifulSoup(html,'html.parser')

????#?获取文章?标题
????title?=?bsobj.h3.text?+?'\n'?+?bsobj.h1.text?+?'\n'?+?bsobj.h2.text?+?'\n'
????#print(title)

????#?获取文章?内容
????pList?=?bsobj.find('div',?attrs?=?{'id':?'ozoom'}).find_all('p')
????content?=?''
????for?p?in?pList:
????????content?+=?p.text?+?'\n'
????#print(content)

????#?返回结果?标题+内容
????resp?=?title?+?content
????return?resp

def?saveFile(content,?path,?filename):
????'''
????功能：将文章内容?content?保存到本地文件中
????参数：要保存的内容，路径，文件名
????'''
????#?如果没有该文件夹，则自动生成
????if?not?os.path.exists(path):
????????os.makedirs(path)

????#?保存文件
????with?open(path?+?filename,?'w',?encoding='utf-8')?as?f:
????????f.write(content)

def?download_rmrb(year,?month,?day,?destdir):
????'''
????功能：爬取《人民日报》网站?某年?某月?某日?的新闻内容，并保存在?指定目录下
????参数：年，月，日，文件保存的根目录
????'''
????pageList?=?getPageList(year,?month,?day)
????for?page?in?pageList:
????????titleList?=?getTitleList(year,?month,?day,?page)
????????for?url?in?titleList:

????????????#?获取新闻文章内容
????????????html?=?fetchUrl(url)
????????????content?=?getContent(html)

????????????#?生成保存的文件路径及文件名
????????????temp?=?url.split('_')[2].split('.')[0].split('-')
????????????pageNo?=?temp[1]
????????????titleNo?=?temp[0]?if?int(temp[0])?>=?10?else?'0'?+?temp[0]
????????????path?=?destdir?+?'/'?+?year?+?month?+?day?+?'/'
????????????fileName?=?year?+?month?+?day?+?'-'?+?pageNo?+?'-'?+?titleNo?+?'.txt'

????????????#?保存文件
????????????saveFile(content,?path,?fileName)

def?gen_dates(b_date,?days):
????day?=?datetime.timedelta(days?=?1)
????for?i?in?range(days):
????????yield?b_date?+?day?*?i

def?get_date_list(beginDate,?endDate):
????"""
????获取日期列表
????:param?start:?开始日期
????:param?end:?结束日期
????:return:?开始日期和结束日期之间的日期列表
????"""

????start?=?datetime.datetime.strptime(beginDate,?"%Y%m%d")
????end?=?datetime.datetime.strptime(endDate,?"%Y%m%d")

????data?=?[]
????for?d?in?gen_dates(start,?(end-start).days):
????????data.append(d)

????return?data

if?__name__?==?'__main__':
????'''
????主函数：程序入口
????'''
????#?输入起止日期，爬取之间的新闻
????beginDate?=?input('请输入开始日期:')
????endDate?=?input('请输入结束日期:')
????destdir?=?input("请输入数据保存的地址：")
????data?=?get_date_list(beginDate,?endDate)

????for?d?in?data:
????????year?=?str(d.year)
????????month?=?str(d.month)?if?d.month?>=10?else?'0'?+?str(d.month)
????????day?=?str(d.day)?if?d.day?>=10?else?'0'?+?str(d.day)
????????destdir?=?destdir??#?爬下来的文件的存储地方

????????download_rmrb(year,?month,?day,?destdir)
????????print("爬取完成："?+?year?+?month?+?day)
????????time.sleep(3)????????#?怕被封?IP?爬一爬缓一缓，爬的少的话可以注释掉

print("本月数据爬取完成！")

2、??注意：

①本爬虫只能爬取人民日报网页版上可查看的日期的内容，具体范围，参考原网站：http://paper.people.com.cn/rmrb

②开始日期和结束日期格式为：20200101 20200102（这样保存的是2020年1月1日的内容）

③由于反爬原因，本程序并不能保证每次都会顺利全部爬取下来，这个概率很小

3、其他方案

考虑到很多朋友对程序更小白，不习惯使用代码来操作。提供两种备选方案。

①、我已经将上述代码封装成了exe文件，在Windows电脑上可以直接运行这个爬虫，自主选择需要爬取的范围。

下载地址：https://nebula.lanzous.com/ieH5ijxmwub

②我已经把我爬取下来的人民日报txt文件打包分享了，每月更新一次，有需要的，可以直接下载使用。

下载地址：Github：https://github.com/caspiankexin/people-daily-crawler-date

二：对人民日报的内容进行数据提取

“语象观察”需要的数据非常简单，就是统计一个关键词在文章中出现了几次。难度再于“语象观察”分析的文章字数经常会在十万和百万级，关键词上百个，还得是对多个文件进行操作，传统方法无法应付。

1、准备关键词名单

关键词名单的准备一定程度上属于非技术难题，这里需要的是看你要统计文章中哪个词语出现的次数，可以是国家各级领导人的名单，也可以是要研究对比的政治性术语，名单的制作看个人需要制作。当然一些关键词名单还是需要爬虫来实现更加方便，但这不属于本项目的教学范围，不进行讨论。

我在这里准备了两个关键词名单来作说明：“中国省份名单.txt”,“外国政要名单.txt”，关键词名单内容格式为每行一个。如图所示：

通过python来实现“语象观察“自动化进阶版 - 文章图片

内容总结

以上是互联网集市为您收集整理的通过python来实现“语象观察“自动化进阶版全部内容，希望文章能够帮你解决通过python来实现“语象观察“自动化进阶版所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/613201.html

来源：【匿名】

【上一篇】练习：求字符串中最长的表达式，并计算结果--python实现【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【通过python来实现“语象观察“自动化进阶版】教程文章相关的互联网学习教程文章

Python：什么是进阶，如何进阶？

目录Python：什么是进阶，如何进阶？1. 什么是进阶？2. 如何进阶？3. 除此之外呢？Python：什么是进阶，如何进阶？1. 什么是进阶？一门编程语言的基础部分，往往非常简单。如果只考虑基本语法、数据类型、基本控制结构的话，大部分人应该一两天就学完 Python 了吧。之后，调用几个常用的库，写一些脚本，或者做爬虫，或者做数据分析，或者做一些其它自动化工作，就可以说已经入门了。那么，接下来呢？当我们问如何进阶的时候，我们...

python基础之函数进阶【代码】

假如有一个函数，实现返回两个数中的较大值：def my_max(x,y):m = x if x>y else yreturn mbigger = my_max(10,20)print(bigger)之前是不是我告诉你们要把结果return回来你们就照做了？可是你们有没有想过，我们为什么要把结果返回？如果我们不返回m，直接在程序中打印，行不行？来看结果：>>> def my_max(x,y): ... m = x if x>y else y ... >>> my_max(10,20) >>> print(m) Traceback (most recent call last):File "<stdin...

Python【day7】：Python学习(面向对象进阶、反射、socket介绍）【代码】【图】

面向对象进阶1、类变量和实例变量 # 一、变量 # 变量包括：实例变量和类变量， # 他们在定义和使用中有所区别，而最本质的区别是内存中保存的位置不同， # 实例变量属于对象 # 类变量属于类class Province(object):country = "中国"#类变量def__init__(self, name):self.name = name # 实例变量# 直接访问实例变量（实例名来调用） obj = Province(‘河北省‘) print(obj.name) #河北省# 直接访问类变量(类名来调用)print(Provinc...

python学习_day28_面向对象进阶【代码】

一、内置函数isinstance和issubclass1、isinstance()　　isinstance(obj,cls)检查obj是否是类 cls 的对象，类似type()。class Foo(object):pass obj = Foo() print(isinstance(obj, Foo)) #输出结果：Trueprint(isinstance(10,int)) #输出结果：True　　sinstance() 与 type() 区别：type() 不会认为子类是一种父类类型，不考虑继承关系。sinstance() 会认为子类是一种父类类型，考虑继承关系。class A:passclass B(A)...

python基础之函数进阶之函数作为返回值/装饰器【代码】

因为装饰器需要用到返回函数的知识，所以在这里将返回函数和装饰器合并讲解。什么是返回函数？我们知道，一个函数中return可以返回一个或者多个值，但其实，return不仅可以返回值，还可以返回函数。实例：def col(*arg):def sum():res_sum=0for i in arg:res_sum=res_sum+ireturn res_sumreturn sum a=col(1,2,3,4,5) print(a)<function col.<locals>.sum at 0x029102B8> #a=col(1,2,3,4,5) ==〉 #即a=sum,并且arg=(1,2,3,4,5)...

python进阶之类常用魔法方法和魔法属性【代码】

前言前面我们总结过了python的关键字、运算符、内置函数、语法糖等与python魔法方法之间的关系，现在我们更细一点，看看python的面向对象编程有哪些常用的魔法属性和魔法方法。魔法属性对于一个类，python定义了许多可用的魔法属性，有些每个类都默认存在，有些需要用户手动定义。__dict____dict__属性可以说是一个类最常用的属性之一了，它又分为类的__dict__属性和实例的__dict__属性。class Person(object):eye = 2hand = 2def ...

【跟我一起学Python吧】python with statement 进阶理解【图】

由于之前有一个项目老是要打开文件，然后用pickle.load(file)，再处理。。。最后要关闭文件，所以觉得有点繁琐，代码也不简洁。所以向python with statement寻求解决方法。在网上看到一篇文章：http://effbot.org/zone/python-with-statement.htm是介绍with 的，参考着例子进行了理解。如果经常有这么一些代码段的话，可以用一下几种方法改进：代码段：set thing uptry： do somethingexcept : handle exceptionfinally: ...

Python进阶-----property用法(实现了get，set，delete三种方法)【代码】

一、可以利用property对静态属性的进行修改操作，包括设置和删除属性　　1、调用静态属性===>在静态属性函数前先用@property；　　2、设置静态属性===>在静态属性函数前加上@静态属性函数名.setter，同时静态属性函数要加上value参数；　　3、删除静态属性===>在静态属性函数前加上@静态属性函数名.deleter。 1#方法一 2class Foo:3 @property4def A(self):5print(‘获取(get)属性时执行===‘)6 7 @A.setter8def...

Python 进阶（一）函数式编程简介

来自慕课网：简介：函数：function ,在入门课程已学函数式：functional，一种编程范式函数式编程是一种抽象计算的编程模式，函数≠函数式，好比：计算≠计算机原文：http://www.cnblogs.com/apple2016/p/5657698.html

【python进阶】并发编程-线程与进程【代码】【图】

并发编程-进程与线程什么是进程(process)？进程（process），是计算机中已运行程序的实体，是线程的容器；一个进程至少有一个线程假如有两个程序A和B，程序A在执行到一半的过程中，需要读取大量的数据输入（I/O操作），而此时CPU只能静静地等待任务A读取完数据才能继续执行，这样就白白浪费了CPU资源。是不是在程序A读取数据的过程中，让程序B去执行，当程序A读取完数据之后，让程序B暂停，然后让程序A继续执行？当然没问题，但这...

python进阶（18）@wraps装饰器【代码】

前言我们都知道装饰器的作用是在不改变原有的代码基础上，添加新的功能，但是这样会有一个弊端，被装饰的函数某些属性会变改变，接下来我们来看下案例import timedef run_time(func):def wrapper(*args, **kwargs):"""时间装饰器"""time1 = time.time()func(*args, **kwargs)time2 = time.time()cost_time = time2 - time1return f"函数花了{cost_time}秒"return wrapper@run_time def test():"""测试"""print([i for i in range...

python基础-面向对象（十三）面向对象进阶（一）：导入py文件自己，isinstance(obj,cls),issubclass(sub,super)，getattribute【代码】【图】

1.导入py文件自己x = 1 y = 2 import main as ojx #直接导入自己文件名print(‘==>‘, hasattr(ojx, ‘x‘))x = 1 y = 2 import sysobj1 = sys.modules[__name__] print(‘==>‘, hasattr(obj1, ‘x‘)) 2.isinstance(obj,cls)-是否是cls（或继承自cls的类）实例出来的对象3.issubclass(sub,super)-是否是子类4.__getattribute__前面学过getattr（obj，item）获取属性，__getattr__属性不存在的时候调用，现在又来个__getattribute...

PythonQt进阶【代码】

本文介绍PythonQt和qt之间是如何进行交互操作的例子是以Qt的TreeView为实例进行介绍在该例子中，TreeItem不是从Qt中进行的继承，这样的类如果要和Python进行交互，首先需要对其进行封装，class TreeItemWrapper : public QObject {Q_OBJECTpublic Q_SLOTS:TreeItem* new_TreeItem(const QList<QVariant> &data, TreeItem *parentItem) { return new TreeItem(data, parentItem); }void appendChild(TreeItem *o, TreeItem *child)...

[python]python进阶编程(3)-装饰器【代码】

说明前面我们提到了闭包的概念，闭包是python的一个重要特性，而装饰器是闭包的一个重要应用。闭包闭包即为返回值为函数的函数。示例程序如下所示：def num(num):def num_in(num2): return num + num2 return num_in #返回函数a = num(100) # a是一个函数。 b = a(100) # 110 。装饰器在一些需要对已有函数进行修改但是不改变原有函数功能场景中，比如对某个函数的运行进行计时，打log等，就需要用到装饰器函数了。无参装饰器无参...

Python编程的术与道：Python语言进阶【图】

课程链接：https://edu.51cto.com/course/22803.html本课程讲解Python语言高级用法的相关知识，兼顾Python编程的术(语言的知识点)与道(编程思维和程序设计方法)。课程特点：本课程采用Python3.7版本讲解，具体内容包括：30个Python进阶知识点、17个常用模块、文件与数据处理、并发编程、测试与优化、编程规范、Python之禅、软件设计策略与项目案例等。采用Jupyter Notebook讲解，图文并茂，讲述与代码对应。其文件分享给学员，可作...

首页 / PYTHON / 通过python来实现“语象观察“自动化进阶版

通过python来实现“语象观察“自动化进阶版

内容导读

内容图文

一：获取人民日报的数据

1、代码如下：

2、??注意：

①本爬虫只能爬取人民日报网页版上可查看的日期的内容，具体范围，参考原网站：http://paper.people.com.cn/rmrb

②开始日期和结束日期格式为：20200101 20200102（这样保存的是2020年1月1日的内容）

③由于反爬原因，本程序并不能保证每次都会顺利全部爬取下来，这个概率很小

3、其他方案

二：对人民日报的内容进行数据提取

1、准备关键词名单

内容总结

内容备注

内容手机端

【通过python来实现“语象观察“自动化进阶版】教程文章相关的互联网学习教程文章

Python：什么是进阶，如何进阶？

python基础之函数进阶【代码】

Python【day7】：Python学习(面向对象进阶、反射、socket介绍）【代码】【图】

python学习_day28_面向对象进阶【代码】

python基础之函数进阶之函数作为返回值/装饰器【代码】

python进阶之类常用魔法方法和魔法属性【代码】

【跟我一起学Python吧】python with statement 进阶理解【图】

Python进阶-----property用法(实现了get，set，delete三种方法)【代码】

Python 进阶（一）函数式编程简介

【python进阶】并发编程-线程与进程【代码】【图】

python进阶（18）@wraps装饰器【代码】

python基础-面向对象（十三）面向对象进阶（一）：导入py文件自己，isinstance(obj,cls),issubclass(sub,super)，getattribute【代码】【图】

PythonQt进阶【代码】

[python]python进阶编程(3)-装饰器【代码】

Python编程的术与道：Python语言进阶【图】

PYTHON - 相关标签

自动化 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程