首页 / PYTHON / Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2207字，纯文字阅读大概需要4分钟。

内容图文

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

日期：2020.01.27

博客期：135

星期一

　　【本博客的代码如若要使用，请在下方评论区留言，之后再用（就是跟我说一声）】

　　今天问了一下老师，信息领域热词从哪里爬，老师说是IT方面的新闻，嗯~有点儿意思了！

　　我找到了好多IT网站，但是大多数广告又多，名词也不专一针对信息领域，所以啊我就暂且用例一个相对还好的例子：

　　数据来源网址：https://news.51cto.com/（最终不一定使用此网站的爬取数据）

　　网站的相关热词来源截图：

技术分享图片

　　如图，“智能”、“技术”、“区块链”为爬取目标

　　进行爬取（因为每一次执行js都会加重爬取任务的负担），当你执行到第100次的时候，你现在要执行第101次的JS，它所消耗的时间大概是27s！所以，这种方法我就爬100次，得到5607条数据：

技术分享图片

　　爬取代码：

                 1
                import
                 parsel

                 2
                from urllib import request
 3import codecs
 4from selenium import webdriver
 5import time
 6 7# [ 对字符串的特殊处理方法-集合 ] 8class StrSpecialDealer:
 9    @staticmethod
10def getReaction(stri):
11         strs = str(stri).replace("","")
12         strs = strs[strs.find(‘>‘)+1:strs.rfind(‘<‘)]
13         strs = strs.replace("\t","")
14         strs = strs.replace("\r","")
15         strs = strs.replace("\n","")
16return  strs
1718class StringWriter:
19     filePath = ""20def__init__(self,str):
21         self.filePath = str
22pass2324def makeFileNull(self):
25         f = codecs.open(self.filePath, "w+", ‘utf-8‘)
26         f.write("")
27        f.close()
2829def write(self,stri):
30         f = codecs.open(self.filePath, "a+", ‘utf-8‘)
31         f.write(stri + "\n")
32        f.close()
333435# [ 连续网页爬取的对象 ]36class WebConnector:
37     profile = ""38     sw = ""39# ---[定义构造方法]40def__init__(self):
41         self.profile = webdriver.Firefox()
42         self.profile.get(‘https://news.51cto.com/‘)
43         self.sw = StringWriter("../testFile/info.txt")
44        self.sw.makeFileNull()
4546# ---[定义释放方法]47def__close__(self):
48        self.profile.quit()
4950# 获取 url 的内部 HTML 代码51def getHTMLText(self):
52         a = self.profile.page_source
53return a
5455# 获取页面内的基本链接56def getFirstChanel(self):
57         index_html = self.getHTMLText()
58         index_sel = parsel.Selector(index_html)
59         links = index_sel.css(‘.tag‘).extract()
60         num = links.__len__()
61print("Len="+str(num))
62for i in range(0,num):
63             tpl = StrSpecialDealer.getReaction(links[i])
64            self.sw.write(tpl)
6566def getMore(self):
67         self.profile.find_element_by_css_selector(".listsmore").click()
68         time.sleep(1)
6970def main():
71     wc = WebConnector()
72for i in range(0,100):
73print(i)
74        wc.getMore()
75    wc.getFirstChanel()
76     wc.__close__()
777879 main()

Director.py

　　之后再使用MapReduce进行次数统计，就可以了（还可以配合维基百科和百度百科获取（爬取）相关热词的其他信息）

原文：https://www.cnblogs.com/onepersonwholive/p/12236198.html

内容总结

以上是互联网集市为您收集整理的Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）全部内容，希望文章能够帮你解决Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1190584.html

来源：【匿名】

【上一篇】关于Python的那点吐槽【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）】教程文章相关的互联网学习教程文章

数据分析：PYTHON可以预测新冠病毒得病人数吗？

Python用几行程序，就可以做出线性回归分析。线性回归方程，利用数理统计中的回归分析，来确定两种或两种以上变数间相互依赖的定量关系。方程其实是中学数学课程内容。用此方法根据已知数据推测未来数据，一般不易让人接受。要知道未来有很多变化因素。但近期新冠病毒，用此方法预测未来可能的得病人数，却也不得不惊叹这个方程，也是可以借鉴的。根据Python分析英国病例的数据，推测出死亡人数基本每三天就要翻倍。看下表，由此推...

python数据分析之NUMPY基础01

以下操作都需要导入numpy模块（没有该模块的需要安装）from numpy import *创建数组：创建一维数组：>>>a=arange(5) 此时a就是一维数组。创建多维数组：>>>a=array([[1,2,3],[4,5,6]]) 此时a就是二维数组获取数组的数据类型：Numpy数组一般是同质的，即数组中所有元素类型必须是一致的。>>>a.dtypedtype(int32)确定数组的维数：>>>aarray(0,1,2,3,4)>>>a.shape(5,)shape返回一个元组，元组的元素即为numpy数组中每一个维度上的大...

python3 利用xlrd,xlwt编写一个简单的数据分析程序【代码】

python3 利用xlrd,xlwt编写一个简单的数据分析程序：简单需求根据“待分析文件"中第一个sheet中的id值集合过滤第二个sheet中的对应列id的单元格值相等的行，并且将这些行输出到“分析结果文件”待分析文件-sheet1id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 待分析文件-sheet2id name other 1 xxxx 3 2 xxxx 4 3 xxxx 5 4 xxxx 6 5 xxxx 7 6 xxxx 8 7 xxxx 9 8 xxxx 10 9 xxxx 11 10 x...

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）【代码】【图】

日期：2020.01.27博客期：135星期一　　【本博客的代码如若要使用，请在下方评论区留言，之后再用（就是跟我说一声）】　　今天问了一下老师，信息领域热词从哪里爬，老师说是IT方面的新闻，嗯~有点儿意思了！　　我找到了好多IT网站，但是大多数广告又多，名词也不专一针对信息领域，所以啊我就暂且用例一个相对还好的例子：　　数据来源网址：https://news.51cto.com/（最终不一定使用此网站的爬取数据）　　网站的相关热词来源...

利用python数据分析panda学习笔记之基本功能【代码】【图】

1 重新生成索引如果某个索引值不存在就引入缺失值1from pandas import Series,DataFrame 2 import pandas as pd 3 import numpy as np 4 obj=Series([4.5,7.2,-5.3,3.6],index=[‘d‘,‘b‘,‘a‘,‘c‘]) 5obj 67#重新生成索引 8 obj2=obj.reindex([‘a‘,‘b‘,‘c‘,‘d‘,‘e‘]) 9 obj2　a使用method的ffill可以实现前向值填充，效果如下1#前向填充 2 obj3=Series([‘blue‘,‘purple‘,‘yellow‘],index=[0,2,4]) 3 obj3.r...

python数据分析(三)【图】

数据分析处理库（Pandas） pandas是数据处理及分析的，底层计算由Numpy来完成，将复杂的操作封装起来，使其用起来十分高效、简洁。 import pandas as pd数据预处理df = pd.read_csv(‘../data/Titanic-dataset-master/df.csv‘) df.head () df.tail() df.info() df是Pandas工具包中最常见的基础结构 df.index //索引 df.columns ...

【学习笔记】PYTHON数据分析与展示(北理工嵩天)【代码】【图】

0 数据分析之前奏课程主要内容：常用IDE：本课程主要使用：AnacondaAnaconda：一个集合，包括conda、某版本Python、一批第三方库等 -支持近800个第三方库 -适合科学计算领域 -包含多个主流工具 -开源免费 -跨平台本身不是个ide 是将多个工具集成在一起的conda -一个工具，用于包管理和环境管理 -包管理与pip类似，管理Python第三方库 -环境管理能够允许用户使用不同版本的Python，并能灵活切换conda将工具、第三方库、Pyth...

萌新向Python数据分析及数据挖掘第一章 Python基础第三节列表简介第四节操作列表【代码】【图】

第一章 Python基础第三节列表简介列表是是处理一组有序项目的数据结构，即可以在一个列表中存储一个序列的项目。列表中的元素包括在方括号（[]）中，每个元素之间用逗号分割。列表是可变的数据类型，可以添加、删除或是搜索列表中的元素。列表可以理解为你用铅笔在笔记本里记录内容，内容可以修改，每一行用逗号隔开。 3.1访问元素访问列表元素可以通过索引方括号的形式，记住，索引从0而不是1开始！代码：1 shoplist = [‘appl...

python进行数据分析groupby基础操作

from pandas import Series,DataFrameimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npdf = DataFrame({‘key1‘ : [‘a‘, ‘a‘, ‘b‘, ‘b‘, ‘a‘],‘key2‘ : [‘one‘, ‘two‘, ‘one‘, ‘two‘, ‘one‘], ‘data1‘ : np.random.randn(5),‘data2‘ : np.random.randn(5)})grouped=df[‘data1‘].groupby(df[‘key1‘])grouped.mean()means = df[‘data1‘].groupby([df[‘key1‘], df[‘key2‘...

《python数据分析基础》之描述性统计与建模【代码】【图】

1、数据集红葡萄酒数据集：http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv白葡萄酒数据集：http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv红葡萄酒文件中包含1599条观测，白葡萄酒文件包含4898条观测。输入变量是葡萄酒的物理化学成分和特性，包括非挥发性酸、挥发性酸、柠檬酸、残余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、...

python数据分析之pandas库的DataFrame应用【代码】【图】

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔型）。DateFrame既有行索引也有列索引，可以被看作为由Series组成的字典。构建DataFrame：1.1、直接传入一个由等长列表或numpy数组组成的字典‘‘‘ Created on 2016-8-10 @author: xuzhengzhu ‘‘‘from pandas import *data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,20...

[学习笔记] [数据分析] 01.Python入门【图】

1、安装Python与环境配置①② 安装pip以及利用pip安装Python库 2、Anaconda安装 conda list 要在root环境下3、常用数据分析库① Numpy安装：conda install numpy （conda在Anaconda上安装，pip则是在本地上安装）提供常用的数值、数组、矩阵函数。基于“向量化”的运算，进行数值运算时比list高。② Scipy安装：conda install scipy是一种使用NumPy来做高等数学、信号处理、优化、统计的扩展包③ Pandas安装：conda install panda...

利用python进行数据分析-04-numpy基础【代码】【图】

1、线性代数矩阵乘法 dot 函数x= np.array([[1,2,3],[4,5,6]])y=np.array([[6,23],[-1,7],[8,9]])x Out[16]: array([[1, 2, 3],[4, 5, 6]])y Out[17]: array([[ 6, 23],[-1, 7],[ 8, 9]])x.dot(y) Out[18]: array([[ 28, 64],[ 67, 181]])一个二维数组跟一个大小合适的一维数组的矩阵点积运算之后将会得到一个一维数组。np.dot(x,np.ones(3)) Out[19]: array([ 6., 15.]) numpy.linalgfrom numpy.linalg import inv,qr x ...

基于python的大数据分析基本知识【代码】

1. 数据科学领域中常用的python库Numpy库：数据运算的基础库，运行效率高(底层C语言，高效index)Scipy库：实现了常用的科学计算方法(线性代数，傅里叶变换，信号和图像处理)Pandas库：分析数据的利器，高级数据结构(Series，DataFrame)Matplotlib库：绘图功能(散点，曲线，柱形)2. Anaconda的使用说明介绍：著名的python数据科学平台，开源，跨平台。包含有流行的python和R的包。下载地址：https://www.anaconda.com/download/Jupy...

python3数据分析,安装学习

为了简单。安装 anaconda3 就好啦。因为安装原版python3，用pip安装matplotlib之类的包，很容易出错，并且网速很慢。所以找 anaconda3就好了。国外官网，下载速度慢。可以去国内的镜像站。https://mirrors.tuna.tsinghua.edu.cn/ 点击 "anaconda" 那行后面的问号"?"，查看说明。查看Anaconda3-2019.07-Windows-x86_64.exe (2019-09-27更新)的下载地址。exe安装包490MB，装完占用硬盘约2.2GB. 缺点就是挺大的。优点就是包挺全的。...

首页 / PYTHON / Python 爬取 热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

Python 爬取 热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python 爬取 热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）】教程文章相关的互联网学习教程文章

数据分析 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程

首页 / PYTHON / Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

【Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）】教程文章相关的互联网学习教程文章