首页 / 爬虫 / 哔哩哔哩热榜爬虫程序及数据处理

哔哩哔哩热榜爬虫程序及数据处理

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了哔哩哔哩热榜爬虫程序及数据处理，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含7927字，纯文字阅读大概需要12分钟。

内容图文

哔哩哔哩热榜爬虫程序及数据处理

完整的代码与结果在最下面

一、设计方案

1.爬虫的目标是哔哩哔哩排行榜上视频的信息（https://www.bilibili.com/ranking/all/0/1/7）

2.爬取的内容包括网页上显示的所有内容，有排名标题，播放量，弹幕数，up，得分以及视频的url

技术分享图片

3.设计方案：根据作业的要求，制作爬虫程序爬取信息并进行数据处理，整个程序分成四个部分，包括数据爬取：（get_rank），数据清洗与处理：（rubbish），文本分析生成词云：（message），数据分析与可视化：（watch）四个部分，所用到的库有request,BeautifulSoup,csv,collections,jieba,io,wordcloud,matplotlib。使用的IDE为anaconda环境配置的pycharm

技术分享图片

设计难点：难点主要在数据处理方面，因为哔哩哔哩排行榜上爬取到的数据全都不是单纯的数字，所以在数据处理时遇到了许多问题，这方面查找资料的时间也最长

二、主题页面的结构特征分析

通过观察网页代码，发现排行榜上的每一个视频的标签为li，类名为rank-item，并且我们通过len函数打印提取到的数量也正好100符合排行榜的视频量，所以我们可以在当中继续得到视频其他信息的属性，在代码中都有注释。

技术分享图片

三、网络爬虫程序设计

# 代码中注释部分的print都是为了调试用的

1.数据爬取（get_rank)

在保存数据部分用了self函数创建数据对象来将数据读入video对象中并且放在一个列表里，最后保存在csv文件中

结果:

技术分享图片

2.数据清洗与处理（rubbish）

这一部分遇到了几个小问题，包括pycharm控制窗的输出结果不会显示所有数据，以及数据的编码问题，都在网上找到解决的方法，最后将清洗过的数据保存为xls文件

技术分享图片

3.文本分析生成词云：（message）

文本分析，包括使用jieba库进行分词和wouldcould生成词云，先用列的标题进行查询，读取标题所在的那一列保存在txt文档中，然后使用jieba库进行分词，使用wouldcould制作词云保存成图片

jieba库分词结果：

技术分享图片

保存结果：

技术分享图片

4.数据分析与可视化：（watch）

数据分析与可视化，包括绘制折线图，柱形图，直方图，散点图

结果：

技术分享图片

完整代码:

              1
            import csv

              2
            import requests

              3
            from
             bs4 import BeautifulSoup

              4 import pandas as pd
  5from collections import OrderedDict
  6import jieba
  7import io
  8from scipy.optimize import leastsq
  9from wordcloud import WordCloud
 10 import matplotlib.pyplot as plt
 11 12 13# 注释部分的print都是为了调试用的
 14 15def get_rank():  # 数据爬取与采集
 16try:
 17        # 发起网络请求
 18         url = ‘https://www.bilibili.com/ranking/all/0/1/7‘ 19         response = requests.get(url)
 20         html_text = response.text
 21         soup = BeautifulSoup(html_text, ‘html.parser‘)
 22 23        # 用来保存视频信息的对象
 24class Video:
 25            def __init__(self, rank, title, point, visit, review, up, url):
 26                 self.rank = rank
 27                 self.title = title
 28                 self.point = point
 29                 self.visit = visit
 30                 self.review = review
 31                 self.up = up
 32                 self.url = url
 33def to_csv(self):
 34return [self.rank, self.title, self.point, self.visit, self.review, self.up, self.url]
 35 36            # 使用静态方法
 37            @staticmethod
 38            def csv_title():
 39return [‘排名‘, ‘标题‘, ‘分数‘, ‘播放量‘, ‘弹幕数‘, ‘UP‘, ‘URL‘]
 40 41        # 提取列表
 42         items = soup.find_all(‘li‘, {‘class‘: ‘rank-item‘})
 43         videos = []  # 保存提取出来的video
 44for itm in items:
 45             title = itm.find(‘a‘, {‘class‘: ‘title‘}).text  # 标题
 46             point = itm.find(‘div‘, {‘class‘: ‘pts‘}).text  # 综合得分
 47             rank = itm.find(‘div‘, {‘class‘: ‘num‘}).text  # 排名
 48             visit = itm.find(‘span‘, {‘class‘: ‘data-box‘}).text  # 播放量
 49             review = itm.find_all(‘span‘, {‘class‘: ‘data-box‘})[1].text  # 弹幕数
 50             up = itm.find_all(‘span‘, {‘class‘: ‘data-box‘})[2].text  # up
 51             url = itm.find(‘a‘, {‘class‘: ‘title‘}).get(‘href‘)  # 获取链接
 52             v = Video(rank, title, point, visit, review, up, url)
 53            videos.append(v)
 54        # 保存
 55         file_name = f‘top100.csv‘ 56         with open(file_name, ‘w‘, newline=‘‘) as f:
 57             pen = csv.writer(f)
 58            pen.writerow(Video.csv_title())
 59            # 导出数据到csv文件中
 60for v in videos:
 61                pen.writerow(v.to_csv())
 62         print(‘保存csv成功‘)
 63    except:
 64return"保存csv失败" 65 66 67def rubbish():  # 对数据进行清洗和处理
 68try:
 69        # pycharm控制窗的输出结果不会显示所有数据，所以在网上得到加入这三行代码进行解决方便查看结果
 70        # 加了这一行那表格的一行就不会分段出现了
 71         pd.set_option(‘display.width‘, 1000)
 72        # 显示所有列
 73         pd.set_option(‘display.max_columns‘, None)
 74        # 显示所有行
 75         pd.set_option(‘display.max_rows‘, None)
 76        # 对齐输出结果
 77         pd.set_option(‘display.unicode.ambiguous_as_wide‘, True)
 78         pd.set_option(‘display.unicode.east_asian_width‘, True)
 79 80         # 使用‘utf-8’会报错，使用其他解码会乱码，最终在网上得到了答案：‘在后面加入指定编译器为python即可’
 81        # 将csv格式数据写入到excel中
 82         df = pd.read_csv(‘top100.csv‘, engine=‘python‘, error_bad_lines=False)  # 当某行数据有问题时，不报错，直接跳过，处理脏数据时使用
 83        # print(df)   #输出csv表格中结果
 84         data = OrderedDict()  # 有序字典
 85        # print(df.columns)     #列名
 86        # 构建excel格式
 87for line in list(df.columns):
 88             data[line] = list(df[line])
 89         obj = pd.DataFrame(data)
 90         obj.to_excel(‘top100.xls‘, index=False)
 91        # 查看统计信息，设置参数buf来存储字符串使数据不打印出来
 92         buf = io.StringIO()
 93         df.info(buf=buf)
 94         s = buf.getvalue()
 95        print(s)
 96         print(‘保存xls成功‘)
 97    except:
 98return"保存xls失败" 99100101rubbish()
102103104def message():  # 文本分析，包括使用jieba库进行分词和wouldcould生成词云
105try:
106        # 用DictReader读取csv的某一列，用列的标题查询
107         with open(‘top100.csv‘, ‘rt‘) as csvfile:
108             reader = csv.DictReader(csvfile)
109             column = [row[‘标题‘] for row in reader]
110        # print(column)
111        # 将标题列保存到txt文件中
112         file = open(‘top100标题.txt‘, ‘w‘)
113        file.write(str(column))
114        # 关闭文件
115        file.close()
116         print(‘保存txt成功‘)
117    except:
118return"保存txt失败"119120try:
121        # 使用jieba库进行中文分词
122         final = ""123        # 文件夹位置
124         filename = r"top100标题.txt"125        # 打开文件夹，读取内容，并进行分词
126         with open(filename, ‘r‘, encoding=‘gb18030‘) as f:
127for line in f.readlines():
128                 word = jieba.cut(line)
129for i in word:
130                     final = final + i + ""131        # print(final)
132         print(‘jieba分词成功‘)
133    except:
134return‘jieba分词失败‘135136try:
137        # 使用worldcould制作词云
138        # 打开文本
139         text = open(‘top100标题.txt‘).read()
140        # 生成对象
141         wc = WordCloud(font_path=‘C:\Windows\Fonts\simfang.ttf‘,
142                        width=800,
143                        height=600,
144                        mode=‘RGBA‘,
145                        background_color=None).generate(text)
146        # 显示词云
147         plt.imshow(wc, interpolation=‘bilinear‘)
148         plt.axis(‘off‘)
149        plt.show()
150        # 保存到文件
151         wc.to_file(‘标题词云.png‘)  # 生成图像是透明的
152         print(‘保存词云成功‘)
153    except:
154return‘保存词云失败‘155156157message()
158159160def watch():  # 数据分析与可视化，包括绘制折线图，柱形图，直方图，散点图
161try:
162        # 获得绘图数据
163         point = pd.read_csv(‘top100.csv‘, engine=‘python‘)
164        # print(data.isnull().sum)
165# 将字符串数据进行去除替换
166         rank = point[‘排名‘]
167        # print(rank)
168         points = point[‘分数‘].map(lambda x: int(x.replace(‘综合得分‘, ‘‘)))
169        # print(points)
170        # 用来正常显示中文标签
171         plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘]
172        # 用来正常显示负号
173 plt.rcParams[‘axes.unicode_minus‘] = False
174         print(‘获取绘图数据成功‘)
175    except:
176return‘获取数据失败‘177178try:
179        # 根据数据绘制折线图
180        plt.plot(rank,
181                 points,
182                  c=‘red‘,
183                  alpha=0.5)
184        # 绘图表区域着色
185        plt.fill_between(rank,
186                         points,
187 facecolor=‘blue‘,
188                          alpha=‘0.2‘)
189        # 设置图形的格式
190         plt.title(‘top100综合热度得分折线图‘,
191                   fontsize=24)
192         plt.xlabel(‘排名‘,
193                    fontsize=24)
194         plt.ylabel(‘热度得分‘,
195                    fontsize=12)
196        # 参数刻度线样式设置
197         plt.tick_params(axis=‘both‘,
198                         which=‘major‘,
199                         labelsize=10)
200# 保存图片
201         plt.savefig(fname="top100综合热度得分折线图.png",
202                     figsize=[10, 10])
203        # 显示折线图
204        plt.show()
205         print(‘折线图保存成功‘)
206    except:
207return‘折线图保存失败‘208209try:
210        # 根据数据绘制柱形图
211        # 创建基础图
212 fig = plt.figure()
213        # 在基础图上仅绘制一个图，括号中的三个参数代表基础图中的统计图布局，参数一次代表：图的行数量、图的列数量、第几个图。本例中，为1行1列，第一个图
214 bar1 = fig.add_subplot(1, 1, 1)
215        # 绘制柱形图,align表示条形与标签中间对齐。
216        bar1.bar(rank,
217                 points,
218                  align=‘center‘,
219                  color="blue")
220        # 设置x、y轴标签
221         plt.xlabel("排名")
222         plt.ylabel("热度得分")
223        # 设置统计图标题
224         plt.title("top100综合热度得分柱形图")
225        # 保存图片
226         plt.savefig(fname="top100综合热度得分柱形图.png",
227 figsize=[10, 10])
228        # 显示统计图
229        plt.show()
230         print(‘柱形图保存成功‘)
231    except:
232return‘柱形图保存失败‘233234try:
235        # 绘制直方图
236        # 绘制基础图
237         fig = plt.figure()
238         hist1 = fig.add_subplot(1, 1, 1)
239        # 绘制直方图
240         # bins=50 表示每个变量的 值应该被分成 50 份。normed=False 表示直方图显示的是频率分布
241  hist1.hist(points,
242                          bins=50,
243                    color="blue",
244                    density=False)
245        # 确定坐标轴位置
246         hist1.xaxis.set_ticks_position("bottom")
247         hist1.yaxis.set_ticks_position("left")
248        # 设置坐标轴标签
249         plt.xlabel("热度得分")
250         plt.ylabel("人数")
251        # 设置标题
252         plt.title("top100综合热度得分直方图")
253        # 保存图片
254         plt.savefig(fname="top100综合热度得分直方图.png", figsize=[10, 10])
255        # 显示图形
256        plt.show()
257         print(‘直方图保存成功‘)
258    except:
259return‘直方图保存失败‘260try:
261        # 绘制散点图
262         fig = plt.figure()
263         scatter1 = fig.add_subplot(1, 1, 1)
264        # 导入数据
265        scatter1.scatter(rank, points)
266        # 确定坐标轴位置
267         scatter1.xaxis.set_ticks_position(‘bottom‘)
268         scatter1.yaxis.set_ticks_position(‘left‘)
269        # 设置坐标轴标签
270         plt.xlabel("排名")
271         plt.ylabel("热度得分")
272        # 设置图表标题
273         plt.title("top100综合热度得分散点图")
274        # 保存图片
275         plt.savefig(fname="top100综合热度得分散点图.png",
276                     figsize=[10, 10])
277# 显示图形
278plt.show()
279         print(‘散点图保存成功‘)
280    except:
281return‘散点图保存失败‘282283284 watch()

运行结果:

技术分享图片

四、结论

通过爬虫程序的制作，认识到利用爬虫程序可以做到很多很酷的事情，能够通过爬虫爬取信息并运用其他库处理信息对工作效率的提升是多么的大，提高了自己对python的兴趣，坚定了认真学习的目标。但制作过程中仍有不足之处，今后会加强学习，多向老师同学请教，不断完善改进。

原文：https://www.cnblogs.com/libao123/p/15228822.html

内容总结

以上是互联网集市为您收集整理的哔哩哔哩热榜爬虫程序及数据处理全部内容，希望文章能够帮你解决哔哩哔哩热榜爬虫程序及数据处理所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1201916.html

来源：【匿名】

【上一篇】爬虫（二）urllib库数据挖掘【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【哔哩哔哩热榜爬虫程序及数据处理】教程文章相关的互联网学习教程文章

【Python爬虫学习笔记12】Ajax数据爬取简介【图】

有时候在我们设计利用requests抓取网页数据的时候，会发现所获得的结果可能与浏览器显示给我们的不一样：比如说有的信息我们通过浏览器可以显示，但一旦用requests却得不到想要的结果。这种现象是因为我们通过requests获得的都是HTML源文档，而浏览器中见到的页面数据都是经过JavaScript处理的，而这些处理的数据可能是通过Ajax加载、本身包含于HTML中或是经过JavaScript自动生成。由Web发展趋势来看，越来越多的网页都通过Ajax加载...

爬虫（二）urllib库数据挖掘【代码】【图】

爬虫（二）urllib库数据挖掘1、第一个爬虫 1from urllib import request2 3 url = r‘http://www.baidu.com‘ 4 5# 发送请求,获取 6 response = request.urlopen(url).read()7 8# 1、打印获取信息 9print(response) 1011# 2、打印获取信息的长度12print(len(response)) 2、中文处理 1# 数据清洗，用【正则表达式】进行数据清洗 2from urllib import request3import re # 正则表达式模块 4 5 url = r‘http://www.baidu.com‘ 6 ...

哔哩哔哩热榜爬虫程序及数据处理【代码】

哔哩哔哩热榜爬虫程序及数据处理完整的代码与结果在最下面一、设计方案 1.爬虫的目标是哔哩哔哩排行榜上视频的信息（https://www.bilibili.com/ranking/all/0/1/7） 2.爬取的内容包括网页上显示的所有内容，有排名标题，播放量，弹幕数，up，得分以及视频的url3.设计方案：根据作业的要求，制作爬虫程序爬取信息并进行数据处理，整个程序分成四个部分，包括数据爬取：（get_rank），数据清洗与处理：（rubbish），文本分析生成...

python | 爬虫笔记（六）- Ajax数据爬取

request得到和浏览器数据不同数据加载是异步加载方式，原始页面不包含数据，加载完后会会再向服务器请求某个接口获取数据，然后数据再被处理才呈现到网页上，这其实就是发送了一个 Ajax 请求。这样Web 开发上可以做到前后端分离，而且降低服务器直接渲染页面带来的压力。因此遇到这种情况，用requests模拟ajax请求6.1 Ajax 1- 介绍Ajax，全称为 Asynchronous JavaScript and XML，即异步的 JavaScript 和 XML。是利用 JavaScript 在...

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

scrapy爬虫框架调用百度地图api数据存入数据库【代码】【图】

scrapy安装配置不在本文提及，1.在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令scrapy startproject mySpider其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，目录结构大致如下：下面来简单介绍一下各个主要文件的作用：scrapy.cfg ：项目的配置文件mySpider/ ：项目的Python模块，将会从这里引用代码mySpider/items.py ：项目的目标文件mySpider/pipelines.py ：项目的...

新浪明星日志推荐系统——爬虫爬取数据（2）【图】

由于之前的改造，现在将爬虫的功能做了一些改变，具体实现的功能是将推荐的日志全部抓取下来，并存放在以文章标题命名的文件中，代码如下：import urllibimport os,reimport sysfrom bs4 import BeautifulSoupreload(sys)sys.setdefaultencoding("utf-8")def if_str(str_t):if re.search(r"^.*[a-zA-Z].*",str_t)== None:print " saf"def get_blog(url):page = urllib.urlopen(url).read()if len(page)!=0:if BeautifulSoup(page)....

WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库（二）【图】

关于一些基本内容可查看上一篇博客：http://blog.csdn.net/u013082989/article/details/51176073一、首先看一下爬虫的内容：（1）学科类型、课程、课程对应章节、课程对应参考教材（主要是要将课程章节对应到上一级爬取的课程上，还有就是课程教材的爬取比较麻烦，下面会讲到）课程章节：课程教材教材内容二、实体类的设计：（1）课程类、课程对应章节类（一对多），课程对应教材类（一对多），关于hibernate映射文件就不说明了。三...

nodejs爬虫数据抓取 -- 问题总结【图】

一返回的信息提示 Something went wrong request模块请求出现未知错误其中，所用代码如下（无User-Agent部分）问题多次派查无果，包括：　　1：postman请求正常　　2. curl 请求正常　　解决办法：为请求添加user-agent头，如取消上注释部分。（我发现，只要有了user-agent这个key,无论其value是否为空，都可以正常返回了）所以对于模拟请求，有时候相应的http头部信息还是必须的。原文：http://www.cnblogs.com/imwtr/p/4679...

Python3爬虫爬取淘宝商品数据【代码】

这次的主要的目的是从淘宝的搜索页面获取商品的信息。其实分析页面找到信息很容易，页面信息的存放都是以静态的方式直接嵌套的页面上的，很容易找到。主要困难是将信息从HTML源码中剥离出来，数据和网页源码结合的很紧密，剥离数据有一定的难度。然后将获取的信息写入excel表格保存起来，这次只爬取了前面10页的内容。在运行代码的过程中发现，30页后面的数据有问题，出现了手机价格为0的情况，这是不符合实际的，码也没有写错误处...

python爬虫12--文件存储之非关系型数据库存储Redis【代码】

1.Redis连接启动服务：cd redis的安装路径------>redis-server.execd redis的安装路径------>redis-clipython中连接redis：#第一种连接from redis import StrictRedis redis = StrictRedis(host=‘localhost‘,port=6379,db=0) #第二种连接from redis import StrictRedis,ConnectionPool pool = ConnectionPool(host=‘localhost‘,port=6379,db=0) redis = StrictRedis(connection_pool=pool) redis.set(‘name‘,‘bob‘) print(...

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / 哔哩哔哩热榜爬虫程序及数据处理

哔哩哔哩热榜爬虫程序及数据处理

内容导读

内容图文

内容总结

内容备注

内容手机端

【哔哩哔哩热榜爬虫程序及数据处理】教程文章相关的互联网学习教程文章

【Python爬虫学习笔记12】Ajax数据爬取简介【图】

爬虫（二）urllib库数据挖掘【代码】【图】

哔哩哔哩热榜爬虫程序及数据处理【代码】

python | 爬虫笔记（六）- Ajax数据爬取

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

scrapy爬虫框架调用百度地图api数据存入数据库【代码】【图】

新浪明星日志推荐系统——爬虫爬取数据（2）【图】

WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库（二）【图】

nodejs爬虫数据抓取 -- 问题总结【图】

Python3爬虫爬取淘宝商品数据【代码】

python爬虫12--文件存储之非关系型数据库存储Redis【代码】

网络爬虫采集数据几个问题

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据【代码】【图】

互联网金融爬虫怎么写－第四课雪球网股票爬虫（单页面多数据）【图】

数据 - 相关标签

程序 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程