python爬取微博热门话题榜

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python爬取微博热门话题榜，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5883字，纯文字阅读大概需要9分钟。

内容图文

前言

python的爬虫应该是比较火热的，趁着国庆闲来无事，爬取一下微博热搜榜，也算是把之前用过的爬虫在博客简单的温习和记录一下。

爬虫定义

引用自维基百科

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

爬虫策略

选择策略
- 要爬取的url
- 页面元素
- 页面的链接
重新访问的策略
- 网站更新
- 页面变化
过度访问
- 爬虫和反爬虫
- IP代理池
- 访问次数
- robos.txt协议
并行策略
- 多线程运行爬虫
- 同一页面的重复爬取

python爬虫

获取数据

基本概念罗列完成了，我们就需要一个实战来简单的体验一下爬虫，思来想去，最后选择微博热点事件，进行数据爬取，实现一个简单的爬虫。

微博热点榜单网址：https://s.weibo.com/top/summary，打开网址看看

python爬取微博热门话题榜 - 文章图片

这就是一个简单的排行榜，我们将在这个页面进行一次爬虫，首页我们对这个页面需要进行一个分析，我们需要爬取那些数据。

我们可以看到箭头所指的部分，分为以下三种：

热点内容，热点浏览次数，热点类型

我们将对这三个数据进行获取，那么怎么获取呢，我们来看看

python有一个很方便的库，可以对网页的内容进行获取，requests库

pip install requests

我们先试试获取一下

python爬取微博热门话题榜 - 文章图片

可以看到三行代码，我们就获取到了微博热搜榜的网页内容。

内容获取到了，我们需要对HTML内容进行解析，获取到我们想要的内容。

解析数据有很多的方式，比如正则表达式，字符串，beautifulsoup4等

在这里我们选择beautifulsoup4去进行解析，主要是方便易用。

解析网页数据

安装beautifulsoup4解析HTML文档的库
```
 pip install beautifulsoup4
```
安装lxml解析库
```
pip install lxml
```

beautifulsoup4常见的解析库和优缺点

解析器	使用方法	优势	劣势
Python标准库	`BeautifulSoup(markup, "html.parser")`	1.Python的内置标准库 2.执行速度适中 3.文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	`BeautifulSoup(markup, "lxml")`	1.速度快 2.文档容错能力强	需要安装C语言库
lxml XML 解析器	`BeautifulSoup(markup, ["lxml-xml"])` `BeautifulSoup(markup, "xml")`	1.速度快 2.唯一支持xml的解析器	需要安装C语言库
html5lib	`BeautifulSoup(markup, "html5lib")`	1.最好的容错性 2.以浏览器的方式解析文档 3.生成HTML5格式的文档	1. 速度慢 2.不依赖外部扩展

beautifulsoup4的安装已经介绍完了，获取到数据之后我们要进行的就是解析数据了。

我们先看看文档 https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/，里面有详细的说明教程。我们就不一一列举了。

这里只选择我们这次使用的进行简单的说明，在说明之前我们首先先用chrome看看我们需要解析那些数据：

python爬取微博热门话题榜 - 文章图片

使用F12开发者工具查看之后我们所需要的数据就在箭头所指的部分。

这个一个HTML表格，我们需要获取所有的tr节点里面的这三个文本，一起来吧。

生成解析对象
```
soup = BeautifulSoup(htmls, 'lxml')
```

获取tag信息

ranks = soup.find_all('td', class_='td-01 ranktop')
tags = soup.find_all('td', class_='td-02')

获取文本信息
```
ranks.string
```
获取子节点的tag信息
```
tags.a
```

好了我们所能用到的就是这些了。刚才数据已经获取到了，我们一起来看看，解析后的数据。

def analysis(self):
    """提取数据"""
    results = []
    htmls = self.get_html()
    soup = BeautifulSoup(htmls, 'lxml')
    ranks = soup.find_all('td', class_='td-01 ranktop')
    tags = soup.find_all('td', class_='td-02')
    hots = soup.find_all('td', class_='td-03')
    for rank, tag, hot in zip(ranks, tags, hots):
        results.append(
            (rank.string if rank else 0,
             tag.a.string,
             tag.span.string if tag.span else 9999999,
             hot.i.string if hot.i else ''))
    return results

我们分别通过三个find_all方法获取到所有的文本，然后通过zip方法把每一组放在各自的列表中。

数据排序

在这个里面添加的数据是按照正常的顺序排列的，但是我的不想把数据按照正序排列，我希望能按照倒序排列，就是浏览次数少的在前面。应该怎么实现呢，我们需要借助python的sorted方法进行一次倒序排列。

def __sort(self):
    result = self.analysis()
 	return sorted(result, key=lambda x: int(x[2]), reverse=False)  # 反向排序

通过sorted方法并指定阅读数量为排序的key，我们实现了倒序的排列。

展示数据

数据也获取到了，也进行排序了我们接下来就需要对获取的数据进行一个展示了。

我们需要把数据展示一种好看的形式，比如下面这种：

python爬取微博热门话题榜 - 文章图片

想要实现下面这种自己写的话比较麻烦，我们可以中python的第三方库prettytable，来实现这个表格打印。

首先我们安装一下。

pip install prettytable

然后编写展示数据的代码：

from prettytable import PrettyTable


tb = PrettyTable()
sorts_data = self.__sort()
tb.field_names = '排名,热点话题,阅读数,热点类型'.split(',')
for i in sorts_data:
    tb.add_row(i)
print(tb)

然后我们执行，很快执行结果出来了，结果打印出来了，但是却报错了。

RecursionError: maximum recursion depth exceeded in comparison

超过最大递归数，什么鬼，这个问题我查了很久终于找到了问题所在

在prettytable源码的第1253行和1255行

python爬取微博热门话题榜 - 文章图片

有一个deepcopy方法，我们把它去掉就可以了。

python爬取微博热门话题榜 - 文章图片

至于为什么，原因是这样的，deepcopy在python中是深复制和浅复制的不同是，复制完成后和原来的变量是有所不同的，内存地址变了，导致我们在运行过程中由于每次的sorts_data列表会被不停的复制，然后每次的内存地址不一样，会一直在执行，所以会陷入递归调用。所以我们只要删除这个深复制方法就好了，执行的时候就不会出现最大递归的报错了。

然后这次的修改我已经给这个仓库提交了PR了，期待审核通过。

函数去掉后，运行一切正常。

执行源代码

至此，我们的爬虫也就写完了。废话也不多说了，直接上源码，希望我在记录的同时能对你有所帮助。

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
from prettytable import PrettyTable


class WeiboTop(object):
    def __init__(self):
        self.url = 'https://s.weibo.com/top/summary'  # 微博热搜地址

    def get_html(self):
        """获取网页内容"""
        r = requests.get(self.url)
        return r.text

    def analysis(self):
        """提取数据"""
        results = []
        htmls = self.get_html()
        soup = BeautifulSoup(htmls, 'lxml')
        ranks = soup.find_all('td', class_='td-01 ranktop')
        tags = soup.find_all('td', class_='td-02')
        hots = soup.find_all('td', class_='td-03')
        for rank, tag, hot in zip(ranks, tags, hots):
            results.append(
                [rank.string if rank else '',
                 tag.a.string,
                 tag.span.string if tag.span else 9999999,
                 hot.i.string if hot.i else ''])
        return results

    def __sort(self):
        """排序(倒序)"""
        result = self.analysis()
        return sorted(result, key=lambda x: int(x[2]), reverse=False)  # 反向排序

    def show(self):
        """展示数据"""
        tb = PrettyTable()
        sorts_data = self.__sort()
        tb.field_names = '排名,热点话题,阅读数,热点类型'.split(',')
        for i in sorts_data:
            tb.add_row(i)
        print(tb)


if __name__ == "__main__":
    wt = WeiboTop()
    wt.show()

python的用处太多了，每一个要学习的方向，都挺多的，以后将不再把时间精力放在爬虫上面。

内容总结

以上是互联网集市为您收集整理的python爬取微博热门话题榜全部内容，希望文章能够帮你解决python爬取微博热门话题榜所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/623970.html

来源：【匿名】

【上一篇】Python错误集锦【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python爬取微博热门话题榜】教程文章相关的互联网学习教程文章

需求：爬取网站上的公司信息代码如下：import json import os import shutil import requests import re import timerequests.packages.urllib3.disable_warnings()#通过url请求接口，获取返回数据def getPage(url,headers):try:response = requests.get(url=url, headers=headers, verify=False)response.encoding = ‘utf-8‘if response.status_code == 200:#print (response.text)return response.textelse:print(‘请求异常：...

Python爬取博客园新闻代码【代码】【图】

核心模块：requests ：安装指令 pip3 install requestsBeautifulSoup :安装指令 pip3 install beautifulsoup4代码：import requests import bs4 import osresponse=requests.get(‘https://news.cnblogs.com/‘) response.encoding=response.apparent_encodingfrom bs4 import BeautifulSoup soup=bs4.BeautifulSoup(response.text,features=‘html.parser‘) newslist=soup.find_all(‘div‘,class_="content") #print(newslist)f...

利用Python爬取豆瓣电影【代码】【图】

目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影:我们把URL来复制出来分析分析: https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE　　有3个字段是非常重要的:　　　　1.sort=T　　　　2.range=0,10　　　　3.tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%9...

【学习笔记】python爬取百度真实url【代码】【图】

今天跑个脚本需要一堆测试的url，，，挨个找复制粘贴肯定不是程序员的风格，so，还是写个脚本吧。环境：python2.7 编辑器：sublime text 3 一、分析一下首先非常感谢百度大佬的url分类非常整齐，都在一个类下 650) this.width=650;" src="/upload/getfiles/default/2022/11/5/20221105094416540.jpg" title="QQ截图20170908143211.png" /> 即c-showurl,所以只要根据css爬取链接就可以，...

Python爬取内涵段子里的段子【代码】【图】

环境：Python3.6#!/usr/bin/env python3 #-*-coding:utf-8-*- #version:3.6.4 __author__ = '杜文涛'import requests import jsondef get_json_dic(url): global dict_json response = requests.get(url=url) json_response = response.content.decode() #获取r的文本就是一个json字符串 dict_json = json.loads(json_response) # 将json字符串转换成dic字典对象 return dict_jsondef get_joke(dict_json): ...

2018-7-12python爬取历史天气数据【代码】

2018-7-12python爬取历史天气数据python 爬虫天气数据需求需要几个城市的历史天气数据，为了方便最后入库，需要的字段为城市、温度、天气。最好能生成一个完整的csv导入数据。from bs4 import BeautifulSoup as bsp import urllib,http.cookiejar,re,time #对excel的操作，可以添加sheetimport xlwt #拼接两个csvimport glob import time# 做好cookie管理工作 cookie=http.cookiejar.CookieJar() # 创建空CookieJar cj=urllib.r...

Python爬取电影天堂指定电视剧或者电影【代码】【图】

1.分析搜索请求一位高人曾经说过，想爬取数据，要先分析网站今天我们爬取电影天堂，有好看的美剧我在上面都能找到，算是很全了。这个网站的广告出奇的多，用过都知道，点一下搜索就会弹出个窗口，伴随着滑稽的音乐，贪玩蓝月？通过python，我们可以避免广告，直接拿到我们要的东西我用的是火狐浏览器，按F12打开开发者工具，选择网络按照正常的操作顺序，其实python就是在模拟人进行一些网页操作，我们只不过通过python解放自己的双...

毕设一:python 爬取苏宁的商品评论【代码】【图】

毕设需要大量的商品评论,网上找的数据比较旧了,自己动手代理池用的proxypool,github:https://github.com/jhao104/proxy_poolua:fake_useragent 1# 评价较多的店铺(苏宁推荐) 2 https://tuijian.suning.com/recommend-portal/recommendv2/biz.jsonp?parameter=%E5%8D%8E%E4%B8%BA&sceneIds=2-1&count=103 4# 评价 5 https://review.suning.com/ajax/cluster_review_lists/general-30259269-000000010748901691-0000000000-total-1-d...

Python3爬取Wallhaven.cc图片【代码】【图】

https://wallhaven.cc/ 上有很多优秀壁纸图片，网站访问速度有点慢，还是抓下来看比较方便。1、安装python32、pip安装requests、lxml3、运行代码 # -*- coding: utf-8 -*- #wallhaven爬取import os from urllib.parse import urlencode import time from requests import codes import random import requests from lxml import etree#定义创建文件路径函数，将下载的文件存储到该路径def CreatePath(filepath):ifnot os.path.exi...

第一篇博客（python爬取小故事网并写入mysql）【代码】

前言：　　这是一篇来自整理EVERNOTE的笔记所产生的小博客，实现功能主要为用广度优先算法爬取小故事网，爬满100个链接并写入mysql，虽然CS作为双学位已经修习了三年多了，但不仅理论知识一般，动手能力也很差，在学习的空余时间前前后后DEBUG了很多次，下面给出源代码及所遇到的BUG。　　本博客参照代码及PROJECT来源：http://kexue.fm/archives/4385/源代码： 1import requests as rq2import re3import codecs4import queue5impo...

python爬取商品信息【代码】

老严要爬某网购网站的商品信息，正好我最近在学python，就一起写了一个简单的爬虫程序。需求：某网的商品信息，包括商品名，市场价和售价工具：python2.7.8，urllib2，re#coding = utf-8import urllib2 import repath = "aaa.txt" f = open(path, ‘w+‘)for i in range(4980, 4991):print i# get webpage contenturl = "http://*" + str(i) + "*"page = urllib2.urlopen(url).read()# Regular matchingmatchTitle = re.search(r‘...

python爬图【代码】

闲的无事，看着知乎里种种python优点，按捺不住，装起python3.4。网上找了点爬行图片的代码，修改至兼容3.4，成功爬行指定url所有jpg图片，代码段如下：import os import urllib import urllib.request import re #爬行图片 download_path = os.path.dirname(os.path.abspath(__file__)) class spider(object):def__init__(self, url):self.url = urldef parse(self,content):pattern = ‘src="(http://.*\.jpg)\s*"‘matchs = re....

python爬取网页图片并保存到本地【代码】【图】

先把原理梳理一下：首先我们要爬取网页的代码，然后从中提取图片的地址，通过获取到的地址来下载数据，并保存在文件中，完成。下面是具体步骤：先确定目标，我挑选的是国服守望先锋的官网的英雄页面，我的目标是爬取所有的英雄的图片页面是这样的首先做的就是得到它的源代码找到图片地址在哪里这个函数最终会返回网页代码def getHtml(url):html = requests.get(url)return html.text将其先导入文本文件观察发现图片的地址所在...

Python爬取淘宝店铺和评论【代码】

1 安装开发需要的一些库(1) 安装mysql 的驱动：在Windows上按win+r输入cmd打开命令行，输入命令pip install pymysql，回车即可。(2) 安装自动化测试的驱动selenium：在命令行中输入pip install selenium回车。(3) 安装标签解析库pyquery: 在命令行中输入pip install pyquery回车。(4) Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项，下载anaconda，安装后配置环境变量，在path中添加E:...

Python 爬取qqmusic音乐url并批量下载【代码】

qqmusic上的音乐还是不少的，有些时候想要下载好听的音乐，但有每次在网页下载都是烦人的登录什么的。于是，来了个qqmusic的爬虫。　　至少我觉得for循环爬虫，最核心的应该就是找到待爬元素所在url吧。下面开始找吧（讲的不对不要笑我）#寻找url：　　这个url可不想其他的网站那么好找。把我给累得不轻，关键是数据多，从那么多数据里面挑出有用的数据，最后组合为music真正的music。昨天做的时候整理的几个中间url：#url1：https...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python爬取微博热门话题榜

python爬取微博热门话题榜

内容导读

内容图文

前言

爬虫定义

爬虫策略

python爬虫

获取数据

解析网页数据

数据排序

展示数据

执行源代码

内容总结

内容备注

内容手机端

【python爬取微博热门话题榜】教程文章相关的互联网学习教程文章

python爬取网业信息案例【代码】【图】

Python爬取博客园新闻代码【代码】【图】

利用Python爬取豆瓣电影【代码】【图】

【学习笔记】python爬取百度真实url【代码】【图】

Python爬取内涵段子里的段子【代码】【图】

2018-7-12python爬取历史天气数据【代码】

Python爬取电影天堂指定电视剧或者电影【代码】【图】

毕设一:python 爬取苏宁的商品评论【代码】【图】

Python3爬取Wallhaven.cc图片【代码】【图】

第一篇博客（python爬取小故事网并写入mysql）【代码】

python爬取商品信息【代码】

python爬图【代码】

python爬取网页图片并保存到本地【代码】【图】

Python爬取淘宝店铺和评论【代码】

Python 爬取qqmusic音乐url并批量下载【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程