Python网络爬虫-爬取微博热搜

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python网络爬虫-爬取微博热搜，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2174字，纯文字阅读大概需要4分钟。

内容图文

微博热搜的爬取较为简单，我只是用了lxml和requests两个库

　　url=https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6

1.分析网页的源代码：右键--查看网页源代码.

　　 Python网络爬虫-爬取微博热搜 - 文章图片

　　　　从网页代码中可以获取到信息

　　　　　　　　　　　　(1)热搜的名字都在<td class="td-02">的子节点<a>里

　　　　　　　　　　　　(2)热搜的排名都在<td class=td-01 ranktop>的里(注意置顶微博是没有排名的！)

　　　　　　　　　　　　(3)热搜的访问量都在<td class="td-02">的子节点<span>里

　　2.requests获取网页

　　(1)先设置url地址，然后模拟浏览器(这一步可以不用)防止被认出是爬虫程序。

###网址
url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
###模拟浏览器，这个请求头windows下都能用
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

　　(2)利用requests库的get()和lxml的etree()来获取网页代码

###获取html页面
    html=etree.HTML(requests.get(url,headers=header).text)

　　3.构造xpath路径　

　　上面第一步中三个xath路径分别是：

affair=html.xpath('//td[@class="td-02"]/a/text()')
rank=html.xpath('//td[@class="td-01 ranktop"]/text()')
view=html.xpath('//td[@class="td-02"]/span/text()')

　　xpath的返回结果是列表，所以affair、rank、view都是字符串列表
　 4.格式化输出
　　需要注意的是affair中多了一个置顶热搜，我们先将他分离出来。

top=affair[0]
affair=affair[1:]

　　　　这里利用了python的切片。

 print('{0:<10}\t{1:<40}'.format("top",top))
    for i in range(0, len(affair)):
        print("{0:<10}\t{1:{3}<30}\t{2:{3}>20}".format(rank[i],affair[i],view[i],chr(12288)))

这里还是没能做到完全对齐。。。

　5.全部代码

###导入模块
import requests
from lxml import etree

###网址
url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
###模拟浏览器
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}

###主函数
def main():
    ###获取html页面
    html=etree.HTML(requests.get(url,headers=header).text)
    rank=html.xpath('//td[@class="td-01 ranktop"]/text()')
    affair=html.xpath('//td[@class="td-02"]/a/text()')
    view = html.xpath('//td[@class="td-02"]/span/text()')
    top=affair[0]
    affair=affair[1:]
    print('{0:<10}\t{1:<40}'.format("top",top))
    for i in range(0, len(affair)):
        print("{0:<10}\t{1:{3}<30}\t{2:{3}>20}".format(rank[i],affair[i],view[i],chr(12288)))
main()


结果展示:

Python网络爬虫-爬取微博热搜 - 文章图片

内容总结

以上是互联网集市为您收集整理的Python网络爬虫-爬取微博热搜全部内容，希望文章能够帮你解决Python网络爬虫-爬取微博热搜所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/831919.html

来源：【匿名】

【上一篇】Python Scrapy突破反爬虫机制（项目实践）【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【Python网络爬虫-爬取微博热搜】教程文章相关的互联网学习教程文章

#!/usr/bin/env python # -*- coding: utf-8 -*-import requests from pyquery import PyQuery as pqurl = ‘http://www.136book.com/huaqiangu/‘ headers = {‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36‘‘ (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36‘ }# 请求网页链接获取页面源码 r = requests.get(url, headers=headers).text doc = pq(r) # 获取网页的全部章节...

python网络爬虫笔记（九）【图】

4.1.1 urllib2 和urllib是两个不一样的模块 urllib2最简单的就是使用urllie2.urlopen函数使用如下 urllib2.urlopen(url[,data[,timeout[,cafile[,capath[,cadefault[,context]]]]]]) 按照文档urllib2.urlopen可以打开HTTP HTTPS FTP协议的URL链接地址，主演使用HTTP协议，他的参数以ca开头的都是跟身份验证有关，不常使用，data参数是post方法提交URL时使用，常用的是timeout参数，url参数是提交网络地址全称，前端是协议...

Python网络爬虫实战案例之：7000本电子书下载（3）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第三部分：7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。二、章节目录3.1 业务流程3.2 页面结构分析：目录页3.3 页面结构分析：详情页3.4 页面请求和响应：目录页4.5 页面请求和响应：详情页3.4三、正文3.1 业务流程3.2.1 页面结构分析-目录页3.2.2 页面结构分析-详情页3.3 页面请求与解析-目录页3.4 页面请求与解析-详情页3.5 文件下载四...

系统学习下python网络爬虫笔记一【代码】

系统学习下python网络爬虫的知识1、爬虫的定义Web Spider，把互联网定义为一个蜘蛛网，网络蜘蛛通过网页的链接地址来寻找网页。具体过程：从网站的某一个网页（通常是首页）开始，读取网页的内容，找到在网页中的其他链接地址，然后通过这些链接地址寻找下一个页面，这样一直循环下去，直到所有的网页都抓取完成为止。其实，网络爬虫就是一个爬行程序，一个抓取网页的程序。我们如何才能找到自己想要的网页和去掉网页中其他不相关的...

[Python]网络爬虫：北邮图书馆排行榜【图】

最近对爬虫比较感兴趣，就研究了一下。推荐一个python爬虫博客http://blog.csdn.net/pleasecallmewhy/article/details/9305229点击打开链接。跟着博主的博客学了下来，自己动手编写了一个爬北邮图书馆排行榜的demo。#!/usr/bin/env python # -*- coding: utf-8 -*-#--------------------------------------- # 程序：bupt图书馆爬虫-排行榜 # 版本：0.1 # 作者：zhangxuan # 日期：2015-04-15 # 语言：Python 2.7 # 操...

[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析【代码】【图】

转自：http://blog.csdn.net/pleasecallmewhy/article/details/8934726百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。项目内容：用Python写的百度贴吧的网络爬虫。使用方法：新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。程序功能：将贴吧中楼主发布的内容打包txt存储到本地。原理解释：首先，先浏览一下某一条贴吧，点击只看楼主并点击第二页之后u...

Python网络爬虫实战案例之：7000本电子书下载（1）【图】

一、前言本文是《Python开发实战案例之网络爬虫》的第一部分：7000本电子书下载网络爬虫完整案例演示。配套视频课程详见[51CTO学院]章节目录：（1）页面分析1：列表页-图书清单（2）页面分析2：详情页-下载地址（3）程序演示1：导出详情页（4）程序演示2：批量图书下载（5）执行结果1：批量导出下载地址文件（7）执行结果2：批量图书下载二、正文3.1 列表页：图书清单页3.2 详情页：下载地址页3.3.1 程序演示-导出详情页链接3.3.2...

python网络爬虫——requests模块（第二章）【代码】【图】

网络爬虫之requests模块今日概要基于requests的get请求基于requests模块的post请求基于requests模块ajax的get请求基于requests模块ajax的post请求综合项目练习：爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据知识点回顾常见的请求头常见的相应头https协议的加密方式基于如下5点展开requests模块的学习什么是requests模块requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起...

如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例【图】

前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态（上）和利用Python网络爬虫爬取微信朋友圈动态——附代码（下），并且对抓取到的数据进行了Python词云和wordart可视化，感兴趣的伙伴可以戳这篇文章：利用Python词云和wordart可视化工具对朋友圈数据进行可视化。今天我们继续focus on微信，不过这次给大家带来的是利用Python网络爬虫抓取微信好友总数量和微信好友男女性别的分布情况。代码实现蛮简单的，具体的教程如下...

python网络爬虫作业【代码】【图】

第一部分：请分析作业页面，爬取已提交作业信息，并生成已提交作业名单，保存为英文逗号分隔的csv文件。文件名为：hwlist.csv 。文件内容范例如下形式：学号,姓名,作业标题,作业提交时间,作业URL20194010101,张三,羊车门作业,2018-11-13 23:47:36.8,http://www.cnblogs.com/sninius/p/12345678.html20194010102,李四,羊车门,2018-11-14 9:38:27.03,http://www.cnblogs.com/sninius/p/87654321.html *注1：如制作定期爬去作业爬虫...

第1天｜12天搞定Python网络爬虫，吃里爬外？【图】

人力资源部漂亮的小MM，跑来问我：老陈，数据分析和爬虫究竟是关系呀？说实在的，我真不想理她，因为我一直认为这个跟她的工作关系不大，可一想到她负责我负责部门的招聘工作，我只好勉为其难地跟她说：数据分析，吃里，爬虫，爬外，合在一起就是吃里爬外。大数据时代，要想进行数据分析，首先要有数据来源，单靠公司那几条毛毛雨(数据)，分析个寂寞都不够，唯有通过学习爬虫，从外部(网站)爬取一些相关、有用的数据，才能让老板进...

Python网络爬虫【代码】

爬虫简介requests模块数据解析三大方法seleniumscrapy框架爬虫简介- 什么是爬虫：　　爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。 - 爬虫的分类：""" - 通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备...

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

转自:http://blog.csdn.net/pleasecallmewhy/article/details/8922826一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为...