首页 / PYTHON / 一篇文章教会你使用Python定时抓取微博评论

一篇文章教会你使用Python定时抓取微博评论

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了一篇文章教会你使用Python定时抓取微博评论，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1738字，纯文字阅读大概需要3分钟。

内容图文

【Part1——理论篇】

试想一个问题，如果我们要抓取某个微博大V微博的评论数据，应该怎么实现呢？最简单的做法就是找到微博评论数据接口，然后通过改变参数来获取最新数据并保存。首先从微博api寻找抓取评论的接口，如下图所示。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

但是很不幸，该接口频率受限，抓不了几次就被禁了，还没有开始起飞，就凉凉了。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

接下来小编又选择微博的移动端网站，先登录，然后找到我们想要抓取评论的微博，打开浏览器自带流量分析工具，一直下拉评论，找到评论数据接口，如下图所示。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

之后点击“参数”选项卡，可以看到参数为下图所示的内容：

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

可以看到总共有4个参数，其中第1、2个参数为该条微博的id，就像人的身份证号一样，这个相当于该条微博的“身份证号”，max_id是变换页码的参数，每次都要变化，下次的max_id参数值在本次请求的返回数据中。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

【Part2——实战篇】

有了上文的基础之后，下面我们开始撸代码，使用Python进行实现。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

1、首先区分url，第一次不需要max_id,第二次需要用第一次返回的max_id。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

2、请求的时候需要带上cookie数据，微博cookie的有效期比较长，足够抓一条微博的评论数据了，cookie数据可以从浏览器分析工具中找到。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

3、然后将返回数据转换成json格式，取出评论内容、评论者昵称和评论时间等数据，输出结果如下图所示。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

4、为了保存评论内容，我们要将评论中的表情去掉，使用正则表达式进行处理，如下图所示。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

5、之后接着把内容保存到txt文件中，使用简单的open函数进行实现，如下图所示。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

6、重点来了，通过此接口最多只能返回16页的数据（每页20条），网上也有说返回50页的，但是接口不同、返回的数据条数也不同，所以我加了个for循环，一步到位，遍历还是很给力的，如下图所示。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

7、这里把函数命名为job。为了能够一直取出最新的数据，我们可以用schedule给程序加个定时功能，每隔10分钟或者半个小时抓1次，如下图所示。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

8、对获取到的数据，做去重处理，如下图所示。如果评论已经在里边的话，就直接pass掉，如果没有的话，继续追加即可。

一篇文章教会你使用Python定时抓取微博评论 - 文章图片

这项工作到此就基本完成了。

【Part3——总结篇】

这种方法虽然抓不全数据，但在这种微博的限制条件下，也是一种比较有效的方法

内容总结

以上是互联网集市为您收集整理的一篇文章教会你使用Python定时抓取微博评论全部内容，希望文章能够帮你解决一篇文章教会你使用Python定时抓取微博评论所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/636029.html

来源：【匿名】

【上一篇】Python第四章-流程控制【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【一篇文章教会你使用Python定时抓取微博评论】教程文章相关的互联网学习教程文章

Python抓取豆瓣电影top250!【代码】【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：404notfound 一直对爬虫感兴趣，学了python后正好看到某篇关于爬取的文章，就心血来潮实战一把吧。当然如果你学的不好，建议可以先去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目，一起交流学习进步！实现目标：抓取豆瓣电影top250，并输出...

Python爬虫抓取纯静态网站及其资源！这个项目挣了10k！【代码】

遇到的需求前段时间需要快速做个静态展示页面，要求是响应式和较美观。由于时间较短，自己动手写的话也有点麻烦，所以就打算上网找现成的。中途找到了几个页面发现不错，然后就开始思考怎么把页面给下载下来。\小编整理一套Python资料和PDF，有需要Python学习资料可以加学习群：631441315 ，反正闲着也是闲着呢，不如学点东西啦~~由于之前还没有了解过爬虫，自然也就没有想到可以用爬虫来抓取网页内容。所以我采取的办法是：打开ch...

Python post 抓取数据时，遇 unicode 匹配问题【解法】及知识点

知识点来：先上代码。看懂的就直接用。不费话。 # -*- coding: utf-8 -*- from bs4 import BeautifulSoup as bsimport urllib, json, re import sysreload(sys)sys.setdefaultencoding(‘utf-8‘) params = {}params[‘username‘]= "abc"params[‘passwd‘] = "pwd" params = urllib.urlencode(params)data = urllib.urlopen(siteurl, params)html = data.read()soup = bs(html,‘html.parser‘ , from_encoding=‘utf-8‘)conten...

Python3 urllib抓取指定URL的内容【图】

最近在研究Python，熟悉了一些基本语法和模块的使用；现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的，自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。Python爬虫主要使用的是urllib模块，Python2.x版本是urllib2，很多博客里面的示例都是使用urllib2的，因为我使用的是Python3.3.2，所以在文档里面没有urllib2这个模块，import的时候会报错，找不到该模块，应...

人才网的一个抓取，初学python，希望哥哥姐姐们多指导，多批评

from bs4 import BeautifulSoupimport urllibimport urllib.requestimport re# import jsonheaders={"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}url="http://www.lankao.ccoo.cn"for x in range(1,10): pageurl=url+"/post/zhaopin/pn"+str(x)+"/" print(pageurl) req=urllib.request.Request(pageurl,headers=headers) data=urllib.request.urlopen(req).read().decode(‘gbk‘) soup=Bea...

python抓取m3u8文件，并提取.ts文件合成视频【代码】【图】

本节抓取手机app视频，charles抓包部分就不演示了，抓包内容如下：可以直接抓取到.ts视频文件，但全都是视频片段，如果要抓全部的视频，就要找m3u8文件，里边有所有的视频路径，在拼接url前缀，就可以拿到正确的视频url了。以下是代码部分：import requests import os,sys import re #读取m3u8文件并提取.ts文件路径 url="http://f1.thishs.com/578a7600fb83e8566227a90f3bd926b4/5E64C7E6/vod2/_definst_/mp4:2020/5/0227/STP122...

Python爬虫 —— 抓取美女图片【代码】

代码如下： 1#coding:utf-8 2# import datetime 3import requests4import os5import sys6from lxml import etree7import codecs8 9class Spider: 10def__init__(self): 11 self.headers = {} 12 self.headers[‘User_Agent‘] = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0‘13 self.headers[‘Referer‘] = ‘http://www.mzitu.com/all/‘1415def crawl(self, ro...

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作from bs4 import BeautifulSoup import urllib.request import re#如果是网址，可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Request(html_doc) #webpage = urllib.request.urlopen(req) #html = webpage.read()html=""" <html><head><title>The Dormouse‘s story</titl...

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

python抓取最新博客内容并生成Rss【代码】

osc的rss不是全文输出的,不开心，所以就有了python抓取osc最新博客生成Rss # -*- coding: utf-8 -*-from bs4 import BeautifulSoup import urllib2import datetime import time import PyRSS2Gen from email.Utils import formatdate import re import sys import os reload(sys) sys.setdefaultencoding(‘utf-8‘)class RssSpider():def __init__(self):self.myrss = PyRSS2Gen.RSS2(title=‘OSChina‘, link=‘http://my.oschin...

Python 简单爬虫抓取糗事百科【代码】

# coding:utf-8import timeimport randomimport urllib2from bs4 import BeautifulSoup#引入 beautifulsoup模块#p = 1#定义页url = ‘http://www.qiushibaike.com/text/page/‘#定义headermy_headers = [ ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0‘, ‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET ...

Chrome + Python 抓取动态网页内容【代码】【图】

用Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：import urllib2url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1"up=urllib2.urlopen(url)#打开目标页面，存入变量up cont=up.read()#从up中读入该HTML文件 key1=‘<a href="http‘#设置关键字1 key2="target"#设置关键字2 pa=cont.find(key1)#找出关键字1的位置 pt=cont.find(key2,pa...

Python之HTML的解析（网页抓取一）

http://blog.csdn.net/my2010sam/article/details/14526223---------------------对html的解析是网页抓取的基础，分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要...

使用python抓取CSDN关注人的所有发布的文章【代码】

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import timedef startParser(author,page=1):reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n*\t*\s*</a>'cj = cookielib.LWPCookieJar()cookie_support = urllib2.HTTPCookieProcessor(cj)opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler)urllib2.install_opener(opener)headers =...

Python抓取中文网页出现乱码【代码】

转自http://www.oschina.net/code/snippet_1448389_33526原来是有的时候网站将网页用gzip压缩了 1""" 2迪艾姆公司python远程培训班黄哥所写 3python远程视频培训班周末班4迪艾姆python培训周末班北京3月8、上海3月9日上课欢迎报名参加。5http://www.010dm.com/xflml/3089.html6回答贴吧上一个同学用python3访问sina首页中文的处理7 8如果只用普通的9import urllib.request 10html = urllib.request.urlopen("http://www.sina.co...

首页 / PYTHON / 一篇文章教会你使用Python定时抓取微博评论

一篇文章教会你使用Python定时抓取微博评论

内容导读

内容图文

内容总结

内容备注

内容手机端

【一篇文章教会你使用Python定时抓取微博评论】教程文章相关的互联网学习教程文章

Python抓取豆瓣电影top250!【代码】【图】

Python爬虫抓取纯静态网站及其资源！这个项目挣了10k！【代码】

Python post 抓取数据时，遇 unicode 匹配问题【解法】及知识点

Python3 urllib抓取指定URL的内容【图】

人才网的一个抓取，初学python，希望哥哥姐姐们多指导，多批评

python抓取m3u8文件，并提取.ts文件合成视频【代码】【图】

Python爬虫 —— 抓取美女图片【代码】

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

python抓取最新博客内容并生成Rss【代码】

Python 简单爬虫抓取糗事百科【代码】

Chrome + Python 抓取动态网页内容【代码】【图】

Python之HTML的解析（网页抓取一）

使用python抓取CSDN关注人的所有发布的文章【代码】

Python抓取中文网页出现乱码【代码】

PYTHON - 相关标签

定时 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程