首页 / PYTHON / 用 Python 抓取公号文章保存成 PDF

用 Python 抓取公号文章保存成 PDF

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了用 Python 抓取公号文章保存成 PDF，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4694字，纯文字阅读大概需要7分钟。

内容图文

用 Python 抓取公号文章保存成 PDF - 文章图片

今天为大家介绍如何将自己喜欢的公众号的历史文章转成 PDF 保存到本地。前几天还有朋友再问，能不能帮把某某公众号的文章下载下来，因为他很喜欢这个号的文章，但由于微信上查看历史文章不能排序，一些较早期的文章翻很长时间才能找到，而且往往没有一次看不了几篇，下次还得再重头翻，想想就很痛苦。

抓取的思路

目前我在网上找了找，看到实现的方式大概分为以下三种：

通过手机和电脑相连，利用 Fiddler 抓包获取请求和返回报文，然后通过报文模拟请求实现批量下载。
通过搜狗浏览器或者用 wechatsogou 这个 Python 模块，去搜索公号后，实现批量下载。
通过公众号平台，这个需要你能登陆到公众号平台即可，剩下就比较简单。

整体来看最后一种方式是最简单的，接下来将以第三种方式为例，为大家介绍如何达到批量下载的目的。

获取 Cookie

首先我们登陆到公众号平台，登陆成功后会跳转到公众号管理首页，如下图：

用 Python 抓取公号文章保存成 PDF - 文章图片

然后我们在当前页面打开浏览器开发者工具，刷新下页面，在网络里就能看到各种请求，在这里我们点开一个请求 url，然后就能看到下图网络请求信息，里面包含请求的 Cookie 信息。

用 Python 抓取公号文章保存成 PDF - 文章图片

接下来我们需要把 Cookie 信息复制下来转换成 Json 格式串保存到文本文件里，以供后面请求链接时使用。这里需要写一段 Python 代码进行处理，新建文件 gen_cookies.py 写入代码如下：

# gen_cookies.py
import json
# 从浏览器中复制出来的 Cookie 字符串cookie_str = "pgv_pvid=9551991123; pac_uid=89sdjfklas; XWINDEXGREY=0; pgv_pvi=89273492834; tvfe_boss_uuid=lkjslkdf090; RK=lksdf900; ptcz=kjalsjdflkjklsjfdkljslkfdjljsdfk; ua_id=ioje9899fsndfklsdf-DKiowiekfjhsd0Dw=; h_uid=lkdlsodifsdf; mm_lang=zh_CN; ts_uid=0938450938405; mobileUV=98394jsdfjsd8sdf; \……中间部分省略 \ EXIV96Zg=sNOaZlBxE37T1tqbsOL/qzHBtiHUNZSxr6TMqpb8Z9k="
cookie = {}# 遍历 cookie 信息for cookies in cookie_str.split("; "): ? ?cookie_item = cookies.split("=") ? ?cookie[cookie_item[0]] = cookie_item[1]# 将cookies写入到本地文件with open('cookie.txt', "w") as file: ? ?# ?写入文件 ? ?file.write(json.dumps(cookie))

好了，将 Cookie 写入文件后，接下来就来说下在哪里可以找到某公号的文章链接。

获取文章链接

在公号管理平台首页点击左侧素材管理菜单，进入素材管理页面，然后点击右侧的新建图文素材按钮，如下图：

用 Python 抓取公号文章保存成 PDF - 文章图片

进入新建图文素材页面，然后点击这里的超链接：

在编辑超链接的弹出框里，点击选择其他公众号的连接：

用 Python 抓取公号文章保存成 PDF - 文章图片

在这里我们就能通过搜索，输入关键字搜索我们想要找到公众号，比如在这里我们搜索 "Python 技术"，就能看到如下搜索结果：

用 Python 抓取公号文章保存成 PDF - 文章图片

然后点击第一个 Python 技术的公众号，在这里我们就能看到这个公众号历史发布过的所有文章：

用 Python 抓取公号文章保存成 PDF - 文章图片

我们看到这里文章每页只显示五篇，一共分了31页，现在我们再打开自带的开发者工具，然后在列表下面点下一页的按钮，在网络中会看到向服务发送了一个请求，我们分析下这个请求的参数。

用 Python 抓取公号文章保存成 PDF - 文章图片

通过请求参数，我们大概可以分析出参数的意义， begin 是从第几篇文章开始，count 是一次查出几篇，fakeId 对应这个公号的唯一 Id，token 是通过 Cookie 信息来获取的。好了，知道这些我们就可以用 Python 写段代码去遍历请求，新建文件 gzh_download.py,代码如下：

# gzh_download.py# 引入模块import requestsimport jsonimport reimport randomimport timeimport pdfkit
# 打开 cookie.txtwith open("cookie.txt", "r") as file: ? ?cookie = file.read()cookies = json.loads(cookie)url = "https://mp.weixin.qq.com"#请求公号平台response = requests.get(url, cookies=cookies)# 从url中获取tokentoken = re.findall(r'token=(\d+)', str(response.url))[0]# 设置请求访问头信息headers = { ? ?"Referer": "https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&token=" + token + "&lang=zh_CN", ? ?"Host": "mp.weixin.qq.com", ? ?"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36",}
# 循环遍历前10页的文章for j in range(1, 10, 1): ? ?begin = (j-1)*5 ? ?# 请求当前页获取文章列表 ? ?requestUrl = "https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin="+str(begin)+"&count=5&fakeid=MzU1NDk2MzQyNg==&type=9&query=&token=" + token + "&lang=zh_CN&f=json&ajax=1" ? ?search_response = requests.get(requestUrl, cookies=cookies, headers=headers) ? ?# 获取到返回列表 Json 信息 ? ?re_text = search_response.json() ? ?list = re_text.get("app_msg_list") ? ?# 遍历当前页的文章列表 ? ?for i in list: ? ? ? ?# 将文章链接转换 pdf 下载到当前目录 ? ? ? ?pdfkit.from_url(i["link"], i["title"] + ".pdf") ? ?# 过快请求可能会被微信问候，这里进行10秒等待 ? ?time.sleep(10)

好了，就上面这点代码就够了，这里在将 URL 转成 PDF 时使用的是 pdfkit 的模块，使用这个需要先安装 wkhtmltopdf 这个工具，官网地址在文末给出，支持多操作系统，自己下载安装即可，这里就不再赘述。

用 Python 抓取公号文章保存成 PDF - 文章图片

安装完后，还需要再执行 pip3 install pdfkit 命令安装这个模块。安装好了，现在来执行下 python gzh_download.py 命令启动程序看下效果怎么样。

用 Python 抓取公号文章保存成 PDF - 文章图片

看来是成功了，这个工具还是很强大的。

总结

本文为大家介绍了如何通过分析公众号平台的功能，找到可以访问到某个公众号所有文章的链接，从而可以批量下载某公众号所有文章，并转为 PDF 格式保存到本地的目的。这里通过 Python 写了少量代码就实现文章的抓取和转换的工作，如果有兴趣你也可以试试。

参考

https://wkhtmltopdf.org/downloads.html

内容总结

以上是互联网集市为您收集整理的用 Python 抓取公号文章保存成 PDF全部内容，希望文章能够帮你解决用 Python 抓取公号文章保存成 PDF所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/593923.html

来源：【匿名】

【上一篇】用 Python 来了解一下《安家》【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【用 Python 抓取公号文章保存成 PDF】教程文章相关的互联网学习教程文章

Python抓取豆瓣电影top250!【代码】【图】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：404notfound 一直对爬虫感兴趣，学了python后正好看到某篇关于爬取的文章，就心血来潮实战一把吧。当然如果你学的不好，建议可以先去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目，一起交流学习进步！实现目标：抓取豆瓣电影top250，并输出...

Python爬虫抓取纯静态网站及其资源！这个项目挣了10k！【代码】

遇到的需求前段时间需要快速做个静态展示页面，要求是响应式和较美观。由于时间较短，自己动手写的话也有点麻烦，所以就打算上网找现成的。中途找到了几个页面发现不错，然后就开始思考怎么把页面给下载下来。\小编整理一套Python资料和PDF，有需要Python学习资料可以加学习群：631441315 ，反正闲着也是闲着呢，不如学点东西啦~~由于之前还没有了解过爬虫，自然也就没有想到可以用爬虫来抓取网页内容。所以我采取的办法是：打开ch...

Python post 抓取数据时，遇 unicode 匹配问题【解法】及知识点

知识点来：先上代码。看懂的就直接用。不费话。 # -*- coding: utf-8 -*- from bs4 import BeautifulSoup as bsimport urllib, json, re import sysreload(sys)sys.setdefaultencoding(‘utf-8‘) params = {}params[‘username‘]= "abc"params[‘passwd‘] = "pwd" params = urllib.urlencode(params)data = urllib.urlopen(siteurl, params)html = data.read()soup = bs(html,‘html.parser‘ , from_encoding=‘utf-8‘)conten...

Python3 urllib抓取指定URL的内容【图】

最近在研究Python，熟悉了一些基本语法和模块的使用；现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的，自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。Python爬虫主要使用的是urllib模块，Python2.x版本是urllib2，很多博客里面的示例都是使用urllib2的，因为我使用的是Python3.3.2，所以在文档里面没有urllib2这个模块，import的时候会报错，找不到该模块，应...

人才网的一个抓取，初学python，希望哥哥姐姐们多指导，多批评

from bs4 import BeautifulSoupimport urllibimport urllib.requestimport re# import jsonheaders={"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}url="http://www.lankao.ccoo.cn"for x in range(1,10): pageurl=url+"/post/zhaopin/pn"+str(x)+"/" print(pageurl) req=urllib.request.Request(pageurl,headers=headers) data=urllib.request.urlopen(req).read().decode(‘gbk‘) soup=Bea...

python抓取m3u8文件，并提取.ts文件合成视频【代码】【图】

本节抓取手机app视频，charles抓包部分就不演示了，抓包内容如下：可以直接抓取到.ts视频文件，但全都是视频片段，如果要抓全部的视频，就要找m3u8文件，里边有所有的视频路径，在拼接url前缀，就可以拿到正确的视频url了。以下是代码部分：import requests import os,sys import re #读取m3u8文件并提取.ts文件路径 url="http://f1.thishs.com/578a7600fb83e8566227a90f3bd926b4/5E64C7E6/vod2/_definst_/mp4:2020/5/0227/STP122...

Python爬虫 —— 抓取美女图片【代码】

代码如下： 1#coding:utf-8 2# import datetime 3import requests4import os5import sys6from lxml import etree7import codecs8 9class Spider: 10def__init__(self): 11 self.headers = {} 12 self.headers[‘User_Agent‘] = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0‘13 self.headers[‘Referer‘] = ‘http://www.mzitu.com/all/‘1415def crawl(self, ro...

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作from bs4 import BeautifulSoup import urllib.request import re#如果是网址，可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Request(html_doc) #webpage = urllib.request.urlopen(req) #html = webpage.read()html=""" <html><head><title>The Dormouse‘s story</titl...

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

python抓取最新博客内容并生成Rss【代码】

osc的rss不是全文输出的,不开心，所以就有了python抓取osc最新博客生成Rss # -*- coding: utf-8 -*-from bs4 import BeautifulSoup import urllib2import datetime import time import PyRSS2Gen from email.Utils import formatdate import re import sys import os reload(sys) sys.setdefaultencoding(‘utf-8‘)class RssSpider():def __init__(self):self.myrss = PyRSS2Gen.RSS2(title=‘OSChina‘, link=‘http://my.oschin...

Python 简单爬虫抓取糗事百科【代码】

# coding:utf-8import timeimport randomimport urllib2from bs4 import BeautifulSoup#引入 beautifulsoup模块#p = 1#定义页url = ‘http://www.qiushibaike.com/text/page/‘#定义headermy_headers = [ ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0‘, ‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET ...

Chrome + Python 抓取动态网页内容【代码】【图】

用Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：import urllib2url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1"up=urllib2.urlopen(url)#打开目标页面，存入变量up cont=up.read()#从up中读入该HTML文件 key1=‘<a href="http‘#设置关键字1 key2="target"#设置关键字2 pa=cont.find(key1)#找出关键字1的位置 pt=cont.find(key2,pa...

Python之HTML的解析（网页抓取一）

http://blog.csdn.net/my2010sam/article/details/14526223---------------------对html的解析是网页抓取的基础，分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要...

使用python抓取CSDN关注人的所有发布的文章【代码】

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import timedef startParser(author,page=1):reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n*\t*\s*</a>'cj = cookielib.LWPCookieJar()cookie_support = urllib2.HTTPCookieProcessor(cj)opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler)urllib2.install_opener(opener)headers =...

Python抓取中文网页出现乱码【代码】

转自http://www.oschina.net/code/snippet_1448389_33526原来是有的时候网站将网页用gzip压缩了 1""" 2迪艾姆公司python远程培训班黄哥所写 3python远程视频培训班周末班4迪艾姆python培训周末班北京3月8、上海3月9日上课欢迎报名参加。5http://www.010dm.com/xflml/3089.html6回答贴吧上一个同学用python3访问sina首页中文的处理7 8如果只用普通的9import urllib.request 10html = urllib.request.urlopen("http://www.sina.co...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 用 Python 抓取公号文章保存成 PDF

用 Python 抓取公号文章保存成 PDF

内容导读

内容图文

抓取的思路

获取 Cookie

获取文章链接

总结

参考

内容总结

内容备注

内容手机端

【用 Python 抓取公号文章保存成 PDF】教程文章相关的互联网学习教程文章

Python抓取豆瓣电影top250!【代码】【图】

Python爬虫抓取纯静态网站及其资源！这个项目挣了10k！【代码】

Python post 抓取数据时，遇 unicode 匹配问题【解法】及知识点

Python3 urllib抓取指定URL的内容【图】

人才网的一个抓取，初学python，希望哥哥姐姐们多指导，多批评

python抓取m3u8文件，并提取.ts文件合成视频【代码】【图】

Python爬虫 —— 抓取美女图片【代码】

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

python3用BeautifulSoup用字典的方法抓取a标签内的数据【代码】

python抓取最新博客内容并生成Rss【代码】

Python 简单爬虫抓取糗事百科【代码】

Chrome + Python 抓取动态网页内容【代码】【图】

Python之HTML的解析（网页抓取一）

使用python抓取CSDN关注人的所有发布的文章【代码】

Python抓取中文网页出现乱码【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程