首页 / HTML / 用 Python 抓取公号文章保存成 HTML

用 Python 抓取公号文章保存成 HTML

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了用 Python 抓取公号文章保存成 HTML，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含7022字，纯文字阅读大概需要11分钟。

内容图文

用 Python 抓取公号文章保存成 HTML - 文章图片

上次为大家介绍了如果用 Python 抓取公号文章并保存成 PDF 文件存储到本地。但用这种方式下载的 PDF 只有文字没有图片，所以只适用于没有图片或图片不重要的公众号，那如果我想要图片和文字下载下来怎么办？今天就给大家介绍另一种方案——HTML。

需解决的问题

其实我们要解决的有两个问题：

公众号里的图片没有保存到 PDF 文件里。
公众号里的一些代码片段，尤其那些单行代码比较长的，保存成 PDF 会出现代码不全的问题。
PDF 会自动分页，如果是代码或图片就会出现一些问题。

用 Python 抓取公号文章保存成 HTML - 文章图片

综上问题，我觉得还是把公众号下载成网页 HTML 格式最好看，下面就介绍下如何实现。

功能实现

获取文章链接的方式，和上一篇下载成 PDF 的文章一样，依然是通过公众号平台的图文素材里超链接查询实现，在这里我们直接拿来上一期的代码，进行修改即可。首先将原来文件 gzh_download.py 复制成 gzh_download_html.py，然后在此基础进行代码改造：

# gzh_download_html.py# 引入模块import requestsimport jsonimport reimport timefrom bs4 import BeautifulSoupimport os
# 打开 cookie.txtwith open("cookie.txt", "r") as file: ? ?cookie = file.read()cookies = json.loads(cookie)url = "https://mp.weixin.qq.com"#请求公号平台response = requests.get(url, cookies=cookies)# 从url中获取tokentoken = re.findall(r'token=(\d+)', str(response.url))[0]# 设置请求访问头信息headers = { ? ?"Referer": "https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&token=" + token + "&lang=zh_CN", ? ?"Host": "mp.weixin.qq.com", ? ?"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36",}
# 循环遍历前10页的文章for j in range(1, 10, 1): ? ?begin = (j-1)*5 ? ?# 请求当前页获取文章列表 ? ?requestUrl = "https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin="+str(begin)+"&count=5&fakeid=MzU1NDk2MzQyNg==&type=9&query=&token=" + token + "&lang=zh_CN&f=json&ajax=1" ? ?search_response = requests.get(requestUrl, cookies=cookies, headers=headers) ? ?# 获取到返回列表 Json 信息 ? ?re_text = search_response.json() ? ?list = re_text.get("app_msg_list") ? ?# 遍历当前页的文章列表 ? ?for i in list: ? ? ? ?# 目录名为标题名，目录下存放 html 和图片 ? ? ? ?dir_name = i["title"].replace(' ','') ? ? ? ?print("正在下载文章：" + dir_name) ? ? ? ?# 请求文章的 url ，获取文章内容 ? ? ? ?response = requests.get(i["link"], cookies=cookies, headers=headers) ? ? ? ?# 保存文章到本地 ? ? ? ?save(response, dir_name, i["aid"]) ? ? ? ?print(dir_name + "下载完成!") ? ?# 过快请求可能会被微信问候，这里进行10秒等待 ? ?time.sleep(10)

好了，从上面代码可以看出，主要就是将原来的方法 pdfkit.from_url(i["link"], i["title"] + ".pdf") 改成了现在的方式，需要用 requests 请求下文章的 URL ，然后再调用保存文章页面和图片到本地的方法，这里的 save() 方法通过以下代码实现。

调用保存方法

#保存下载的 html 页面和图片def save(search_response,html_dir,file_name): ? ?# 保存 html 的位置 ? ?htmlDir = os.path.join(os.path.dirname(os.path.abspath(__file__)), html_dir) ? ?# 保存图片的位置 ? ?targetDir = os.path.join(os.path.dirname(os.path.abspath(__file__)),html_dir + '/images') ? ?# 不存在创建文件夹 ? ?if not os.path.isdir(targetDir): ? ? ? ?os.makedirs(targetDir) ? ?domain = 'https://mp.weixin.qq.com/s' ? ?# 调用保存 html 方法 ? ?save_html(search_response, htmlDir, file_name) ? ?# 调用保存图片方法 ? ?save_file_to_local(htmlDir, targetDir, search_response, domain)
# 保存图片到本地def save_file_to_local(htmlDir,targetDir,search_response,domain): ? ?# 使用lxml解析请求返回的页面 ? ?obj = BeautifulSoup(save_html(search_response,htmlDir,file_name).content, 'lxml') ? ? ?# 找到有 img 标签的内容 ? ?imgs = obj.find_all('img') ? ?# 将页面上图片的链接加入list ? ?urls = [] ? ?for img in imgs: ? ? ? ?if 'data-src' in str(img): ? ? ? ? ? ?urls.append(img['data-src']) ? ? ? ?elif 'src=""' in str(img): ? ? ? ? ? ?pass ? ? ? ?elif "src" not in str(img): ? ? ? ? ? ?pass ? ? ? ?else: ? ? ? ? ? ?urls.append(img['src'])
 ? ?# 遍历所有图片链接，将图片保存到本地指定文件夹，图片名字用0，1，2... ? ?i = 0 ? ?for each_url in urls: ? ? ? ?# 跟据文章的图片格式进行处理 ? ? ? ?if each_url.startswith('//'): ? ? ? ? ? ?new_url = 'https:' + each_url ? ? ? ? ? ?r_pic = requests.get(new_url) ? ? ? ?elif each_url.startswith('/') and each_url.endswith('gif'): ? ? ? ? ? ?new_url = domain + each_url ? ? ? ? ? ?r_pic = requests.get(new_url) ? ? ? ?elif each_url.endswith('png') or each_url.endswith('jpg') or each_url.endswith('gif') or each_url.endswith('jpeg'): ? ? ? ? ? ?r_pic = requests.get(each_url) ? ? ? ?# 创建指定目录 ? ? ? ?t = os.path.join(targetDir, str(i) + '.jpeg') ? ? ? ?print('该文章共需处理' + str(len(urls)) + '张图片，正在处理第' + str(i + 1) + '张……') ? ? ? ?# 指定绝对路径 ? ? ? ?fw = open(t, 'wb') ? ? ? ?# 保存图片到本地指定目录 ? ? ? ?fw.write(r_pic.content) ? ? ? ?i += 1 ? ? ? ?# 将旧的链接或相对链接修改为直接访问本地图片 ? ? ? ?update_file(each_url, t, htmlDir) ? ? ? ?fw.close()
 ? ?# 保存 HTML 到本地 ? ?def save_html(url_content,htmlDir,file_name): ? ? ? ?f = open(htmlDir+"/"+file_name+'.html', 'wb') ? ? ? ?# 写入文件 ? ? ? ?f.write(url_content.content) ? ? ? ?f.close() ? ? ? ?return url_content
 ? ?# 修改 HTML 文件,将图片的路径改为本地的路径 ? ?def update_file(old, new,htmlDir): ? ? ? ? # 打开两个文件，原始文件用来读，另一个文件将修改的内容写入 ? ? ? ?with open(htmlDir+"/"+file_name+'.html', encoding='utf-8') as f, open(htmlDir+"/"+file_name+'_bak.html', 'w', encoding='utf-8') as fw: ? ? ? ? ? ?# 遍历每行，用replace()方法替换路径 ? ? ? ? ? ?for line in f: ? ? ? ? ? ? ? ?new_line = line.replace(old, new) ? ? ? ? ? ? ? ?new_line = new_line.replace("data-src", "src") ? ? ? ? ? ? ? ? # 写入新文件 ? ? ? ? ? ? ? ?fw.write(new_line) ? ? ? ?# 执行完，删除原始文件 ? ? ? ?os.remove(htmlDir+"/"+file_name+'.html') ? ? ? ?time.sleep(5) ? ? ? ?# 修改新文件名为 html ? ? ? ?os.rename(htmlDir+"/"+file_name+'_bak.html', htmlDir+"/"+file_name+'.html')

好了，上面就是将文章页面和图片下载到本地的代码，接下来我们运行命令 python gzh_download_html.py ，程序开始执行，打印日志如下：

$ python gzh_download_html.py正在下载文章：学习Python看这一篇就够了！该文章共需处理3张图片，正在处理第1张……该文章共需处理3张图片，正在处理第2张……该文章共需处理3张图片，正在处理第3张……学习Python看这一篇就够了！下载完成!正在下载文章：PythonFlask数据可视化该文章共需处理2张图片，正在处理第1张……该文章共需处理2张图片，正在处理第2张……PythonFlask数据可视化下载完成!正在下载文章：教你用Python下载手机小视频该文章共需处理11张图片，正在处理第1张……该文章共需处理11张图片，正在处理第2张……该文章共需处理11张图片，正在处理第3张……该文章共需处理11张图片，正在处理第4张……该文章共需处理11张图片，正在处理第5张……该文章共需处理11张图片，正在处理第6张……该文章共需处理11张图片，正在处理第7张……

现在我们去程序存放的目录，就能看到以下都是以文章名称命名的文件夹：

用 Python 抓取公号文章保存成 HTML - 文章图片

进入相应文章目录，可以看到一个 html 文件和一个名为 images 的图片目录，我们双击打开扩展名为 html 的文件，就能看到带图片和代码框的文章，和在公众号看到的一样。

用 Python 抓取公号文章保存成 HTML - 文章图片

总结

本文为大家介绍了如何通过 Python 将公号文章批量下载到本地，并保存为 HTML 和图片，这样就能实现文章的离线浏览了。当然如果你想将 HTML 转成 PDF 也很简单，直接用 pdfkit.from_file(xx.html,target.pdf) 方法直接将网页转成 PDF，而且这样转成的 PDF 也是带图片的。

内容总结

以上是互联网集市为您收集整理的用 Python 抓取公号文章保存成 HTML全部内容，希望文章能够帮你解决用 Python 抓取公号文章保存成 HTML所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/593946.html

来源：【匿名】

【上一篇】小程序渲染html 【下一篇】PHP 和 HTML

更多 ►

【用 Python 抓取公号文章保存成 HTML】教程文章相关的互联网学习教程文章

PHP爬虫抓取网页内容 (simple_html_dom.php)【代码】【图】

使用simple_html_dom.php，下载|文档　　因为抓取的只是一个网页，所以比较简单，整个网站的下次再研究，可能用Python来做爬虫会好些。 1 <meta http-equiv="content-type" content="text/html;charset=utf-8"/>2 <?php3include_once ‘simplehtmldom/simple_html_dom.php‘;4//获取html数据转化为对象 5$html = file_get_html(‘http://paopaotv.com/tv-type-id-5-pg-1.html‘);6//A-Z的字母列表每条数据是在id=letter-focus 的di...

抓取天涯文章的蜘蛛代码，刚经过更新（因为天涯页面HTML代码变化）【代码】

#_*_coding:utf-8-*-import urllib2 import traceback import codecs from BeautifulSoup import BeautifulSoupdef openSoup(url,code):page = urllib2.urlopen(url)soup = BeautifulSoup(page,fromEncoding=code)#,fromEncoding="gb2312"#soup = BeautifulSoup(page,code)return soupdef getContentFromDiv(contents):s = ""for content in contents:try:s += contentexcept:passs = s.lstrip().rstrip()if len(s) < 50:return""e...

PHP CURL抓取网页 simple_html_dom类【代码】

抓取网页数据后数据录入到discuz中<?php include(‘simple_html_dom.php‘);function urlText(){$url = ‘http://www.kxt.com/data/3.html‘;//外汇$ch=curl_init();$timeout = 1;// echo CURLOPT_URL; // CURLOPT_URL: 这是你想用PHP取回的URL地址。你也可以在用curl_init()函数初始化时设置这个选项curl_setopt($ch, CURLOPT_URL, $url);// echo CURLOPT_RETURNTRANSFER; //使用PHP curl获取页面内容或提交数据，有时候希望返回...

用Python程序抓取网页的HTML信息的一个小实例【图】

抓取网页数据的思路有好多种，一般有：直接代码请求http、模拟浏览器请求数据（通常需要登录验证）、控制浏览器实现数据抓取等。这篇不考虑复杂情况，放一个读取简单网页数据的小例子：目标数据将ittf网站上这个页面上所有这些选手的超链接保存下来。数据请求真的很喜欢符合人类思维的库，比如requests，如果是要直接拿网页文本，一句话搞定：doc = requests.get(url).text解析html获得数据以beautifulsoup为例，包含获取标签、...

php-特定于HTML表格的抓取【代码】

我正在尝试使用PHP刮取一个表,但事实是我设法刮了它,但是我在网页的表上得到了所有东西.我不确定如何指定要抓取的TD和/或TR. 这是PHP代码<?php include("simple_html_dom.php"); $html=file_get_html("http://www.premierleague.com/en-gb/matchday/league-table.html"); $html=new simple_html_dom($html);foreach($html->find('table tr') as $row) { $cell = $row->find('td', 0); echo $row; } ?>我想要得到的(如果您查看the w...

生成htmlPHP抓取页面生成HTMl文件简单代码

缓存技术ob_start();//开启缓存 // $c//从缓存中获取内容$c//localhost/weizhuan/detail.php?aid=349&uid=1534'); ob_end_clean();//关闭缓存并清空 /***缓存结束***/ file_put_contents("ceshi2.html", $content); echo $content; echo "ok";?>以上就介绍了生成html PHP抓取页面生成HTMl文件简单代码，包括了生成html方面的内容，希望对PHP教程有兴趣的朋友有所帮助。

php抓取百度热词搜索的http://top.baidu.com/buzz/top10.html源码可私聊。

前面开发PHP 的过程中、有一个网站要做一个导航的、需要用到百度热词、百度搜索榜的 TOP50 。可以根据FOr 循环找出50 条地址可为这几个都可以抓取是根据simple_html_dom.php simple_html_dom.php 百度一下放到相同的目录下我用的是THINKPHP 放在同Action中 //http://top.baidu.com/buzz/top10.html//http://top.baidu.com/buzz?b=1&c=513//http://top.baidu.com/buzz?b=1&fr=topcategory_c513$now_url = http://top.baidu.co...

PHP抓取网页、解析HTML常用的方法总结，php抓取_PHP教程

PHP抓取网页、解析HTML常用的方法总结，php抓取概述爬虫是我们在做程序时经常会遇到的一种功能。PHP有许多开源的爬虫工具，如snoopy，这些开源的爬虫工具，通常能帮我们完成大部分功能，但是在某种情况下，我们需要自己实现一个爬虫，本篇文章对PHP实现爬虫的方式做个总结。 PHP实现爬虫主要方法 1.file()函数 2.file_get_contents()函数 3.fopen()->fread()->fclose()方式 4.curl方式 5.fsockopen()函数，socket方式 6.使用开源工...

PHP抓取网页、解析HTML常用的方法总结_PHP教程

PHP抓取网页、解析HTML常用的方法总结　　这篇文章主要介绍了PHP抓取网页、解析HTML常用的方法总结,本文只是对可以实现这两个需求的方法作了总结,只介绍方法,不介绍如何实现,需要的朋友可以参考下概述爬虫是我们在做程序时经常会遇到的一种功能。PHP有许多开源的爬虫工具，如snoopy，这些开源的爬虫工具，通常能帮我们完成大部分功能，但是在某种情况下，我们需要自己实现一个爬虫，本篇文章对PHP实现爬虫的方式做个总结。PHP实现...

php抓取这个网页的数据，只要数据，不要html内容，然后json后写入文件，新手求教

http://www.okooo.com/Upload/sohu/table_23.html 新收求教啊，这个难度在于正则上，不会写正则啊回复讨论(解决方案) $url = http://www.okooo.com/Upload/sohu/table_23.html;$s = file_get_contents($url);preg_match_all(#<table.+#isU, $s, $m);foreach(array_map(strip_tags, $m[0]) as $r) { $a = preg_split(/\s+/, $r, -1, PREG_SPLIT_NO_EMPTY); $res[] = array_chunk(array_slice($a, 0, -1), 3);}print...

怎么用PHP抓取网站HTML

连接地址 http://detail.tmall.com/item.htm?spm=a230r.1.0.0.MlI5e4&id=40364502055&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&abbucket=12 抓取上面连接的 HTML 用file_get_contents() 测试没成功怎么回事啊？回复讨论(解决方案) file_get_contents() 成功了呀你可以采用楼上的写法也可以采用curl来获取，最重要的是要看你啥需求。查一下php手册中的curl 多测试几次filegetc...

抓取不到html，curl和file_get_contents都抓不到，但是页面可以直接打开。

抓取不到html，curl和file_get_contents都抓不到，但是页面可以直接打开。请教网址如下 https:/count.taobao.com/counter3?keys=SM_368_dsr-1097280647,ICCP_1_522177046867&callback=jsonp107 为什么我怎么都抓不到内容呢，始终是空回复讨论(解决方案) 贴出你的代码来看看 $ch = curl_init();$url=https://count.taobao.com/coun...

抓取不到html，curl跟file_get_contents都抓不到，但是页面可以直接打开

抓取不到html，curl和file_get_contents都抓不到，但是页面可以直接打开。抓取不到html，curl和file_get_contents都抓不到，但是页面可以直接打开。请教网址如下https:/count.taobao.com/counter3?keys=SM_368_dsr-1097280647,ICCP_1_522177046867&callback=jsonp107为什么我怎么都抓不到内容呢，始终是空------解决思路----------------------$ch = curl_init();$url=https://count.taobao.com/counter3?keys=SM_368_dsr-10972806...

如何用PHP抓取网站HTML

怎么用PHP抓取网站HTML连接地址 http://detail.tmall.com/item.htm?spm=a230r.1.0.0.MlI5e4&id=40364502055&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&abbucket=12抓取上面连接的 HTML 用file_get_contents() 测试没成功怎么回事啊？------解决思路----------------------file_get_contents() 成功了呀------解决思路---------------------- $url="http://detail.tmall.com/item.htm?spm=a230r.1.0.0.MlI5e4&id=...

php抓取这个网页的数据，只要数据，不用html内容，然后json后写入文件，新手求教

php抓取这个网页的数据，只要数据，不要html内容，然后json后写入文件，新手求教http://www.okooo.com/Upload/sohu/table_23.html 新收求教啊，这个难度在于正则上，不会写正则啊------解决方案--------------------$url = http://www.okooo.com/Upload/sohu/table_23.html;$s = file_get_contents($url);preg_match_all(#<table.+#isU, $s, $m);foreach(array_map(strip_tags, $m[0]) as $r) { $a = preg_split(/\s+/, $r, -1,...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / 用 Python 抓取公号文章保存成 HTML

用 Python 抓取公号文章保存成 HTML

内容导读

内容图文

需解决的问题

功能实现

调用保存方法

总结

内容总结

内容备注

内容手机端

【用 Python 抓取公号文章保存成 HTML】教程文章相关的互联网学习教程文章

PHP爬虫抓取网页内容 (simple_html_dom.php)【代码】【图】

抓取天涯文章的蜘蛛代码，刚经过更新（因为天涯页面HTML代码变化）【代码】

PHP CURL抓取网页 simple_html_dom类【代码】

用Python程序抓取网页的HTML信息的一个小实例【图】

php-特定于HTML表格的抓取【代码】

生成htmlPHP抓取页面生成HTMl文件简单代码

php抓取百度热词搜索的http://top.baidu.com/buzz/top10.html源码可私聊。

PHP抓取网页、解析HTML常用的方法总结，php抓取_PHP教程

PHP抓取网页、解析HTML常用的方法总结_PHP教程

php抓取这个网页的数据，只要数据，不要html内容，然后json后写入文件，新手求教

怎么用PHP抓取网站HTML

抓取不到html，curl和file_get_contents都抓不到，但是页面可以直接打开。

抓取不到html，curl跟file_get_contents都抓不到，但是页面可以直接打开

如何用PHP抓取网站HTML

php抓取这个网页的数据，只要数据，不用html内容，然后json后写入文件，新手求教

PYTHON - 相关标签

HTML - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程