python – :将html保存为文本
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – :将html保存为文本,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1557字,纯文字阅读大概需要3分钟。
内容图文
![python – :将html保存为文本](/upload/InfoBanner/zyjiaocheng/799/6c8dd94febdc47f6b4af64b4020d3b28.jpg)
我有一个javascript代码,只显示一个HTML页面的源代码
javascript:h=document.getElementsByTagName('html')[0].innerHTML;function%20disp(h){h=h.replace(/</g,%20'\n<');h=h.replace(/>/g,'>');document.getElementsByTagName('body')[0].innerHTML='<pre><html>'+h.replace(/(\n|\r)+/g,'\n')+'</html></pre>';}void(disp(h));
我将代码保存为firefox中的书签.因此,在加载网页后,当我从书签中选择代码时,它会显示源代码.
现在我尝试使用python保存html文件.
from BeautifulSoup import BeautifulSoup
from BeautifulSoup import BeautifulStoneSoup
import BeautifulSoup
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://www.doctorisin.net/")
soup = BeautifulSoup(page)
print soup.prettify()
fp = open('file.txt','wb')
fp.write(soup.prettify())
但它没有javascript代码的所有内容.保存的文件和javascript显示源文件不相同.也许python代码没有从html页面获取所有代码(javascript / css标记代码).问题是什么?难道我做错了什么?需要帮忙
谢谢
EDITED
作为我的问题的一个例子,http://phpjunkyard.com/tutorials/cut-paste-code.php(随机站点)转到这个站点,右键单击并选择查看页面源(firefox)复制源并保存在文本文件.现在保存页面(将页面另存为).你可以看到两者都不一样.已保存的页面(另存为)还有更多内容. Python给出了类似源代码的输出(查看页面源代码).缺少一些脚本,表格等.
解决方法:
如果要保存Web服务器提供的确切HTML,请不要使用BeautifulSoup(这是一个HTML解析器,并且可能会在对其进行精心打印时修改代码);这将是一个更好的解决方案:
import urllib2
file("my_file.txt", "w").write(urllib2.urlopen("http://www.doctorisin.net/").read())
默认情况下,Firefox不仅会保存HTML,还会保存显示页面所需的文件(包括css和脚本).
内容总结
以上是互联网集市为您收集整理的python – :将html保存为文本全部内容,希望文章能够帮你解决python – :将html保存为文本所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。