Python爬取js动态添加的内容
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Python爬取js动态添加的内容,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1047字,纯文字阅读大概需要2分钟。
内容图文
爬虫从 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码,网页会经过渲染处理。此时,如果我们仍采用常规方法从中抓取数据,那么我们将一无所获。那么,通过Web kit可以简单解决这个问题。Web kit 可以实现浏览器所能处理的任何事情。对于某些浏览器来说,Web kit就是其底层的网页渲染工具。Web kit是QT库的一部分,在安装QT和PyQT4库后,你可以直接运行下列代码。 windows下可以下载对应的包,cmd进入对应目录进行pip install; linux下运行:sudo apt-get install python-qt4 https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyqt4
import sys
from PyQt4.QtWebKit import *
from PyQt4.QtGui import *
from PyQt4.QtCore import *
class Render(QWebPage): # 用来渲染网页,将url中的所有信息加载下来并存到一个新的框架中
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self._loadFinished)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def _loadFinished(self, result):
self.frame = self.mainFrame()
self.app.quit()
url = 'http://ddbank.net/edu/mod/resource/view.php?id=707'
r = Render(url)
html = r.frame.toHtml()
print(html)
内容总结
以上是互联网集市为您收集整理的Python爬取js动态添加的内容全部内容,希望文章能够帮你解决Python爬取js动态添加的内容所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。