首页 / JAVASCRIPT / Python爬取js动态添加的内容

Python爬取js动态添加的内容

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python爬取js动态添加的内容，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1047字，纯文字阅读大概需要2分钟。

内容图文

爬虫从 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码，网页会经过渲染处理。此时，如果我们仍采用常规方法从中抓取数据，那么我们将一无所获。那么，通过Web kit可以简单解决这个问题。Web kit 可以实现浏览器所能处理的任何事情。对于某些浏览器来说，Web kit就是其底层的网页渲染工具。Web kit是QT库的一部分，在安装QT和PyQT4库后，你可以直接运行下列代码。
windows下可以下载对应的包，cmd进入对应目录进行pip install;
linux下运行：sudo apt-get install python-qt4
https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyqt4

import sys
from PyQt4.QtWebKit import *
from PyQt4.QtGui import *
from PyQt4.QtCore import *


class Render(QWebPage):  # 用来渲染网页,将url中的所有信息加载下来并存到一个新的框架中
    def __init__(self, url):
        self.app = QApplication(sys.argv)
        QWebPage.__init__(self)
        self.loadFinished.connect(self._loadFinished)
        self.mainFrame().load(QUrl(url))
        self.app.exec_()

    def _loadFinished(self, result):
        self.frame = self.mainFrame()
        self.app.quit()


url = 'http://ddbank.net/edu/mod/resource/view.php?id=707'
r = Render(url)
html = r.frame.toHtml()
print(html)

内容总结

以上是互联网集市为您收集整理的Python爬取js动态添加的内容全部内容，希望文章能够帮你解决Python爬取js动态添加的内容所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/841410.html

来源：【匿名】

【上一篇】你不知道的javascript笔记(1)【下一篇】javascript 怎么调用php方法

更多 ►

【Python爬取js动态添加的内容】教程文章相关的互联网学习教程文章

Python如何爬取网页中js添加的内容（代码）【图】

本篇文章给大家带来的内容是关于Python如何爬取网页中js添加的内容（代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。当我们进行网页爬虫时，我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码，我们必须经过渲染处理才能获得原始数据。此时，如果我们仍采用常规方法从中抓取数据，那么我们将一无所获。那么，通过Web kit可以简单解决这个问题。Web kit 可...

利用python如何爬取js里面的内容【图】

本篇文章给大家分享的内容是3利用python如何爬取js里面的内容，有着一定的参考价值，有需要的朋友可以参考一下一、在编写爬虫软件获取所需内容时可能会碰到所需要的内容是由javascript添加上去的在获取的时候为空比如我们在获取新浪新闻的评论数时使用普通的方法就无法获取普通获取代码示例：import requests from bs4 import BeautifulSoupres = requests.get(http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.sh...

Python爬取js加密后的图片【代码】【图】

在使用Python想爬取某网站的图片，使用Python的requests模块的get()后，获取到了html文件。结果发现图片的src是动态加载，而且还加密了。在img标签下发现一个className=lazy：在script标签下发现：查阅资料后发现这是一个lazyload插件的启动代码。在f12检查元素的资源下找到lazyload.js，可以发现：在$.ajax()中可以看到参数url是密文的地址，success的匿名函数的参数res是访问url后的返回结果，可以看到该方法中调用了一...