首页 / JAVASCRIPT / javascript-使用Python,BeautifulSoup进行动态数据Web抓取

javascript-使用Python,BeautifulSoup进行动态数据Web抓取

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了javascript-使用Python,BeautifulSoup进行动态数据Web抓取，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2263字，纯文字阅读大概需要4分钟。

内容图文

javascript-使用Python,BeautifulSoup进行动态数据Web抓取

我试图从HTML中提取许多页面的数据(数字).每个页面的数据都不同.当我尝试使用soup.select(‘span [class =“ pull-right”]’)时,它应该给我数字,但是只有标签出现.我相信这是因为网页中使用了Javascript. 180,476是我要在许多页面上使用的特定HTML处的数据位置：

<div class="legend-block--body">
        <div class="linear-legend--counts">
          Pageviews:
          <span class="pull-right">
            180,476
          </span>
        </div>
        <div class="linear-legend--counts">
          Daily average:
          <span class="pull-right">
            8,594
          </span>
        </div></div>

我的代码(这在很多页面中都是循环的)：

res = requests.get(wiki_page, timeout =None)
soup = bs4.BeautifulSoup(res.text, 'html.parser')
ab=soup.select('span[class="pull-right"]')
print(ab)

输出：

[<span class="pull-right">\n<label class="logarithmic-scale">\n<input 
class="logarithmic-scale-option" type="checkbox"/>\n        Logarithmic scale      
</label>\n</span>, <span class="pull-right">\n<label class="begin-at- 
zero">\n<input class="begin-at-zero-option" type="checkbox"/>\n        Begin at 
zero      </label>\n</span>, <span class="pull-right">\n<label class="show- 
labels">\n<input class="show-labels-option" type="checkbox"/>\n        Show 
values      </label>\n</span>]

示例网址：https://tools.wmflabs.org/pageviews/?project=en.wikipedia.org&platform=all-access&agent=user&range=latest-20&pages=Star_Wars:_The_Last_Jedi

我想要综合浏览量

解决方法:

如果您使用requests.get检索页面,则JavaScript代码将不会执行.因此,应改为使用硒.在浏览器中打开页面时,它将模仿用户喜欢的行为,因此将执行js代码.

要开始使用硒,您需要使用pip install selenium安装.然后使用以下代码检索您的商品：

from selenium import webdriver

browser = webdriver.Firefox()
# List of the page url and selector of element to retrieve.
wiki_pages = [("https://tools.wmflabs.org/pageviews/?project=en.wikipedia.org&platform=all-access&agent=user&range=latest-20&pages=Star_Wars:_The_Last_Jedi",
               ".summary-column--container .legend-block--pageviews .linear-legend--counts:first-child span.pull-right"),]
for wiki_page in wiki_pages:
    url = wiki_page[0]
    selector = wiki_page[1]
    browser.get(wiki_page)
    page_views_count = browser.find_element_by_css_selector(selector)
    print page_views_count.text
browser.quit()

注意：如果需要运行无头浏览器,请考虑使用PyVirtualDisplay(Xvfb的包装器)运行无头WebDriver测试,有关更多信息,请参见’How do I run Selenium in Xvfb?‘.

内容总结

以上是互联网集市为您收集整理的javascript-使用Python,BeautifulSoup进行动态数据Web抓取全部内容，希望文章能够帮你解决javascript-使用Python,BeautifulSoup进行动态数据Web抓取所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/690667.html

来源：【匿名】

【上一篇】javascript-BrowserExtension webRequest.onBeforeRequest返回承诺【下一篇】javascript 怎么调用php方法

更多 ►

【javascript-使用Python,BeautifulSoup进行动态数据Web抓取】教程文章相关的互联网学习教程文章

Java抓取网页数据（原网页+Javascript返回数据）

转载请注明出处！原文链接：http://blog.csdn.net/zgyulongfei/article/details/7909006有时候因为种种原因，我们须要採集某个站点的数据，但因为不同站点对数据的显示方式略有不同！本文就用Java给大家演示怎样抓取站点的数据：（1）抓取原网页数据；（2）抓取网页Javascript返回的数据。一、抓取原网页。这个样例我们准备从http://ip.chinaz.com上抓取ip查询的结果：第一步：打开这个网页，然后输入IP：111.142.55.73，点击查询b...

Java抓取网页数据（原网页+Javascript返回数据）

javascript-Node.js抓取数据点击事件【代码】

我有一个重复的任务,必须定期执行.基本上,我需要进入网站,从不同的表中获取一些值,然后将其写入电子表格中.通过使用这些值,进行一些计算,准备报告等. 我想创建一个辅助机器人,因为这是直接的任务.我基本上可以通过打开控制台(在相关页面上)以及使用DOM或Jquery来获取信息,从而轻松获取数据. 我想更进一步,并在Node.js上创建一个应用程序(无需进入相关网站,我会将我的机器人发送到相关页面,并执行与控制台相同的操作.)我开始用cheer...

经典抓取网络数据方法效率分析（fsockopen/curl/file_get_contents）filegetcontents超时jsfilegetcontentsfilegetcontents

fsocketopen/curl/file_get_contents对比fsocketopen是比较底层的调用，属于网络系统的socket调用1、fsockopen 返回的是没有处理过的数据，包括数据的长度数据内容和数据的结束符2、可以设置基于UDP或是TCP协议去交互curlcurl经过的包装支持HTTPS认证，HTTP POST/PUT方法，cookies等等，功能十分强大。1、curl返回的是处理后的内容2、自动缓存DNS查询信息，同一域名只查询一次性能和效率较高3、支持get、post多种方式请求fopen/fil...

curl和file_get_contents抓取网页乱码的解决之道filegetcontents超时jsfilegetcontentswpfilegetcontents

今天用 curl_init 函数抓取搜狐的网页时，发现采集的网页时乱码，经过分析发现原来是服务器开启了gzip压缩功能。只要往函数 curl_setopt 添加多个选项 CURLOPT_ENCODING 解析 gzip 就可以正确解码了。还有如果抓取的网页时 GBK 编码，但是脚本确是 utf-8 编码，还得把抓取的网页再用函数 mb_convert_encoding 转换下。 $tmp = sys_get_temp_dir(); $cookieDump = tempnam($tmp, 'cookies'); $url = 'http://tv.s...

javascript-如何抓取浏览你网站的访客的QQ号码

如何抓取浏览你网站的访客的QQ号码回复内容：如何抓取浏览你网站的访客的QQ号码http://jingyan.baidu.com/article/36d6ed1f5368f31bcf48832e.html 网上的这个教程你看下是不是你要的。设置个QQ号码用来统计来源，在网站页面上加上该QQ号的QQ空间地址，然后在这个QQ空间内就能得到访问你网站时的QQ号码，你在写个抓取程序去抓这个QQ空间的访客记录。以上。

急:用snoopy抓取EMS验证码，远程模拟查询单号，无法获取JSessionID的问题?

会员life169之前在PHP版块发过一篇文章叫( 用snoopy抓取EMS验证码，远程模拟查询单号，取得查询结果) 链接是：http://topic.csdn.net/u/20100715/23/d58f2006-40ea-4cab-82e3-3bbcf4cd1e9f.html 可是我在测试的过程中却遇到一个问题，JsessionID，经常会取不到， session_start(); include("Snoopy.class.php"); $url = "http://www.ems.com.cn/qcgzOutQueryNewAction.do?reqCode=gotoSearch"; $url2 = "http...

抓取网页，但是里面内容是js填充的。

这个网站可以查询某个淘宝账号的信誉 http://www.kehuda.com/g/x/#username=%E6%97%A0%E6%95%8C 我想抓取他的查询结果，但是发现内容由js填充，而且js是做了一些加密处理。个人能力有限，不能分析出什么。现在想要拜求怎么能抓取到信誉，主要是几钻这里的信息。回复讨论(解决方案) js动态的生成的用服务器端的饿xmlhttpRequest那种对象获取不到的，除非已经写...

急用snoopy抓取EMS验证码，远程模拟查询单号，无法获取JSessionID的有关问题

急:用snoopy抓取EMS验证码，远程模拟查询单号，无法获取JSessionID的问题?会员life169之前在PHP版块发过一篇文章叫(用snoopy抓取EMS验证码，远程模拟查询单号，取得查询结果)链接是：http://topic.csdn.net/u/20100715/23/d58f2006-40ea-4cab-82e3-3bbcf4cd1e9f.html可是我在测试的过程中却遇到一个问题，JsessionID，经常会取不到，session_start(); include("Snoopy.class.php"); $url = "http://www.ems.com.cn/qcgzOutQueryN...

请教怎么抓取用JS分页的网页内容

请问如何抓取用JS分页的网页内容我要抓取一个网站的内容，这个网站分页机制是用js的。具体如下：[size=10px]HTML code 下一页 JScript code var pageno=1;function gogage(pno){tbl.firstPage();pageno=1;for(var i=1; (i < pno||pno==-1)&&i<xmldso.recordset.PageCount; i++,pageno++)tbl.nextPage();document.all.currentpage.innerText=pageno;}HTML code请高手赐教！------解决方案--------------------帮忙顶！ ------解决方...

Spider抓取动态内容（JavaScript指向的页面）

PHP新手，在写爬虫练手，一般情况下跟踪链接不是很难，但是如果是动态页面就束手无策了。也许分析协议（但是怎么分析？），模拟执行JavaScript脚本（怎么弄？），……另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问题，没有听说或相关开源项目。下面是问题描述：比如一个页面的下一页（ajax函数中有一个得到url对应数据放到content标签部分）：javascript: 下一页对应的JavaScript代码可能是：function Down(index) ...

javascript-用PHP抓取一个页面，但是这个页面需要登录才能显示，怎么抓取呢？

用PHP抓取一个网页，但是这个网页需要登录之后才能显示出来，登录的时候有数字验证码。怎么才能抓取这个页面呢？有什么很好的方法吗？回复内容：用PHP抓取一个网页，但是这个网页需要登录之后才能显示出来，登录的时候有数字验证码。怎么才能抓取这个页面呢？有什么很好的方法吗？伪造登录。这不是PHP序员的必修课么…curl模拟登录时保存cookie，再用curl去打开需要抓去的网页。下面对于登录需要验证码的，简单的，暂时性的办法，要...

javascript-php抓取的页面如何处理可以只保留DOM结构，去掉CSS和JS？

正则规则写好后，页面一旦有改变就要重新修改正则。先提取页面的 DOM，有没有比较好的办法？回复内容：正则规则写好后，页面一旦有改变就要重新修改正则。先提取页面的 DOM，有没有比较好的办法？我想你需要的是 php 的 DOM 模块 ... 默认有安装不用担心 ...因为不知道你的实际应用场景是什么 ... 给你写个简单的例子吧 ...<?php /* i heard that you need DOM ..? */ $doc = new DOMDocument();/* i wrote a simple page ... ch...

利用curl抓取网页数据，phantomjs..请神人解

小弟昨天有发文请教，有很多的神人给我小弟很大的帮忙，目前只剩下一小块的数据未抓到。有大大说用 phantomjs来抓取html 目前的js如var page = require(webpage).create();var url = http://www.cbssports.com/mlb/gametracker/live/MLB_20140528_CLE@CHW;page.open(url, function (status) { var js = page.evaluate(function () { return document; }); console.log(js.all[0].outerHTML); phantom.exit(); }); 误错，显示不出正...

首页 / JAVASCRIPT / javascript-使用Python,BeautifulSoup进行动态数据Web抓取

javascript-使用Python,BeautifulSoup进行动态数据Web抓取

内容导读

内容图文

内容总结

内容备注

内容手机端

【javascript-使用Python,BeautifulSoup进行动态数据Web抓取】教程文章相关的互联网学习教程文章

Java抓取网页数据（原网页+Javascript返回数据）

Java抓取网页数据（原网页+Javascript返回数据）

Java抓取网页数据（原网页+Javascript返回数据）

javascript-Node.js抓取数据点击事件【代码】

经典抓取网络数据方法效率分析（fsockopen/curl/file_get_contents）filegetcontents超时jsfilegetcontentsfilegetcontents

curl和file_get_contents抓取网页乱码的解决之道filegetcontents超时jsfilegetcontentswpfilegetcontents

javascript-如何抓取浏览你网站的访客的QQ号码

急:用snoopy抓取EMS验证码，远程模拟查询单号，无法获取JSessionID的问题?

抓取网页，但是里面内容是js填充的。

急用snoopy抓取EMS验证码，远程模拟查询单号，无法获取JSessionID的有关问题

请教怎么抓取用JS分页的网页内容

Spider抓取动态内容（JavaScript指向的页面）

javascript-用PHP抓取一个页面，但是这个页面需要登录才能显示，怎么抓取呢？

javascript-php抓取的页面如何处理可以只保留DOM结构，去掉CSS和JS？

利用curl抓取网页数据，phantomjs..请神人解

JAVASCRIPT - 相关标签

PYTHON - 相关标签

WEB - 相关标签

JAVASCRIPT - 技术教程分类

JAVASCRIPT - 最新教程

JAVASCRIPT - 最热教程