首页 / JAVASCRIPT / javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站

javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3572字，纯文字阅读大概需要6分钟。

内容图文

javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站

在过去的几周里,你可能已经看到了我绝望的挫败感.我一直在抓一些等待时间数据,但我仍然无法从这两个站点获取数据

http://www.centura.org/erwait

http://hcavirginia.com/home/

起初我尝试使用BS4 for Python. HCA Virgina的示例代码如下

from BeautifulSoup import BeautifulSoup
import requests

url = 'http://hcavirginia.com/home/'
r = requests.get(url)

soup = BeautifulSoup(r.text)
wait_times = [span.text for span in soup.findAll('span', attrs={'class': 'ehc-er-digits'})]

fd = open('HCA_Virginia.csv', 'a')

for w in wait_times:
    fd.write(w + '\n')

fd.close()

所有这些都是打印空白到控制台或CSV.所以我尝试使用PhantomJS,因为有人告诉我它可能正在加载JS.然而,同样的结果！打印空白到控制台或CSV.示例代码如下.

var page = require('webpage').create(),
url = 'http://hcavirginia.com/home/';

page.open(url, function(status) {
if (status !== "success") {
    console.log("Can't access network");
} else {
    var result = page.evaluate(function() {

        var list = document.querySelectorAll('span.ehc-er-digits'), time = [], i;
        for (i = 0; i < list.length; i++) {
            time.push(list[i].innerText);
        }
        return time;

    });
    console.log (result.join('\n'));
    var fs = require('fs');
    try 
    {                   
        fs.write("HCA_Virginia.csv", '\n' + result.join('\n'), 'a');
    } 
    catch(e) 
    {
        console.log(e); 
    } 
}

phantom.exit();
});

与Centura Health相同的问题:(

我究竟做错了什么？

解决方法:

您面临的问题是元素是由JS创建的,可能需要一些时间才能加载它们.您需要一个处理JS的scraper,并且可以等到创建所需的元素.

你可以使用PyQt4.改编this recipe from webscraping.com和像BeautifulSoup这样的HTML解析器,这很简单：

(写完之后,我找到了用于python的webscraping库.可能值得一看)

import sys
from bs4 import BeautifulSoup
from PyQt4.QtGui import *
from PyQt4.QtCore import *
from PyQt4.QtWebKit import * 

class Render(QWebPage):
    def __init__(self, url):
        self.app = QApplication(sys.argv)
        QWebPage.__init__(self)
        self.loadFinished.connect(self._loadFinished)
        self.mainFrame().load(QUrl(url))
        self.app.exec_()

    def _loadFinished(self, result):
        self.frame = self.mainFrame()
        self.app.quit()   

url = 'http://hcavirginia.com/home/'
r = Render(url)
soup = BeautifulSoup(unicode(r.frame.toHtml()))
# In Python 3.x, don't unicode the output from .toHtml(): 
#soup = BeautifulSoup(r.frame.toHtml()) 
nums = [int(span) for span in soup.find_all('span', class_='ehc-er-digits')]
print nums

输出：

[21, 23, 47, 11, 10, 8, 68, 56, 19, 15, 7]

这是我原来的答案,使用ghost.py：

我设法使用ghost.py为你一起破解了一些东西.(在Python 2.7上测试,ghost.py 0.1b3和PyQt4-4 32-bit).我不建议在生产代码中使用它！

from ghost import Ghost
from time import sleep

ghost = Ghost(wait_timeout=50, download_images=False)
page, extra_resources = ghost.open('http://hcavirginia.com/home/',
                                   headers={'User-Agent': 'Mozilla/4.0'})

# Halt execution of the script until a span.ehc-er-digits is found in 
# the document
page, resources = ghost.wait_for_selector("span.ehc-er-digits")

# It should be possible to simply evaluate
# "document.getElementsByClassName('ehc-er-digits');" and extract the data from
# the returned dictionary, but I didn't quite understand the
# data structure - hence this inline javascript.
nums, resources = ghost.evaluate(
    """
    elems = document.getElementsByClassName('ehc-er-digits');
    nums = []
    for (i = 0; i < elems.length; ++i) {
        nums[i] = elems[i].innerHTML;
    }
    nums;
    """)

wt_data = [int(x) for x in nums]
print wt_data
sleep(30) # Sleep a while to avoid the crashing of the script. Weird issue!

一些评论：

>从我的评论中可以看出,我没有完全弄清楚Ghost.evaluate返回的dict的结构(document.getElementsByClassName(‘ehc-er-digits’);) – 它可能找到所需的信息但是使用这样的查询.
>我也遇到了一些问题,最后脚本崩溃了.睡了30秒就解决了这个问题.

内容总结

以上是互联网集市为您收集整理的javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站全部内容，希望文章能够帮你解决javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/759951.html

来源：【匿名】

【上一篇】如何在JavaScript中定义对象变量结构？【下一篇】javascript 怎么调用php方法

更多 ►

【javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站】教程文章相关的互联网学习教程文章

Java抓取网页数据（原网页+Javascript返回数据）

转载请注明出处！原文链接：http://blog.csdn.net/zgyulongfei/article/details/7909006有时候因为种种原因，我们须要採集某个站点的数据，但因为不同站点对数据的显示方式略有不同！本文就用Java给大家演示怎样抓取站点的数据：（1）抓取原网页数据；（2）抓取网页Javascript返回的数据。一、抓取原网页。这个样例我们准备从http://ip.chinaz.com上抓取ip查询的结果：第一步：打开这个网页，然后输入IP：111.142.55.73，点击查询b...

Java抓取网页数据（原网页+Javascript返回数据）

javascript-Node.js抓取数据点击事件【代码】

我有一个重复的任务,必须定期执行.基本上,我需要进入网站,从不同的表中获取一些值,然后将其写入电子表格中.通过使用这些值,进行一些计算,准备报告等. 我想创建一个辅助机器人,因为这是直接的任务.我基本上可以通过打开控制台(在相关页面上)以及使用DOM或Jquery来获取信息,从而轻松获取数据. 我想更进一步,并在Node.js上创建一个应用程序(无需进入相关网站,我会将我的机器人发送到相关页面,并执行与控制台相同的操作.)我开始用cheer...

经典抓取网络数据方法效率分析（fsockopen/curl/file_get_contents）filegetcontents超时jsfilegetcontentsfilegetcontents

fsocketopen/curl/file_get_contents对比fsocketopen是比较底层的调用，属于网络系统的socket调用1、fsockopen 返回的是没有处理过的数据，包括数据的长度数据内容和数据的结束符2、可以设置基于UDP或是TCP协议去交互curlcurl经过的包装支持HTTPS认证，HTTP POST/PUT方法，cookies等等，功能十分强大。1、curl返回的是处理后的内容2、自动缓存DNS查询信息，同一域名只查询一次性能和效率较高3、支持get、post多种方式请求fopen/fil...

curl和file_get_contents抓取网页乱码的解决之道filegetcontents超时jsfilegetcontentswpfilegetcontents

今天用 curl_init 函数抓取搜狐的网页时，发现采集的网页时乱码，经过分析发现原来是服务器开启了gzip压缩功能。只要往函数 curl_setopt 添加多个选项 CURLOPT_ENCODING 解析 gzip 就可以正确解码了。还有如果抓取的网页时 GBK 编码，但是脚本确是 utf-8 编码，还得把抓取的网页再用函数 mb_convert_encoding 转换下。 $tmp = sys_get_temp_dir(); $cookieDump = tempnam($tmp, 'cookies'); $url = 'http://tv.s...

javascript-如何抓取浏览你网站的访客的QQ号码

如何抓取浏览你网站的访客的QQ号码回复内容：如何抓取浏览你网站的访客的QQ号码http://jingyan.baidu.com/article/36d6ed1f5368f31bcf48832e.html 网上的这个教程你看下是不是你要的。设置个QQ号码用来统计来源，在网站页面上加上该QQ号的QQ空间地址，然后在这个QQ空间内就能得到访问你网站时的QQ号码，你在写个抓取程序去抓这个QQ空间的访客记录。以上。

急:用snoopy抓取EMS验证码，远程模拟查询单号，无法获取JSessionID的问题?

会员life169之前在PHP版块发过一篇文章叫( 用snoopy抓取EMS验证码，远程模拟查询单号，取得查询结果) 链接是：http://topic.csdn.net/u/20100715/23/d58f2006-40ea-4cab-82e3-3bbcf4cd1e9f.html 可是我在测试的过程中却遇到一个问题，JsessionID，经常会取不到， session_start(); include("Snoopy.class.php"); $url = "http://www.ems.com.cn/qcgzOutQueryNewAction.do?reqCode=gotoSearch"; $url2 = "http...

抓取网页，但是里面内容是js填充的。

这个网站可以查询某个淘宝账号的信誉 http://www.kehuda.com/g/x/#username=%E6%97%A0%E6%95%8C 我想抓取他的查询结果，但是发现内容由js填充，而且js是做了一些加密处理。个人能力有限，不能分析出什么。现在想要拜求怎么能抓取到信誉，主要是几钻这里的信息。回复讨论(解决方案) js动态的生成的用服务器端的饿xmlhttpRequest那种对象获取不到的，除非已经写...

急用snoopy抓取EMS验证码，远程模拟查询单号，无法获取JSessionID的有关问题

急:用snoopy抓取EMS验证码，远程模拟查询单号，无法获取JSessionID的问题?会员life169之前在PHP版块发过一篇文章叫(用snoopy抓取EMS验证码，远程模拟查询单号，取得查询结果)链接是：http://topic.csdn.net/u/20100715/23/d58f2006-40ea-4cab-82e3-3bbcf4cd1e9f.html可是我在测试的过程中却遇到一个问题，JsessionID，经常会取不到，session_start(); include("Snoopy.class.php"); $url = "http://www.ems.com.cn/qcgzOutQueryN...

请教怎么抓取用JS分页的网页内容

请问如何抓取用JS分页的网页内容我要抓取一个网站的内容，这个网站分页机制是用js的。具体如下：[size=10px]HTML code 下一页 JScript code var pageno=1;function gogage(pno){tbl.firstPage();pageno=1;for(var i=1; (i < pno||pno==-1)&&i<xmldso.recordset.PageCount; i++,pageno++)tbl.nextPage();document.all.currentpage.innerText=pageno;}HTML code请高手赐教！------解决方案--------------------帮忙顶！ ------解决方...

Spider抓取动态内容（JavaScript指向的页面）

PHP新手，在写爬虫练手，一般情况下跟踪链接不是很难，但是如果是动态页面就束手无策了。也许分析协议（但是怎么分析？），模拟执行JavaScript脚本（怎么弄？），……另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问题，没有听说或相关开源项目。下面是问题描述：比如一个页面的下一页（ajax函数中有一个得到url对应数据放到content标签部分）：javascript: 下一页对应的JavaScript代码可能是：function Down(index) ...

javascript-用PHP抓取一个页面，但是这个页面需要登录才能显示，怎么抓取呢？

用PHP抓取一个网页，但是这个网页需要登录之后才能显示出来，登录的时候有数字验证码。怎么才能抓取这个页面呢？有什么很好的方法吗？回复内容：用PHP抓取一个网页，但是这个网页需要登录之后才能显示出来，登录的时候有数字验证码。怎么才能抓取这个页面呢？有什么很好的方法吗？伪造登录。这不是PHP序员的必修课么…curl模拟登录时保存cookie，再用curl去打开需要抓去的网页。下面对于登录需要验证码的，简单的，暂时性的办法，要...

javascript-php抓取的页面如何处理可以只保留DOM结构，去掉CSS和JS？

正则规则写好后，页面一旦有改变就要重新修改正则。先提取页面的 DOM，有没有比较好的办法？回复内容：正则规则写好后，页面一旦有改变就要重新修改正则。先提取页面的 DOM，有没有比较好的办法？我想你需要的是 php 的 DOM 模块 ... 默认有安装不用担心 ...因为不知道你的实际应用场景是什么 ... 给你写个简单的例子吧 ...<?php /* i heard that you need DOM ..? */ $doc = new DOMDocument();/* i wrote a simple page ... ch...

利用curl抓取网页数据，phantomjs..请神人解

小弟昨天有发文请教，有很多的神人给我小弟很大的帮忙，目前只剩下一小块的数据未抓到。有大大说用 phantomjs来抓取html 目前的js如var page = require(webpage).create();var url = http://www.cbssports.com/mlb/gametracker/live/MLB_20140528_CLE@CHW;page.open(url, function (status) { var js = page.evaluate(function () { return document; }); console.log(js.all[0].outerHTML); phantom.exit(); }); 误错，显示不出正...

首页 / JAVASCRIPT / javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站

javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站

内容导读

内容图文

内容总结

内容备注

内容手机端

【javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站】教程文章相关的互联网学习教程文章

JAVASCRIPT - 相关标签

PYTHON - 相关标签

JAVASCRIPT - 技术教程分类

JAVASCRIPT - 最新教程

JAVASCRIPT - 最热教程