python-BeautifulSoup在Amazon EC2计算机上的行为有所不同
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python-BeautifulSoup在Amazon EC2计算机上的行为有所不同,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含4749字,纯文字阅读大概需要7分钟。
内容图文
我正在运行以下脚本:
from bs4 import BeautifulSoup
import urllib2
import sys
print sys.version
url = 'https://www.google.com/finance'
page = urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
trends_tag = soup.find('div', {'id': 'topmovers'})
tags = trends_tag.find_all('td', 'change chg')
print len(tags)
tag = tags[0]
print 'Tag: ' + tag.text
在我的计算机上,输出为:
2.7.8 (default, Jun 30 2014, 16:03:49) [MSC v.1500 32 bit (Intel)]
11
Tag: 33.24%
在EC2机器上,输出为:
2.7.8 (default, Jun 30 2014, 16:03:49) [MSC v.1500 32 bit (Intel)]
11
Tag: 33.24%
12.18B
CLX
The Clorox Co
7.35%
11.67B
THOR
Thoratec Corporation
6.12%
1.47B
FOE
Ferro Corporation
6.03%
1.17B
NORD
Nord Anglia Education Inc
5.88%
1.70B
LosersChange
Mkt Cap
CRR
CARBO Ceramics Inc.
-16.10%
1.95B
CMCT
CIM Commercial Trust Corp
-10.54%
1.84B
HLF
Herbalife Ltd.
-10.31%
4.11B
INVN
InvenSense Inc
-10.10%
2.08B
TRS
TriMas Corp
-9.99%
1.34B
我已经将两台机器更新为相同的python版本.但是,已安装的软件包有所不同.我的机器:
>pip freeze
PIL==1.1.7
beautifulsoup4==4.3.2
colorama==0.3.1
cssselect==0.9.1
frida==1.6.0
lxml==3.4.0
newspaper==0.0.7
numpy==1.8.1
pefile==1.2.10-139
pudb==2013.5.1
pygments==1.6
requests==2.4.1
scikit-learn==0.15-git
urwid==1.2.0
xlrd==0.9.2
xlwt==0.7.5
EC2机器:
>pip freeze
beautifulsoup4==4.3.2
似乎find_all返回一个比其应有的标记大得多的标记.另外,当运行打印标签[0]时,我得到:
我的机器:
<td class="change chg">33.24%
</td>
在EC2机器上:
<td class="change chg">33.24%
<td class="mktCap">12.18B
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:CLX&ei=lkwhVJDfJKjeiALmvYHACA" title="CLX">CLX</a>
<td class="name">
<a href="/finance?q=NYSE:CLX&ei=lkwhVJDfJKjeiALmvYHACA">The Clorox Co</a>
<td class="change chg">7.35%
<td class="mktCap">11.67B
<tr>
<td class="symbol">
<a href="/finance?q=NASDAQ:THOR&ei=lkwhVJDfJKjeiALmvYHACA" title="THOR">THOR
</a>
<td class="name">
<a href="/finance?q=NASDAQ:THOR&ei=lkwhVJDfJKjeiALmvYHACA">Thoratec Corporat
ion</a>
<td class="change chg">6.12%
<td class="mktCap">1.47B
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:FOE&ei=lkwhVJDfJKjeiALmvYHACA" title="FOE">FOE</a>
<td class="name">
<a href="/finance?q=NYSE:FOE&ei=lkwhVJDfJKjeiALmvYHACA">Ferro Corporation</a
>
<td class="change chg">6.03%
<td class="mktCap">1.17B
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:NORD&ei=lkwhVJDfJKjeiALmvYHACA" title="NORD">NORD</
a>
<td class="name">
<a href="/finance?q=NYSE:NORD&ei=lkwhVJDfJKjeiALmvYHACA">Nord Anglia Educati
on Inc</a>
<td class="change chg">5.88%
<td class="mktCap">1.70B
<tr><td style="height:.7em">
<tr class="colHeader">
<td class="title chr">Losers<td class="change">Change
<td class="mktCap">Mkt Cap
</td></td></td></tr>
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:CRR&ei=lkwhVJDfJKjeiALmvYHACA" title="CRR">CRR</a>
<td class="name">
<a href="/finance?q=NYSE:CRR&ei=lkwhVJDfJKjeiALmvYHACA">CARBO Ceramics Inc.<
/a>
<td class="change chr">-16.10%
<td class="mktCap">1.95B
<tr>
<td class="symbol">
<a href="/finance?q=NASDAQ:CMCT&ei=lkwhVJDfJKjeiALmvYHACA" title="CMCT">CMCT
</a>
<td class="name">
<a href="/finance?q=NASDAQ:CMCT&ei=lkwhVJDfJKjeiALmvYHACA">CIM Commercial Tr
ust Corp</a>
<td class="change chr">-10.54%
<td class="mktCap">1.84B
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:HLF&ei=lkwhVJDfJKjeiALmvYHACA" title="HLF">HLF</a>
<td class="name">
<a href="/finance?q=NYSE:HLF&ei=lkwhVJDfJKjeiALmvYHACA">Herbalife Ltd.</a>
<td class="change chr">-10.31%
<td class="mktCap">4.11B
<tr>
<td class="symbol">
<a href="/finance?q=NYSE:INVN&ei=lkwhVJDfJKjeiALmvYHACA" title="INVN">INVN</
a>
<td class="name">
<a href="/finance?q=NYSE:INVN&ei=lkwhVJDfJKjeiALmvYHACA">InvenSense Inc</a>
<td class="change chr">-10.10%
<td class="mktCap">2.08B
<tr>
<td class="symbol">
<a href="/finance?q=NASDAQ:TRS&ei=lkwhVJDfJKjeiALmvYHACA" title="TRS">TRS</a
>
<td class="name">
<a href="/finance?q=NASDAQ:TRS&ei=lkwhVJDfJKjeiALmvYHACA">TriMas Corp</a>
<td class="change chr">-9.99%
<td class="mktCap">1.34B
<tr><td style="height:.7em">
</td></tr></td></td></td></td></tr></td></td></td></td></tr></td></td></td></td>
</tr></td></td></td></td></tr></td></td></td></td></tr></td></tr></td></td></td>
</td></tr></td></td></td></td></tr></td></td></td></td></tr></td></td></td></td>
</tr></td></td>
注意< / td>< / tr>最后-出于某种原因,它会合并分支.
是什么导致这种差异?
很抱歉这个长问题
解决方法:
区别在于lxml. BeautifulSoup在安装时将lxml用作默认解析器,而在未安装时会回退到标准库HTMLParser模块.
您输入的HTML格式不正确,当解析器呈现此类HTML时,可以“充分利用”它. lxml和HTMLParser使用不同的方法来修复HTML.
您可以通过在创建BeautifulSoup()实例时在第二个参数中将其命名来强制BeautifulSoup使用特定的解析器,请参见Specifying a parser to use:
soup = BeautifulSoup(page, 'html.parser')
内容总结
以上是互联网集市为您收集整理的python-BeautifulSoup在Amazon EC2计算机上的行为有所不同全部内容,希望文章能够帮你解决python-BeautifulSoup在Amazon EC2计算机上的行为有所不同所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。