在剥离了python中的样式和元素后如何解析代码
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了在剥离了python中的样式和元素后如何解析代码,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1881字,纯文字阅读大概需要3分钟。
内容图文
![在剥离了python中的样式和元素后如何解析代码](/upload/InfoBanner/zyjiaocheng/681/86c637d048bd46a6a4992103782b7f85.jpg)
这是关于html解析的一个非常基本的问题:
我是python(编码,计算机科学等)的新手,自学解析html,并且导入了模式和漂亮的汤模块进行解析.我在互联网上找到了此代码,以删除所有格式.
import requests
import json
import urllib
from lxml import etree
from pattern import web
from bs4 import BeautifulSoup
url = "http://webrates.truefx.com/rates/connect.html?f=html"
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
# kill all script and style elements
for script in soup(["script", "style"]):
script.extract() # rip it out
# get text
text = soup.get_text()
# break into lines and remove leading and trailing space on each
lines = (line.strip() for line in text.splitlines())
# break multi-headlines into a line each
chunks = (phrase.strip() for line in lines for phrase in line.split(" "))
# drop blank lines
text = '\n'.join(chunk for chunk in chunks if chunk)
print(text)
这将产生以下输出:
EUR/USD14265522866931.056661.056751.056081.057911.05686USD/JPY1426552286419121.405121.409121.313121.448121.382GBP/USD14265522866821.482291.482361.481941.483471.48281EUR/GBP14265522865290.712790.712900.712300.713460.71273USD/CHF14265522866361.008041.008291.006551.008791.00682EUR/JPY1426552286635128.284128.296128.203128.401128.280EUR/CHF14265522866551.065121.065441.063491.066281.06418USD/CAD14265522864891.278211.278321.276831.278531.27746AUD/USD14265522864960.762610.762690.761150.764690.76412GBP/JPY1426552286682179.957179.976179.854180.077179.988
现在,从这一点开始,我该如何进一步解析,以说我只想要字符串“ USD / CHF”还是特定的数据点?
有没有更简单的方法可以进行网络抓取和解析?任何建议都很好!
系统规格:
Windows 7的64位
IDE:闲置
的Python:2.7.5
谢谢大家,
生锈的
解决方法:
Keep it simple.按文本查找单元格(例如,USD / CHF)并获得following siblings:
text = 'USD/CHF'
cell = soup.find('td', text=text)
for td in cell.next_siblings:
print td.text
印刷品:
1426561775912
1.00
768
1.00
782
1.00655
1.00879
1.00682
内容总结
以上是互联网集市为您收集整理的在剥离了python中的样式和元素后如何解析代码全部内容,希望文章能够帮你解决在剥离了python中的样式和元素后如何解析代码所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。