使用python(3.3.1)在html源代码中搜索字符串
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了使用python(3.3.1)在html源代码中搜索字符串,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1566字,纯文字阅读大概需要3分钟。
内容图文
![使用python(3.3.1)在html源代码中搜索字符串](/upload/InfoBanner/zyjiaocheng/732/dc9924f45ddf4855a0d1c7461d416395.jpg)
我正在开发一个从网页获取信息的项目.
在html源代码中我有以下内容:
Resultado de Busca:Foram encontrados 264 casais
我需要得到“encontrados”和“casais”之间的数字
无论如何在Python中有这样做吗?我应该使用什么字符串函数?我想在这种情况下避免使用正则表达式.
import urllib.request
f = urllib.request.urlopen("http://listadecasamento.fastshop.com.br/ListaCasamento/ListaCasamentoBusca.aspx?Data=2013-06-07")
s = f.read()
print(s.split())
到目前为止我得到了这个,但现在我找不到我需要的号码了.
import urllib.request
f = urllib.request.urlopen("http://listadecasamento.fastshop.com.br/ListaCasamento/ListaCasamentoBusca.aspx?Data=2013-06-07")
s = f.read()
num = int(s[s.index("encontrados")+len("encontrados"):s.index("casais")])
这给我下面的错误
TypeError:类型str不支持缓冲区API
解决方法:
我建议使用像Beautiful Soup这样的库,如果它是你要解析的HTML.不需要正则表达式.
编辑
使用刚刚添加的URL,这是获取HTML对象的示例代码:
import BeautifulSoup
import re
import urllib
data = urllib.urlopen('http://listadecasamento.fastshop.com.br/ListaCasamento/ListaCasamentoBusca.aspx?Data=2013-06-07').read()
soup = BeautifulSoup.BeautifulSoup(data)
element = soup.find('span', attrs={'class': re.compile(r".*\btxt_resultad_busca_casamento\b.*")})
print element.text
这将在页面上找到具有类txt_resultad_busca_casamento的HTML span元素,我相信这是您要提取的数据.从那里你可以解析.text属性来获得你感兴趣的确切数据.
编辑2
哎呀,刚才意识到使用正则表达式……看起来BeautifulSoup中的类匹配并不完美!这条线应该起作用,至少在网站更改HTML之前:
element = soup.find('div', attrs={'id': 'ctl00_body_uppBusca'}).find('span')
内容总结
以上是互联网集市为您收集整理的使用python(3.3.1)在html源代码中搜索字符串全部内容,希望文章能够帮你解决使用python(3.3.1)在html源代码中搜索字符串所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。