Wikipedia Scraper使用Python
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了Wikipedia Scraper使用Python,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1123字,纯文字阅读大概需要2分钟。
内容图文
![Wikipedia Scraper使用Python](/upload/InfoBanner/zyjiaocheng/752/318e36d4c29543db9a900b35c801265a.jpg)
嗨,我正在尝试构建一个简单的维基百科报废工具,可以让我分析文本,并使用python在一个人的生活中构建事件的时间表.我在网上搜索可能的方法,直到现在我已经能够使用BeautifulSoup和urllib2检索数据.到现在为止的代码看起来像这样:
from bs4 import BeautifulSoup
import urllib2
import re
import nltk
import json
#get source code of page (function used later)
def fetchsource(url):
source = urllib2.urlopen(url).read()
return source
if __name__=='__main__':
#url = "http://en.wikipedia.org/w/index.php?action=raw&title=Tom_Cruise" #works
url="http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&&titles=Tom_Cruise" #works
print url
source = fetchsource(url)
soup = BeautifulSoup(source)
print soup.prettify()
现在虽然我可以使用它,但我得到的输出有点难以解析,我只是想问是否有更好的方法或可能更可管理的语法,我可以检索数据.
请评论.
解决方法:
您也可以使用pywikipediabot获取文章wikitext.例如,要获得Tom Cruise的wiki文本,就像在您的示例中一样,您可以使用:
import wikipedia
page = wikipedia.Page(wikipedia.getSite(), 'Tom_Cruise')
pageText = page.get()
print pageText
这样您就可以尝试从模板中获取数据,并且如果需要,还有一些wikitext解析器.
内容总结
以上是互联网集市为您收集整理的Wikipedia Scraper使用Python全部内容,希望文章能够帮你解决Wikipedia Scraper使用Python所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。