首页 / PYTHON / Wikipedia Scraper使用Python

Wikipedia Scraper使用Python

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Wikipedia Scraper使用Python，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1123字，纯文字阅读大概需要2分钟。

内容图文

嗨,我正在尝试构建一个简单的维基百科报废工具,可以让我分析文本,并使用python在一个人的生活中构建事件的时间表.我在网上搜索可能的方法,直到现在我已经能够使用BeautifulSoup和urllib2检索数据.到现在为止的代码看起来像这样：

from bs4 import  BeautifulSoup
import urllib2
import re
import nltk
import json


#get source code of page (function used later)
def fetchsource(url):
    source = urllib2.urlopen(url).read()
    return source

if __name__=='__main__':
    #url = "http://en.wikipedia.org/w/index.php?action=raw&title=Tom_Cruise" #works
    url="http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&&titles=Tom_Cruise" #works
    print url
    source = fetchsource(url)
    soup = BeautifulSoup(source)
    print soup.prettify()

现在虽然我可以使用它,但我得到的输出有点难以解析,我只是想问是否有更好的方法或可能更可管理的语法,我可以检索数据.
请评论.

解决方法:

您也可以使用pywikipediabot获取文章wikitext.例如,要获得Tom Cruise的wiki文本,就像在您的示例中一样,您可以使用：

import wikipedia

page = wikipedia.Page(wikipedia.getSite(), 'Tom_Cruise')

pageText = page.get()

print pageText

这样您就可以尝试从模板中获取数据,并且如果需要,还有一些wikitext解析器.

内容总结

以上是互联网集市为您收集整理的Wikipedia Scraper使用Python全部内容，希望文章能够帮你解决Wikipedia Scraper使用Python所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/751737.html

来源：【匿名】

【上一篇】嵌套字符串到元组python 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【Wikipedia Scraper使用Python】教程文章相关的互联网学习教程文章

mac怎么使用python【图】

mac怎么使用python？在mac上搭建python环境：mac系统其实自带了一个python的执行执行环境，用来运行python还行，但是开发可能就不够了，因此我们需要重新安装python。推荐：《Python教程》这里有两种方案安装：1.homebreWbrew install python，这个方案比较简单,如果出错的话可以给前面加sudo试试,这个安装的python可能不是最新版。从官网下载安装，大家可以从https://www.python.org/download下载安装最新版的python,安装比较无脑...

教你怎么使用Python爬虫进阶--X咕视频密码与指纹加密分析！【代码】【图】

先来看看今天的受害者： aHR0cDovL3d3dy5taWd1dmlkZW8uY29tL21ncy93ZWJzaXRlL3ByZC9pbmRleC5odG1s 一、分析密码加密这次分析的是他登陆的三个参数，先分析登陆逻辑，抓个包看看。可以看到这里用的是弹出的窗口登陆【图1-1】，为了避免主页其他元素的干扰抓包，我们可以通过右键查看框架源代码的方式打开登陆框分析抓包【图1-2】。把打开的源代码页面地址栏中的 view-source: 删除即可打开以下页面【图1-3】：接下来用错误的账号...

教你怎么使用Python对word文档进行操作【代码】【图】

使用Python对word文档进行操作一、安装Python-docx Python-docx是专门针对于word文档的一个模块，只能读取docx 不能读取doc文件。说白了，python就相当于windows操作系统，QQ就是跑在windows操作系统上的软件，QQ最大的作用是可以去聊天，说话。在这里python-docx就相当于这里的qq 它主要的功能是对docx文件进行操作，管理等.(个人理解，非专业!) 1.1、安装Python-docx 1.1.1、使用虚拟环境安装python-docx pip install python-do...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / Wikipedia Scraper使用Python

Wikipedia Scraper使用Python

内容导读

内容图文

内容总结

内容备注

内容手机端

【Wikipedia Scraper使用Python】教程文章相关的互联网学习教程文章

mac怎么使用python【图】

教你怎么使用Python爬虫进阶--X咕视频密码与指纹加密分析！【代码】【图】

教你怎么使用Python对word文档进行操作【代码】【图】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程