首页 / HTML / 使用Python BeautifulSoup解析HTML表

使用Python BeautifulSoup解析HTML表

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用Python BeautifulSoup解析HTML表，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2337字，纯文字阅读大概需要4分钟。

内容图文

我试图使用BeautifulSoup来解析我上传到http://pastie.org/8070879的html表,以便将三列(0到735,0.50到1.0和0.5到0.0)作为列表.为了解释原因,我希望整数0-735为键,十进制数为值.

通过阅读关于SO的许多其他帖子,我提出了以下内容,这些内容并未接近创建我想要的列表.它只是显示表格中的文字,如http://i1285.photobucket.com/albums/a592/TheNexulo/output_zps20c5afb8.png所示

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("fide.html"))
table = soup.find('table')

rows = table.findAll('tr')

for tr in rows:
  cols = tr.findAll('td')
  for td in cols:
     text = ''.join(td.find(text=True))
     print text + "|",
  print

我是Python和BeautifulSoup的新手,所以请温柔地对待我！谢谢

解决方法:

像BeautifulSoup这样的HTML解析器假定你想要的是一个反映输入HTML结构的对象模型.但有时候(就像在这种情况下),这种模式不仅仅是帮助. Pyparsing包含一些HTML解析功能,这些功能比仅使用原始正则表达式更强大,但是以其他类似的方式工作,让您定义感兴趣的HTML片段,而忽略其余部分.这是一个解析您发布的HTML源代码的解析器：

from pyparsing import makeHTMLTags,withAttribute,Suppress,Regex,Group

""" looking for this recurring pattern:
          <td valign="top" bgcolor="#FFFFCC">00-03</td>
          <td valign="top">.50</td>
          <td valign="top">.50</td>

    and want a dict with keys 0, 1, 2, and 3 all with values (.50,.50)
"""

td,tdend = makeHTMLTags("td")
keytd = td.copy().setParseAction(withAttribute(bgcolor="#FFFFCC"))
td,tdend,keytd = map(Suppress,(td,tdend,keytd))

realnum = Regex(r'1?\.\d+').setParseAction(lambda t:float(t[0]))
integer = Regex(r'\d{1,3}').setParseAction(lambda t:int(t[0]))
DASH = Suppress('-')

# build up an expression matching the HTML bits above
entryExpr = (keytd + integer("start") + DASH + integer("end") + tdend + 
                    Group(2*(td + realnum + tdend))("vals"))

这个解析器不仅可以选出匹配的三元组,还可以提取起始端整数和实数对(并且在解析时也已经从字符串转换为整数或浮点数).

看看表格,我猜你实际上想要一个像700这样的密钥的查找,然后返回这对值(0.99,0.01),因为700在620-735的范围内.这段代码搜索源HTML文本,迭代匹配的条目并将键值对插入到dict查找中：

# search the input HTML for matches to the entryExpr expression, and build up lookup dict
lookup = {}
for entry in entryExpr.searchString(sourcehtml):
    for i in range(entry.start, entry.end+1):
        lookup[i] = tuple(entry.vals)

现在尝试一些查找：

# print out some test values
for test in (0,20,100,700):
    print (test, lookup[test])

打印：

0 (0.5, 0.5)
20 (0.53, 0.47)
100 (0.64, 0.36)
700 (0.99, 0.01)

内容总结

以上是互联网集市为您收集整理的使用Python BeautifulSoup解析HTML表全部内容，希望文章能够帮你解决使用Python BeautifulSoup解析HTML表所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/825872.html

来源：【匿名】

【上一篇】c# – Html.ActionLink从不同文件夹中的另一个控制器调用操作【下一篇】PHP 和 HTML

更多 ►

【使用Python BeautifulSoup解析HTML表】教程文章相关的互联网学习教程文章

html新增结构元素解析【代码】

本文主要帮助理解HTML5新增的article、section、aside、nav、time标签的使用场景。section表示页面上的区域，主要的目的是给文章分段等，section里必须包含标题。<section> <h1>标题</h1> <article>内容</article> </section>article表示页面上独立的区域，和section相比，article更注重自身的独立性。<article> <section><h1>标题</h1><p>内容</p> </section> </article>aside表示页面的附加内容，可以是文章的含义，链接等<artic...

解析PHP生成静态html文件的三种方法

本文将介绍Php 生成静态html文件的三种方法。1,下面使用模版的一个方法!复制代码代码如下:<?php $fp = fopen ("templets.html","a"); if ($fp){ $fup = fread ($fp,filesize("templets.html")); $fp2 = fopen ("html.shtml","w"); if ($fwrite ($fp2,$fup)){ $fclose ($fp); $fcolse ($fp2); die ("写入模板成功"); } else { fclose ($fp); die ("写入模板失败!"); } } ?> 简单的将模板写进一个文件中存为html.html 2,按时间生成...

Python实现简单HTML表格解析的方法【代码】

本文实例讲述了Python实现简单HTML表格解析的方法。分享给大家供大家参考。具体分析如下：这里依赖libxml2dom，确保首先安装！导入到你的脚步并调用parse_tables() 函数。1. source = a string containing the source code you can pass in just the table or the entire page code2. headers = a list of ints OR a list of strings If the headers are ints this is for tables with no header, just list the 0 based index of...

HTML解析过程

1. 创建Document对象，开始解析web页面，解析HTML元素和字符数据，添加Element节点和text节点到Document中，此时，document.readyState = loading 2.遇到 link 外部 CSS，创建线程加载，并继续解析文档 3.遇到 script 外部Js: （1）未设置 async、defer浏览器加载Js，并堵塞，等待Js加载完成后执行脚本，然后继续解析文档（2）设置 async 异步加载脚本，脚本加载完立即执行脚本（3）设置defer异步加载脚本，等待文档解析完执行脚本...

用Qt写软件系列六：博客园客户端的设计与实现（用Fiddler抓包，用CURL提交数据，用htmlcxx解析HTML）【图】

引言博客园是本人每日必逛的一个IT社区。尽管博文以.net技术居多，但是相对于CSDN这种业务杂乱、体系庞大的平台，博客园的纯粹更得我青睐。之前在园子里也见过不少讲解为博客园编写客户端的博文。不过似乎都是移动端的技术为主。这篇博文开始讲讲如何在PC端编写一个博客园客户端程序。一方面是因为本人对于博客园的感情；另一方面也想用Qt写点什么东西出来。毕竟在实践中学习收效更快。登录过程分析登录功能是一个...

html5 audio音频播放全解析【代码】【图】

html5开启了一个新时代，因为它让浏览器本身变得不那么被动，audio api就是一个典型的列子，在html5还没确定之前，如果想要在网页上听音乐看视频唯一的办法就是用flash意思是当你没有给浏览器装载Flash插件的话那么音乐视频即是空谈，html5 audio的出现改变了这一格局，因为你可以不用Flash插件就可以听音乐看视频，当然这些能否实现还跟你用的浏览器有关。 1.html5 audio的语法以及属性和方法使用语法<audio src="song.mp3" con...

HTML_a标签的href属性取值解析

定义和用法<a> 标签的 href 属性用于指定超链接目标的 URL。href 属性的值可以是任何有效文档的相对或绝对 URL，包括片段标识符和 JavaScript 代码段。如果用户选择了 <a> 标签中的内容，那么浏览器会尝试检索并显示 href 属性指定的 URL 所表示的文档，或者执行 JavaScript 表达式、方法和函数的列表。 1 <a href="路径"></a>这种方法最常见，点击a标签，页面将会跳转到href指定的路径页面下。这里的路径可以是绝对路径，也可以是...

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack 最近处于毕业设计开始阶段，前期工作需要去国外的一些专业数据库网站比对一些所需TF家族信息，为了快捷方便，想到用程序去帮助实现。前期实现了一系列的尝试，使用C#的的网络编程类库，获取查询结果，但是为了分析其中的结果并进行比对，我最开始尝试了两天之久的正则表达式，最后发现在解析这样的HTML文档的时候，花费时间太多，因此开始改变策略，最后得知MSHTML和HAP这两个...

关于源码输出,浏览器不解析Html标签【图】

有时候根据需要我们需要看到浏览器上源码效果如:但是我如果在html中输入 <a href = ‘http://www.baidu.com‘>百度</a>那么问题来了,总是显示这种效果说明html源被解析,哦No可是这不是我们想到的效果没事我们看一看 w3c效果是不是看出什到来了,我们要用到pre标签中给我们呈现某种需要如 < , >这些符号在编辑源码：哦　真相大白如下:原文：http://www.cnblogs.com/yzenet/p/4720030.html

关于HtmlAgilityPack解析页面中数据乱码问题

第一种方式： public static HtmlDocument LoadHtmlByUrls(string url) { HtmlDocument htmldoc; HtmlWeb htmlWeb = new HtmlWeb(); //不够完善此内置方法导致中文乱码 //htmlWeb.OverrideEncoding = Encoding.UTF8; htmldoc = htmlWeb.Load(url); Encoding coding = htmldoc.StreamEncoding; htmlWeb.Over...

Python_lxml解析HTML【代码】

1.Python解析XML的常用方法有以下几种：1、DOM解析, xml.dom.*模块。 2、SAX解析, xml.sax.*模块。 3、ET解析, xml.etree.ElementTree模块。 4、lxml解析,并结合XPath提取元素。 01.说明：lxml有两大部分，分别支持XML和HTML的解析：lxml.etree 解析 XMLlxml.html 解析 html from lxml import etree, html 02.lxml解析#01.导入相关标准库from lxml import etree #02.定义解析器parser = etree.XMLParser(encoding = "utf-8") #03...

vbs 解析 html 文档【图】

关于VBS采集，网上流行比较多的方法都是正则，其实 htmlfile 可以解析 html 代码，但如果 designMode 没开启的话，有时候会包安全提示信息。但是开启 designMode (@预言家晚报分享的方法) 的话，所有js都不会被执行，只是干干净净的dom文档，所以在逼不得已的情况下开启 designMode 一般情况保持默认即可。Set html = CreateObject("htmlfile")Set http = CreateObject("Msxml2.ServerXMLHTTP")html.designMode = "on" ‘ 开启编...

Jsoup解析html页面实现CSDN博客客户端【图】

这段时间课比较少，我用Jsoup解析html写了一个阅读CSDN博客的app。已经实现的功能有：1、阅读博客频道首页最新|最热的文章：2、浏览所有专栏&阅读其中的文章：3、阅读热门文章：4、查看指定id用户的所有文章：整个程序运行起来的样子大概就是这个样子..核心代码：下载指定的html页面 ——> 使用Jsoup解析，获取自己需要的元素。了解Jsoup的同学都知道很简单的。由于时间&水平有限，app界面很简陋，可能会有些BUG。而且有一个问题没...

IOS 用正则表达式解析HTML等文件,得到所有文本

获得网页内容NSURL *url=[NSURL URLWithString:@"http://121.199.34.52/wordpress/?json=core.get_post_content&post_id=8764&post_type=post"]; NSDictionary * dic=[NSJSONSerialization JSONObjectWithData:[NSData dataWithContentsOfURL:url] options:0 error:Nil]; NSString *content=[dic objectForKey:@"content"];正则表达式 NSRegularExpression *regularExpretion=[NSRegularExpression regularExpressionWithP...

Python从零开始写爬虫-2 使用正则表达式解析HTML【代码】【图】

上一篇博客Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码中我们已经学习到如何从网站上获取html的源码, 那么今天我们就来学习如何使用正则表达式来解析HTML.同样以Python的Api文档为例.正则表达式:又称规则表达式。（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。(从百度上复制过来的)看这篇文章没有正...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / 使用Python BeautifulSoup解析HTML表

使用Python BeautifulSoup解析HTML表

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用Python BeautifulSoup解析HTML表】教程文章相关的互联网学习教程文章

html新增结构元素解析【代码】

解析PHP生成静态html文件的三种方法

Python实现简单HTML表格解析的方法【代码】

HTML解析过程

用Qt写软件系列六：博客园客户端的设计与实现（用Fiddler抓包，用CURL提交数据，用htmlcxx解析HTML）【图】

html5 audio音频播放全解析【代码】【图】

HTML_a标签的href属性取值解析

【转】 HTML解析：基于XPath的C#类库HtmlAgiliytyPack

关于源码输出,浏览器不解析Html标签【图】

关于HtmlAgilityPack解析页面中数据乱码问题

Python_lxml解析HTML【代码】

vbs 解析 html 文档【图】

Jsoup解析html页面实现CSDN博客客户端【图】

IOS 用正则表达式解析HTML等文件,得到所有文本

Python从零开始写爬虫-2 使用正则表达式解析HTML【代码】【图】

PYTHON - 相关标签

HTML - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程