首页 / HTML / 使用Python从HTML表中提取数据

使用Python从HTML表中提取数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用Python从HTML表中提取数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2274字，纯文字阅读大概需要4分钟。

内容图文

我想使用Python脚本从HTML表中提取数据,并将其保存为变量(以后我可以在将它们存在后将它们加载到同一脚本中)保存到单独的文件中.此外,我希望脚本忽略表的第一行(组件,状态,时间/错误).我宁愿不使用外部库.

输出到新文件应该是这样的：

SAVE_DOCUMENT_STATUS = "OK"
SAVE_DOCUMENT_TIME = "0.408"
GET_DOCUMENT_STATUS = "OK"
GET_DOCUMENT_TIME = "0.361"
...

并且继承了脚本的输入：

<table border=1>
<tr>
<td><b>Component</b></td>
<td><b>Status</b></td>
<td><b>Time / Error</b></td>
</tr>
<tr><td>SAVE_DOCUMENT</td><td>OK</td><td>0.408 s</td></tr>
<tr><td>GET_DOCUMENT</td><td>OK</td><td>0.361 s</td></tr>
<tr><td>DVK_SEND</td><td>OK</td><td>0.002 s</td></tr>
<tr><td>DVK_RECEIVE</td><td>OK</td><td>0.002 s</td></tr>
<tr><td>GET_USER_INFO</td><td>OK</td><td>0.135 s</td></tr>
<tr><td>NOTIFICATIONS</td><td>OK</td><td>0.002 s</td></tr>
<tr><td>ERROR_LOG</td><td>OK</td><td>0.001 s</td></tr>
<tr><td>SUMMARY_STATUS</td><td>OK</td><td>0.913 s</td></tr>
</table>

我尝试在bash中做到这一点,但由于我需要将* _TIME变量与最大时间进行比较,然后失败,因为它们是浮点数.

解决方法:

使用lxml：

import lxml.html as lh

content='''<table border=1>
<tr>
<td><b>Component</b></td>
<td><b>Status</b></td>
<td><b>Time / Error</b></td>
</tr>
<tr><td>SAVE_DOCUMENT</td><td>OK</td><td>0.408 s</td></tr>
<tr><td>GET_DOCUMENT</td><td>OK</td><td>0.361 s</td></tr>
<tr><td>DVK_SEND</td><td>OK</td><td>0.002 s</td></tr>
<tr><td>DVK_RECEIVE</td><td>OK</td><td>0.002 s</td></tr>
<tr><td>GET_USER_INFO</td><td>OK</td><td>0.135 s</td></tr>
<tr><td>NOTIFICATIONS</td><td>OK</td><td>0.002 s</td></tr>
<tr><td>ERROR_LOG</td><td>OK</td><td>0.001 s</td></tr>
<tr><td>SUMMARY_STATUS</td><td>OK</td><td>0.913 s</td></tr>
</table>
'''
tree=lh.fromstring(content)
for key, status, t in zip(*[iter(tree.xpath('//td/text()'))]*3):
    print('''{k}_STATUS = "{s}"
{k}_TIME = "{t}"'''.format(k=key,s=status,t=t.rstrip(' s')))

产量

SAVE_DOCUMENT_STATUS = "OK"
SAVE_DOCUMENT_TIME = "0.408"
GET_DOCUMENT_STATUS = "OK"
GET_DOCUMENT_TIME = "0.361"
DVK_SEND_STATUS = "OK"
DVK_SEND_TIME = "0.002"
DVK_RECEIVE_STATUS = "OK"
DVK_RECEIVE_TIME = "0.002"
GET_USER_INFO_STATUS = "OK"
GET_USER_INFO_TIME = "0.135"
NOTIFICATIONS_STATUS = "OK"
NOTIFICATIONS_TIME = "0.002"
ERROR_LOG_STATUS = "OK"
ERROR_LOG_TIME = "0.001"
SUMMARY_STATUS_STATUS = "OK"
SUMMARY_STATUS_TIME = "0.913"

内容总结

以上是互联网集市为您收集整理的使用Python从HTML表中提取数据全部内容，希望文章能够帮你解决使用Python从HTML表中提取数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/814131.html

来源：【匿名】

【上一篇】php – 像&euro这样的Html实体;在CSV转换中未转换为其符号【下一篇】PHP 和 HTML

更多 ►

【使用Python从HTML表中提取数据】教程文章相关的互联网学习教程文章

Spring MVC 以.html为后缀名访问获取数据，报406 Not Acceptable错误。【代码】【图】

如题，最近以spring mvc作为后台框架，前端异步获取数据时（.html为后缀名的访问方式），报406 Not Acceptable错误。当初都不知道啥原因，前后台都没报错就是返回不了数据，于是查了下http 406响应码：406 (SC_NOT_ACCEPTABLE)表示请求资源的MIME类型与客户端中Accept头信息中指定的类型不一致。下面请看出错的操作流程及代码：1、先配置spring mvc 核心servlet （DispatcherServlet）至web.xml中，其中配置可以以.html和.do为后缀...

Angular绑定数据时转义html标签【代码】

AngularJs在绑定数据时默认会以文本的形式出现在页面上，比如我现在有这样一段代码<div ng-controller="testCtrl">{{data}}</div>function testCtrl($scope) {$scope.data = ‘<span class="red">标红</span>‘; } 那么在页面上必然会在也面上直接显示 <span class="red">标红</span>要想让包含html标签的字符串，能在页面上正常显示，就必须将其转义，此时就要用到angularjs的ng-bind-html，它可以将包含html标签的字符串进...

html(四)数据库curd操作与分页查询【代码】【图】

数据库操作curd ：1.首先要建立项目处理好自己逻辑包：其中util工具包中建立两个工具类 jdbc连接和page分页DBUtil.java：db工具类就是用于连接数据库的jdbc架包，里面是curd的实现。 1package com.etc.utils;2 3import java.sql.Connection;4import java.sql.DriverManager;5import java.sql.PreparedStatement;6import java.sql.ResultSet;7import java.sql.SQLException;8 9import javax.sql.rowset.CachedRowSet;10 11import...

HTML5 indexedDB前端本地存储数据库实例教程（转载）【代码】【图】

一、indexedDB为何替代了Web SQL Database？跟小朋友的教育从来没有什么“赢在起跑线”这种说法一样，在前端领域，也不是哪来先出来哪个就在日后引领风骚的。HTML5 indexedDB和Web SQL Database都是本地数据库数据存储，Web SQL Database数据库要出来的更早，然并卵。从2010年11月18日W3C宣布舍弃Web SQL database草案开始，就已经注定Web SQL Database数据库是明日黄花。未来一定是indexedDB的，从目前浏览器的兼容性来看，也表明...

php操作mysql获取html标签<select>下拉列表数据【图】

650) this.width=650;" src="/upload/getfiles/default/2022/11/13/20221113025755550.jpg" title="psb (1)_副本.png" />650) this.width=650;" src="/upload/getfiles/default/2022/11/13/20221113025756099.jpg" title="psb_副本.png" />650) this.width=650;" src="/upload/getfiles/default/2022/11/13/20221113025756585.jpg" title="psb (2)_副本.png" />本文出自 “IT5808” 博客，请务必保留此出处http://it5808.blog.5...

Ajax数据格式：XML Html JSON

XML优点： XML的一大优势在于它是一种可扩展的格式，使用时并不会受制于某种预设的数据结构，而是可以自由定义所需的结构，只要该结构在整份文件中保持一致即可。XML的另一个好处是，它符合DOM标准，只要通过Ajax调用获取到的数据，就可以像解析普通HTML文档那样，通过getElementsByTagName(),getAttribute(),parentNode,firstChild等方法或属性来解析它。缺点：不能用于跨域名的Ajax调用，每个Ajax调用所请求的XML文件都必须...

HTML常用数据类型以及例题练习【代码】【图】

常用的类型： 1.数学： Math.ceil()：天花板数 Math.floor()：地板数 Math.round()：四舍五入取整数 Math.random()：生成0-1之间的随机数2.日期时间： var s = new Date(); var s = new Date(1999,7,23); 函数： getFullYear(): getMonth()： getDate()：获取日 getHours() getMinutes() getSeconds() getDay()：获取星期 setFullYear(year,month,day) setHours(hour,minute,sec...

html导出excel数据【代码】

html导出excel数据1、controller/** * 导出数据 * @return * @throws IOException */ @GetMapping(value = "group/exportGroup") public ResponseEntity<byte[]> exportGroup() throws IOException { Workbook workbook = groupService.exportGroup(); ByteArrayOutputStream os = new ByteArrayOutputStream(); workbook.write(os); byte[] bytes = os.toByteArray(); ...

ASP.NET 在请求中检测到包含潜在危险的数据,因为它可能包括 HTML 标记或脚本【代码】

解决办法：方法一、修改.aspx文件在.aspx文件中加入validateRequest="false"，形如： <%@Page validateRequest="false" language="c#" Codebehind="WriteNews.aspx.cs" AutoEventWireup="false" Inherits="News.WriteNews" %> 方法二、配置web.config文件 <?xml version="1.0" encoding="utf-8" ?> <configuration> <system.web>  <pages validateReq...

java htmlunit 抓取网页数据【代码】

WebClient webClient=new WebClient(BrowserVersion.CHROME);webClient.setJavaScriptTimeout(5000);webClient.getOptions().setUseInsecureSSL(true);webClient.getOptions().setJavaScriptEnabled(true);webClient.getOptions().setCssEnabled(false);webClient.getOptions().setThrowExceptionOnScriptError(false);webClient.getOptions().setTimeout(100000);webClient.getOptions().setDoNotTrackEnabled(false);HtmlPage pa...

django接受json数据到html【代码】

views cursor = connection.cursor() cursor.execute("select staff_name from alarm_platform.TBL_STAFF where staff_number=(select duty_staff_number1 from alarm_platform.TBL_DUTY a where duty_staff_time_start > DATE_SUB(CURDATE(), INTERVAL 0 DAY));") alert_today = cursor.fetchone() context_bak = {'msg': alert_list} print(context_bak) return render(request,"mysql_insert.ht...

Mysql数据库导出数据字典文档Word或者HTML的3个工具【代码】【图】

最近需要将Mysql的数据库导出一份Word的文档出来，本文记录调研后几个可用的工具和方法：阿里云DMS工具导出适用于存储在阿里云RDS服务中的Mysql数据库导出格式支持：Word、Excel、PDF缺点：免费版本的DMS只能一次导出10张表的文档；如需导出全部表，可以分多次导出（导10张删10张表）入口：阿里云后台-》RDS-》选择数据库-》登录数据库-》顶部导航栏（工具）-》生成文档（Word、Excel、PDF）导出的Word文档效果截图： DBImport 原...

HTML5的local storage存储的数据到底存到哪去了【代码】

原文地址：http://zhidao.baidu.com/link?url=m6p5MLv0R46lDCd_Vnrry4XOMbdCwgV5fzs3tj5Jeyht1nPkAZ9OrO23njYBY15UMobx63X1MdP-EwKKqerm-_zSugwqqLin_TsClwOrH_O基本使用方法如下：localStorage.name = "k1w1"; 这样的话，你的本地磁盘中就会有个数据库存下了这个数据。我无法接受数据写到了我的本地磁盘而我找不到它的确切位置，于是通过寻找发现：Chrome 的存储方式是以sqlite的数据库文件形式存储。存在C:\Users\Username\AppDa...

vue的html内容里面规范化后台传到前端的日期时间<span>{{items.length>0?dateFormat( items[0].sumLasttime):"请手动汇总更新汇总数据"}}</span>【代码】

举个例子如下：<div style="display:inline-block;margin-left:20px;" v-show="showUpdate"><span>上次汇总时间:</span><span>{{items.length>0?dateFormat( items[0].sumLasttime):"请手动汇总更新汇总数据"}}</span></div><span>{{items.length>0?dateFormat( items[0].sumLasttime):"请手动汇总更新汇总数据"}}</span>把后台传来的时间传入自定义的日期时间规范化函数里面，在js函数里面弄成自己想要的日期时间，下面是一个例子...

如何使用HTML5自定义数据属性【代码】

为什么需要自定义数据属性？很多时候我们需要存储一些与不同DOM元素相关联的信息。这些信息对于读者来说可能是不需要的，但是可以轻松的访问这些信息将会给我们开发者的工作带来极大的便利。例如，假设你有一份某个餐饮类网站上所有餐馆的名单。在HTML5之前，如果你想存储餐馆提供的食物种类或餐馆与用户之间的距离等信息，那么你将使用HTML的class属性。但是如果你还需要存储餐馆的id以便查看用户想要访问的特定餐厅该怎么办？以下...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / 使用Python从HTML表中提取数据

使用Python从HTML表中提取数据

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用Python从HTML表中提取数据】教程文章相关的互联网学习教程文章

Spring MVC 以.html为后缀名访问获取数据，报406 Not Acceptable错误。【代码】【图】

Angular绑定数据时转义html标签【代码】

html(四)数据库curd操作与分页查询【代码】【图】

HTML5 indexedDB前端本地存储数据库实例教程（转载）【代码】【图】

php操作mysql获取html标签<select>下拉列表数据【图】

Ajax数据格式：XML Html JSON

HTML常用数据类型以及例题练习【代码】【图】

html导出excel数据【代码】

ASP.NET 在请求中检测到包含潜在危险的数据,因为它可能包括 HTML 标记或脚本【代码】

java htmlunit 抓取网页数据【代码】

django接受json数据到html【代码】

Mysql数据库导出数据字典文档Word或者HTML的3个工具【代码】【图】

HTML5的local storage存储的数据到底存到哪去了【代码】

vue的html内容里面规范化后台传到前端的日期时间<span>{{items.length>0?dateFormat( items[0].sumLasttime):"请手动汇总更新汇总数据"}}</span>【代码】

如何使用HTML5自定义数据属性【代码】

PYTHON - 相关标签

HTML - 相关标签

数据 - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程