首页 / HTML / python使用lxml和xpath解析html表上的特定数据

python使用lxml和xpath解析html表上的特定数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python使用lxml和xpath解析html表上的特定数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2738字，纯文字阅读大概需要4分钟。

内容图文

首先,我是python和Stack Overflow的新手,所以请客气.

这是我要从中提取数据的html页面的源代码.

网页：http://gbgfotboll.se/information/?scr=table&ftid=51168
表格在页面底部

  <html>
        table class="clCommonGrid" cellspacing="0">
                <thead>
                    <tr>
                        <td colspan="3">Kommande matcher</td>
                    </tr>
                    <tr>
                        <th style="width:1%;">Tid</th>
                        <th style="width:69%;">Match</th>
                        <th style="width:30%;">Arena</th>
                    </tr>
                </thead>

                <tbody class="clGrid">

            <tr class="clTrOdd">
                <td nowrap="nowrap" class="no-line-through">
                    <span class="matchTid"><span>2014-09-26<!-- br ok --> 19:30</span></span>



                </td>
                <td><a href="?scr=result&amp;fmid=2669197">Guldhedens IK - IF Warta</a></td>
                <td><a href="?scr=venue&amp;faid=847">Guldheden S?dra 1 Konstgr?s</a> </td>
            </tr>

            <tr class="clTrEven">
                <td nowrap="nowrap" class="no-line-through">
                    <span class="matchTid"><span>2014-09-26<!-- br ok --> 13:00</span></span>



                </td>
                <td><a href="?scr=result&amp;fmid=2669176">Romelanda UF - IK Virgo</a></td>
                <td><a href="?scr=venue&amp;faid=941">Romevi 1 Gr?s</a> </td>
            </tr>

            <tr class="clTrOdd">
            <td nowrap="nowrap" class="no-line-through">
                <span class="matchTid"><span>2014-09-27<!-- br ok --> 13:00</span></span>



            </td>
            <td><a href="?scr=result&amp;fmid=2669167">Kode IF - IK Kongah?lla</a></td>
            <td><a href="?scr=venue&amp;faid=912">Kode IP 1 Gr?s</a> </td>
        </tr>

        <tr class="clTrEven">
            <td nowrap="nowrap" class="no-line-through">
                <span class="matchTid"><span>2014-09-27<!-- br ok --> 14:00</span></span>



            </td>
            <td><a href="?scr=result&amp;fmid=2669147">Floda BoIF - Partille IF FK </a></td>
            <td><a href="?scr=venue&amp;faid=218">Flodala IP 1</a> </td>
        </tr>


                </tbody>
        </table>
    </html>

我需要提取时间：19：30和团队名称：Guldhedens IK-IF Warta表示第一行中的第一个和第二个表格单元格(不是第三个),以及13：00 / Romelanda UF-IK Virgo.第二个表格行等.从所有表格行开始.

如您所见,每个表行在时间之前都有一个日期,因此棘手的部分就来了.我只想从日期等于我运行此代码的日期的那些表行中获取上面提到的时间和团队名称.

到目前为止,我唯一要做的事情并不多,只能使用以下代码获取时间和团队名称：

import lxml.html
html = lxml.html.parse("http://gbgfotboll.se/information/?scr=table&ftid=51168")
test=html.xpath("//*[@id='content-primary']/table[3]/tbody/tr[1]/td[1]/span/span//text()")

print test

这给了我结果[‘2014-09-26′,’19:30’]之后,我迷失了如何遍历不同的表行,想要特定的表单元格,其中日期与我运行代码的日期匹配.

希望您能回答得更多.

解决方法:

如果我了解您,请尝试以下操作：

import lxml.html
url = "http://gbgfotboll.se/information/?scr=table&ftid=51168"
html = lxml.html.parse(url)
for i in range(12):
    xpath1 = ".//*[@id='content-primary']/table[3]/tbody/tr[%d]/td[1]/span/span//text()" %(i+1)
    xpath2 = ".//*[@id='content-primary']/table[3]/tbody/tr[%d]/td[2]/a/text()" %(i+1)
    print html.xpath(xpath1)[1], html.xpath(xpath2)[0]

我知道这很脆弱,并且有更好的解决方案,但是它可以工作.

内容总结

以上是互联网集市为您收集整理的python使用lxml和xpath解析html表上的特定数据全部内容，希望文章能够帮你解决python使用lxml和xpath解析html表上的特定数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/679190.html

来源：【匿名】

【上一篇】致命错误：在第600行的/***/***/public_html/lib/Varien/Simplexml/Config.php中的非对象上调用成员函数extend()【下一篇】PHP 和 HTML

更多 ►

【python使用lxml和xpath解析html表上的特定数据】教程文章相关的互联网学习教程文章

第二章复杂HTML解析【代码】

bsObj.findAll(tagName, tagAttributes).get_text() 会把这些超链接、段落和标签都清除掉，只剩下一串不带标签的文字。findAll(tag, attributes, recursive, text, limit, keywords) find(tag, attributes, recursive, text, keywords).findAll({"h1","h2","h3","h4","h5","h6"}).findAll("span", {"class":{"green", "red"}})nameList = bsObj.findAll(text="the prince") print(len(nameList))from urllib.request import urlop...

[Python]HTML/XML解析器Beautiful Soup

【简介】Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。即HTML/XMLX的解析器。它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。【安装】下载地址：点击打开链接Linux平台安装：如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:$ apt-get install Python-bs4Beautiful Soup 4 通过P...

HTML使用XPATH解析XML【代码】

test.xml： <?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book category="COOKING"> <title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price> </book> <book category="CHILDREN"> <title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book> <book category="WEB"> <title lang="en">...

浏览器是怎样工作的：渲染引擎，HTML解析【代码】【图】

渲染引擎渲染引擎的职责是……渲染，也就是把请求的内容显示到浏览器屏幕上。默认情况下渲染引擎可以显示HTML，XML文档以及图片。通过插件（浏览器扩展）它可以显示其它类型文档。比如使用PDF viewer插件显示PDF文件。我们会在一个专门的章节讨论插件与扩展。在这一节我们将专注渲染引擎的主要用途——显示用CSS格式化的HTML与图片。各种渲染引擎我们提到的Firefox, Safari两种浏览器构建于两种渲染引擎之上：Firefox使用Gecko —...

用php解析html的实现代码

最近想用php写一个爬虫，就需要解析html，在sourceforge上找到一个项目叫做PHP Simple HTML DOM Parser，它可以以类似jQuery的方式通过css选择器来返回指定的DOM元素，功能十分强大。首先要在程序的开始引入simple_html_dom.php这个文件复制代码代码如下:include_once(‘simple_html_dom.php‘); PHP Simple HTML DOM Parser提供了3种方式来创建DOM对象复制代码代码如下:// Create a DOM object from a string $html = str_ge...

HTML5实现文件上传下载功能实例解析【图】

前言：因自己负责的项目(jetty内嵌启动的SpringMvc)中需要实现文件上传，而自己对java文件上传这一块未接触过，且对 Http 协议较模糊，故这次采用渐进的方式来学习文件上传的原理与实践。该博客重在实践。一. Http协议原理简介 HTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版...

解析HTML【图】

解析HTML一、什么是HTML HTML是超文本标签语言，即网页的源码。而浏览器就是翻译解释HTML源码的工具。二.HTML的基本结构 <!DOCTYPE html> 声明文档类型HTML5文档声明在HTML文档必不可少，且必须放在文档的第一行； <html> <head> head标签内的信息用于描述网页，即元数据 <meta charset="UTF-8"> <title>网页的标题</...

C# 解析HTML格式字符串（HtmlAgilityPack）【代码】【图】

官网地址：htmlagilitypack百度网盘下载地址：点击使用方法：　　1.引用HtmlAgilityPack.dll文件 2.引用命名空间：using HtmlAgilityPack; 3.调用（元素查找方式为xpath，用法参见w3school）：　　　　 staticvoid Main(string[] args){string html = GetHtml("http://www.w3school.com.cn/xpath/xpath_syntax.asp");HtmlDocument doc = new HtmlDocument();doc.LoadHtml(html);HtmlNode node = doc.DocumentNode...

【WebGoat习题解析】Parameter Tampering->Bypass HTML Field Restrictions【图】

The form below uses HTML form field restrictions. In order to pass this lesson, submit the form with each field containing an unallowed value. You must submit invalid values for all six fields in one form submission.1、这个习题如果直接用burp拦截提交请求后，发现Disabled input field没有被抓取到，所以就利用开发者工具将Disabled input field的“disabled”属性删掉2、利用burp拦截提交请求，并将6个输入区域(...

Jsoup解析html页面

<span style="font-size: x-large;"><strong>1a Temporada</strong></span> 解析style样式标签方法:Document.getElementsByAttributeValue("style","font-size: x-large;")原文：http://www.cnblogs.com/sam-cheng/p/7118160.html

Python之HTML的解析（网页抓取一）

http://blog.csdn.net/my2010sam/article/details/14526223---------------------对html的解析是网页抓取的基础，分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要...

Jsoup解析和遍历一个HTML文档(二)【代码】【图】

关于Eclipse编辑器汇总console中字体调整： 1，下载jsoup的jar包：http://jsoup.org/download 2, jsoup英文的开发手册：http://jsoup.org/cookbook/ 3，jsoup的jsoup cookbook中文版：http://www.open-open.com/jsoup/ - - - - - - - - - - - - - - - - ...

Apache-Tika解析HTML文档【代码】

通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理HTML格式的文章，如下：package com.mengyao.tika.app;import java.io.File; import java.io.FileInputStream;import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.html.HtmlParser; import org.apache.tika.sax.BodyContentHandler;publicclass HtmlApp...

jsoup解析Html

何使用Jsoup这个库来解析我们的网页，并且如何对我们想解析的网页进行分析。Jsoup这个库的下载地址：http://jsoup.org/downloadJsoup的资料比较少，可供参考的可到其官网进行学习这个库的使用：http://www.open-open.com/jsoup/API查阅地址：http://jsoup.org/apidocs/其中获取html代码，可以使用如下代码实现： [java] view plaincopyprint?public String getHtmlString(String urlString) { try { URL url = new U...

Delphi 解析HTML【代码】

procedure TForm1.btnphClick(Sender: TObject); varDocument: IHTMLDocument2;FTableCollection, tempCoc: IHTMLElementCollection;table: IHTMLTABLE;TableRow: IHTMLTableRow;elmt: IHTMLEleMent;I, J, K: integer;str: string; beginDocument := WebBrowser1.Document as IHTMLDocument2;FTableCollection := Document.all;FTableCollection.Length; //FTableCollection.item(1, 0);FTableCollection := Document.all.tags(‘t...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / python使用lxml和xpath解析html表上的特定数据

python使用lxml和xpath解析html表上的特定数据

内容导读

内容图文

内容总结

内容备注

内容手机端

【python使用lxml和xpath解析html表上的特定数据】教程文章相关的互联网学习教程文章

第二章复杂HTML解析【代码】

[Python]HTML/XML解析器Beautiful Soup

HTML使用XPATH解析XML【代码】

浏览器是怎样工作的：渲染引擎，HTML解析【代码】【图】

用php解析html的实现代码

HTML5实现文件上传下载功能实例解析【图】

解析HTML【图】

C# 解析HTML格式字符串（HtmlAgilityPack）【代码】【图】

【WebGoat习题解析】Parameter Tampering->Bypass HTML Field Restrictions【图】

Jsoup解析html页面

Python之HTML的解析（网页抓取一）

Jsoup解析和遍历一个HTML文档(二)【代码】【图】

Apache-Tika解析HTML文档【代码】

jsoup解析Html

Delphi 解析HTML【代码】

PYTHON - 相关标签

HTML - 相关标签

XML - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程