首页 / HTML / Python：基于绝对XPath解析HTML元素

Python：基于绝对XPath解析HTML元素

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Python：基于绝对XPath解析HTML元素，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1973字，纯文字阅读大概需要3分钟。

内容图文

我正在开发一个项目,我必须根据URL解析20个不同的HTML页面,我想从所有这些页面获取一些信息.页面具有不同的结构,所需信息位于每个站点的不同位置.

我想我可以试试Python lxml模块.由于信息可以在每个站点的不同位置找到,我很懒惰将20 * X不同的注册表放在一起.表达式,我认为对这些元素使用绝对XPath是个好主意.通过这种方式,我可以简单地利用Chrome浏览器的复制XPath功能,并为我的解析器提供每个HTML元素的清晰路径,而且我不需要编写很多代码.

我找不到任何显示我如何在Python中使用绝对XPath引用HTML元素的示例.一些评论说,而不是绝对路径,最好使用相对,但不能真正解释原因.但同样,引用具有相对XPath的元素意味着一些编码再次工作.

只是为了使它更复杂这20个站点是unicode.

有没有办法在Python中引用具有绝对XPath的HTML元素并像这样获取其文本值？

/html/body/div[1]/table/tbody/tr[2]/td[2]/table/tbody/tr/td[2]/div/table/tbody/tr[3]/td[2]/table/tbody/tr[2]/td/table/tbody/tr/td[2]/font/b

…它将返回HTML元素的文本值.

到目前为止,我得到了以下代码,它适用于相对XPath,但当我使用绝对时,它给我下面的错误.

import urllib2
from lxml import html
from bs4 import UnicodeDammit


response = urllib2.urlopen('http://oneofthesites.com')
content = response.read()
doc = UnicodeDammit(content, is_html=True)
parser = html.HTMLParser(encoding=doc.original_encoding)
root = html.document_fromstring(content, parser=parser)
data = root.find('/html/body/div[1]/table/tbody/tr[2]/td[2]/table/tbody/tr/td[2]/div/table/tbody/tr[1]/td[2]/b').text_content()
print(data)

而错误是：

SyntaxError: cannot use absolute path on element

也许我的基本概念是错误的,所以关于如何处理这些页面的任何其他想法都是受欢迎的！

在此先感谢您的帮助,
g0m3z

解决方法:

您正在使用html.document_fromstring();这将返回一个Element,而不是ElementTree对象.绝对路径仅支持后一种类型.

您有两种选择：

>使用html.parse(响应)(注意,不是response.read()的结果);这将返回一个正确的树对象.
>使用相对XPath表达式.只需用.替换/ html;顶级元素是所有< html>之后的元素.标签,其余是相对于该元素：

data = root.find('./body/div[1]/table/tbody/tr[2]/td[2]/table/tbody/tr/td[2]/div/table/tbody/tr[1]/td[2]/b').text_content()

内容总结

以上是互联网集市为您收集整理的Python：基于绝对XPath解析HTML元素全部内容，希望文章能够帮你解决Python：基于绝对XPath解析HTML元素所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/722090.html

来源：【匿名】

【上一篇】php – 表格中的HTML表单不会通过POST发送所有可用数据【下一篇】PHP 和 HTML

更多 ►

【Python：基于绝对XPath解析HTML元素】教程文章相关的互联网学习教程文章

HTML元素嵌套关系【图】

原文：http://www.cnblogs.com/xuemaxiongfeng/p/3705069.html

今天對 <a href="#13"></a> 有點疑惑，加上#表示一個錨，後面跟上13，就會跳到本頁面的13的位置，而這個13就是 Name屬性值。怎麼不是ID值呢？？？所以查了下ID 和Name的區別，特記錄最classical的答案：ID就像是一个人的身份证号码，而Name就像是他的名字，ID显然是唯一的，而Name是可以重复的。显然这个ID和Name的解答说的太笼统了，当然那个解释对于ID来说是完全对的，它就是Client端HTML元素的Identity。而Name其实要复杂的...

html元素的三大分类

顶级、块级、内联,html元素的三大分类如果将这些元素细分, 又可以分别归为顶级(top-level)元素,块级(block-level)元素和内联(inline)元素.1. Top-level element 【顶级元素】: { html, body, frameset }包括html, body, frameset, 表现如Block-level element, 属于高级块级元素. 2. Block-level element 【块级元素】: { p, h1~h6, div, ul }顾名思义就是以块显示的元素，高度宽度都是可以设置的。比如我们常用的 p, h1~h6, div...

web基础，用html元素制作web页面【代码】【图】

用div,form制作登录页面，尽可能做得漂亮。练习使用下拉列表选择框，无序列表，有序列表，定义列表。观察常用网页的HTML元素，在实际的应用场景中，用已学的标签模仿制作。 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>login in</title> </head> <body> <div id="container" style="width:400px " > ...

新增html元素的使用

今天学习HTML5中新增元素的使用(Ⅰ)新增主体结构元素Section元素：用于对网站或应用程序中的内容进行分块。<section><h1></h1><p></p></section>Article标签定义外部内容。<article></article>Time元素的使用<p><time></time></p><p><time datetime=></time></p> Ⅱ（）新增非主体元素的使用Header：是一种具有引导和导航作用的元素，通常用来放置整个页面或者页面内一个内容快标题。也包含表格，表单和相关logo图片。<p id=”p1”...

javascript操作html元素CSS属性

以下先记录一下JS控制CSS所使用的方法. 1.使用javascript更改某个css class的属性... <style type="text/css"> .orig { display: none; } </style> 你想要改变把他的display属性由none改为inline。解决的方法：在IE里： document.styleSheets[0].rules[0].style.display = "inline"; 在firefox里： document.styleSheets[0].cssRules[0].style.display = "inline"; 讨论：能够做一个函数来搜索特定名字的style对象：...

HTML元素的属性【代码】

HTML元素的属性多以name="value”的形式出现；常用的属性或者是大多数元素适用的属性有：id,class,style，tiltle;id:给予元素唯一值，id值不可重复，class:类值，一般是元素都具有共有样式时适用style:给元素赋予内敛样式时适用，title:规定元素的额外信息；使用方式如下<div id="content" class="content-syle" title="我是一个div" style="width:50px;height:89px;border:1px solid red"></div>HTML5新增的属性有：contenteditab...

JavaScript获取DOM节点HTML元素CSS样式【代码】

JavaScript获取DOM节点HTML元素CSS样式技术maybe yes 发表于2015-01-10 18:07原文链接 : http://blog.lmlphp.com/archives/59 来自 : LMLPHP后院如何使用 JavaScript 获取某个 DOM 节点下 HTML 元素的 CSS 样式值？使用过 JQuery 的童鞋一定都非常的熟悉，Jquery 提供了非常强大的 CSS 方法，可以很方便的设置和获取元素的 style 属性。某些情况下，我们不能使用 JQuery 时，就必须使用纯 JavaScript 获取元素的 style 属性值。本...

通过JS动态创建和删除HTML元素

作业14-web基础，用html元素制作web页面【图】

原文：http://www.cnblogs.com/hegui/p/7680173.html

HTML元素和 CSS

转自https://www.w3school.com.cn/html/html_css.aspHTML CSS HTML 注释HTML 链接通过使用 HTML4.0，所有的格式化代码均可移出 HTML 文档，然后移入一个独立的样式表。实例 HTML中的样式本例演示如何使用添加到 <head> 部分的样式信息对 HTML 进行格式化。没有下划线的链接本例演示如何使用样式属性做一个没有下划线的链接。链接到一个外部样式表本例演示如何 <link> 标签链接到一个外部样式表。如何使用样式当浏览器读到一个样式...

可以跨域内嵌资源的html元素

可以链接不同源的资源的html元素（能实现跨域）：img、script、css、video、audio、object、embed、applet、@font-face、frame、iframe等。 (1)<img src=""></img>(2)<script src=""></script>标签嵌入跨域脚本。语法错误信息只能在同源脚本中捕捉到。jsonp也用到了。(3) <link src="">标签嵌入CSS。由于CSS的松散的语法规则，CSS的跨域需要一个设置正确的Content-Type消息头。不同浏览器有不同的限制： IE, Firefox, Chrome, Safa...

HTML元素总结

html元素<p></p> ：段落标记，会自动换行，常用于文本内容例：<p>这是一个段落</p> 650) this.width=650;" src="/e/u261/themes/default/images/spacer.gif" width="142" /><h1> ~ <h6> ：标题标记，会自动换行，字体由大到小例：<h1>这是h1</h1> <h2>这是h2</h2> <h3>这是h3</h3> <h4>这是h4</h4> <h5>这是h5</h5> <h6>这...

web基础，用html元素制作web页面【代码】

用div,form制作登录页面，尽可能做得漂亮。练习使用下拉列表选择框，无序列表，有序列表，定义列表。观察常用网页的HTML元素，在实际的应用场景中，用已学的标签模仿制作。<!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><title>管理信息系统</title> </head> <body> <h1>欢迎访问！</h1> <h3>GZCC</h3> <P>跳转链接</P><a href="http://www.gzcc.cn/">广州商学院<br><img src="http://www.gzcc.cn/2016/images/ba...

Html5元素及基本语法【代码】【图】

HTML标签开始标签(opening tag):开放标签结束标签(closing tag):闭合标签元素定义：HTML元素指的是从开始标签到结束标签的代码（元素以开始标签为起始以借宿标签终止）元素的内容：元素的内容指的是开始标签与结束标签之间的内容元素的特点：1，大多数HTML元素可嵌套（可以包括其他的HTML元素）2，HTML文档有嵌套的HTML元素构成3，不要忘记结束标签，未来的HTML版本不允许省略结束标签4，空的html元素5，没有内容的html元素被称为元...

首页 / HTML / Python：基于绝对XPath解析HTML元素

Python：基于绝对XPath解析HTML元素

内容导读

内容图文

内容总结

内容备注

内容手机端

【Python：基于绝对XPath解析HTML元素】教程文章相关的互联网学习教程文章

HTML元素嵌套关系【图】

HTML元素的ID和Name属性的区别

html元素的三大分类

web基础，用html元素制作web页面【代码】【图】

新增html元素的使用

javascript操作html元素CSS属性

HTML元素的属性【代码】

JavaScript获取DOM节点HTML元素CSS样式【代码】

通过JS动态创建和删除HTML元素

作业14-web基础，用html元素制作web页面【图】

HTML元素和 CSS

可以跨域内嵌资源的html元素

HTML元素总结

web基础，用html元素制作web页面【代码】

Html5元素及基本语法【代码】【图】

PYTHON - 相关标签

HTML - 相关标签

元素 - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程