首页 / HTML / python-使用xpath获取部分字符串匹配的html标签

python-使用xpath获取部分字符串匹配的html标签

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-使用xpath获取部分字符串匹配的html标签，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1553字，纯文字阅读大概需要3分钟。

内容图文

html代码是盲目的,并且在html中包含字符串“ PRICE”.该部分字符串必须与html文本匹配.如果文本使用xpath匹配(部分匹配),则应返回特定的html标签路径.

注意：我需要针对多个站点自动执行此逻辑,我必须使用通用规则
(用于定位“价格”,获取父标签)

这是示例：

html="""<div id = "price_id">
  <span id = "id1"></span>
  <div class="price_class">
   <bold>
   <strong>
   <label>PRICE:</label> 125 Rs.
   </bold>
   </strong>
   </br>
   </br>

</div>"""

我用了lxml

 from lxml.html.clean import Cleaner     

 cleaner =Cleaner(page_structure=False)
 cl = cleaner.clean_html(html)
 cleaned_html = fromstring(cl)

 for element in cleaned_html:
      if element.text == 'PRICE':
          print "matched"

如何使用Xpath表达式编写它？

我只需要使用xpath表达式获取div类路径.

另外,问题是如果我找到了“ PRICE：”字符串.
我应该必须获得父级有效标签,即类名称为“ price_class”的“ div”.
但在这里我应该跳过或删除不需要的标签,例如字体,粗体,斜体…

您能否建议我获取所定位字符串的父有效标签？

解决方法:

您可以使用祖先轴：

import lxml.html

html = ...
doc = lxml.html.fromstring(html)

for element in doc.xpath('//label[contains(text(), "PRICE:")]/ancestor::div[@class="price_class"]'):
    print 'Found %s: %s' % (element.tag, element.text_content().strip())

输出：

Found div: PRICE: 125 Rs.

编辑：修改后的问题的更一般的解决方案：

doc.xpath('//*[contains(text(), "PRICE:")]/          ancestor::*[not(self::strong|self::bold|self::italic)][1]')

它将搜索带有文本“ PRICE：”的元素,然后选择第一个祖先,跳过强,粗体,斜体.您可以将更多标签添加到排除列表.

除了排除列表,您还可以搜索第一个好祖先(例如div,ul等)：

doc.xpath('//*[contains(text(), "PRICE:")]/ancestor::*[self::div|self::ul][1]')

内容总结

以上是互联网集市为您收集整理的python-使用xpath获取部分字符串匹配的html标签全部内容，希望文章能够帮你解决python-使用xpath获取部分字符串匹配的html标签所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/654498.html

来源：【匿名】

【上一篇】java-插入位置到JEditorPane的html中【下一篇】PHP 和 HTML

更多 ►

【python-使用xpath获取部分字符串匹配的html标签】教程文章相关的互联网学习教程文章

HTML5标签语义化

这是我在 daqianduan.com/6549.html 看到的一篇文章，收藏学习。距HTML5标准规范制定完成并公开发布已经有好些年了，面试时也少不了要问对HTML5语义化得理解。但是在实际运用时，真正使用HTML5标签来开发的似乎不是很多（ps：查看了几个巨头公司网站推论），可能一部分原因是仍有部分用户使用在使用低版本浏览器。但是就我个人而言，因选取一些标签时会比较纠结，所以仍使用了div。（PS：正是因为这样，才有了这篇文章的，没错...

HTML的标签语法

HTML的标签语法：1.双标记 <标记>内容</标记> 带属性写法：<标记属性1=? 属性2=? 属性3=? ……> 内容 </标记> 2.单标记 <标记/> 最常用的单标记是<BR/>（换行）带属性写法：<标记属性1=? 属性2=? 属性3=? …… /> 3.标记之间存在层级关系。 4.HTML5的标准格式：<!DOCTYPE html> ...

html 标签嵌套 a标签嵌套

1.a标签最好不要嵌套块级元素，可以嵌套内联元素，但是不能嵌套a标签和input之类的标签。能嵌套的标签像,等等。2.ul和ol的子元素不能是别的元素只能是li，不能是别的比如div等，但是li中可以是div，要不然在ie6和7下回把非li解析到li的内部。这个切记没有办法修复！3.p标签不能嵌套块级元素甚至不能嵌套p元素，只能嵌套内联元素，不然对p嵌套的块级元素设置css不起作用。4.button里面不要嵌套a标签，不然在js里面会有两个事件，还有...

汇总XHTML标签对搜索引擎的权重

搜索引擎优化并不仅仅这些，而是由很多很多因素组成，比如内容、内链、外链、作弊等等，所以你把上面的优化应用到你的网站后排名仍不理想，也是正常的。一个网站如果得不到搜索引擎的青睐，就算页面再漂亮、功能再好也不会有太好的效果。因为没人知道啊（做其他推广的除外）。为了让我们的网站被更多人知道、被更多人访问，就必须让搜索引擎收录我们的网站。这就是为什么专门的搜索引擎优化团队、公司不断出现。我们虽然不是专业人...

028、HTML 标签2超链接，框架标签【代码】【图】

内容：超链接，框架标签##############################################################<a href="https://www.baidu.com">baidu.com</a><br/><a href="mailto:abc@itcast.cn?cc=haha@sohu.com">联系我们</a><br/><a href="http://www.xunlei.com/bxjg4.rmvb">变形金刚4</a><br/><a href="thunder://lkdsajfldsajfldsajflajflksajfldsajflksajfslkajflks==">变形金刚4 迅雷下载</a>### 超链接定位标记，比如返回顶...

Html标签

html 常用标签:<p>标签添加段落<h1>-<h6> 为网页添加标题<strong> <em> 加入强调语气 <strong>用粗体显示<em> 用斜体显示<span> 标签为文字设置单独样式<q>标签,短文本引用<blockquote> 长文本引用<br>标签分行显示文本换行<hr>标签添加水平横线<address> 为网页加入地址信息<ul> 和<li>标签添加新闻信息列表<ol> 和<li> 标签添加图上销售排行榜<div> 标签在排版中作用划分逻辑作为容器<table> 网页上的表格标签 <tr> 表格的...

PHP实现HTML标签自动补全代码

一般情况下先用PHP的 strip_tags 函数去掉所有html标签，再去掉空格等，然后再用substr或者自己实现的cn_substr函数来实现截取。因为如果不先去掉html标签，直接截取出来的字符串就会有没有闭合的标签出现，有时甚至会截取在标签上面比如复制代码代码如下: </di ... 今天遇到一个内容翻页截取问题：正文是用富文本编辑器写入的，编辑器上有个分页按钮，点击之后就往当前光标位置插入一个蓝色的复制代码代码如下: <hr /> 横线。...

Html5 [标签]

标签名字单双标签标签描述标签类型和特点<Doctype>单标签定义文档类型 <html>双标签定义HTML文档 <meta>单标签 <body>双标签 <title>双标签 <div>双标签块元素 (宽度默认100%,独占一行,宽度可调)<input>单标签定义输入控件行内块元素 (宽度不占100%,宽度可调.默认宽度是内容宽度)<button>双标签行内块元素 (宽度不占100%,宽度可调.默认宽度是内容宽度)<span>双标签行内块元素 (宽度不占100%,宽度可调.默认宽度...

HTML标签区别

一、div和span的区别　　div是一个块级元素，可以包含段落，表格等内容，用于放置不同的内容。一般我们在网页通过div来布局定位网页中的每个区块。　　span是一个内联元素，没有实际意义，它的存在纯粹是为了应用样式，给一段内容加上<span></span>标记可以通过在span上定义样式来设定其内容的样式。二、relative和absolute的区别　　relative，CSS中的写法是：position:relative; 他的意思是绝对相对定位，他是参照父级的原始点为...

去除字符串中html标签代码【代码】

publicstring NoHtml(string html){string StrNohtml = System.Text.RegularExpressions.Regex.Replace(html, "<[^>]+>", "");StrNohtml = System.Text.RegularExpressions.Regex.Replace(StrNohtml, "&[^;]+;", "");return StrNohtml;} 原文：https://www.cnblogs.com/lq0418/p/11250615.html

html 标签

标签：background说明：设置或获取对象最多五个独立的背景属性。标签：backgroundattachment说明：设置或获取背景图像如何附加到文档内的对象中。标签：backgroundcolor说明：设置或获取对象内容后的颜色。标签：backgroundimage说明：设置或获取对象的背景图像。标签：backgroundposition说明：设置或获取对象背景的位置。标签：backgroundrepeat说明：设置或获取对象的 backgroundImage 属性如何平铺。标签：balance说明：...

HTML_a标签的href属性取值解析

定义和用法<a> 标签的 href 属性用于指定超链接目标的 URL。href 属性的值可以是任何有效文档的相对或绝对 URL，包括片段标识符和 JavaScript 代码段。如果用户选择了 <a> 标签中的内容，那么浏览器会尝试检索并显示 href 属性指定的 URL 所表示的文档，或者执行 JavaScript 表达式、方法和函数的列表。 1 <a href="路径"></a>这种方法最常见，点击a标签，页面将会跳转到href指定的路径页面下。这里的路径可以是绝对路径，也可以是...

html 标签

webstorm中的快捷键 ctrl+?:注释 ctrl+d:复制标签标题标签共有6个级别标签：<h1>-<h6> <h1>这是一级标签</h1> <h2>这是二级标题</h2> <h3>这是三级标题</h3> <h4>这是四级标题</h4> <h5>这是五级标题</h5> <h6>这是六级标题</h6> 有序列表 <ol> <li>这是一段</li> <li>这是一段</li> <li>这是一段</li> </ol> 无序列表 <ul> <li>这是一段</li> <li>这是一段</li> <li>这是一段</li> </ul> 自定义列表 <dl> <dt>猫</dt...

html标签反转义【代码】

情景是这样的（小程序或vue下）：优惠活动的详情页是通过从数据库拿到数据动态生成的，数据库返回的页面结构数据content："<div class=cont-part><div class=cont-title></div><div class=cont-image><img src=http://img.域名隐藏之术.cn/524/20191117170216250.png ></div></div><div class=cont-part><div class=cont-title></div><div class=cont-image><img src=http://img.域名隐藏之术.cn/524/20191117170216309.jpg ></div...

常见容易遗漏的html标签【代码】

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / python-使用xpath获取部分字符串匹配的html标签

python-使用xpath获取部分字符串匹配的html标签

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-使用xpath获取部分字符串匹配的html标签】教程文章相关的互联网学习教程文章

HTML5标签语义化

HTML的标签语法

html 标签嵌套 a标签嵌套

汇总XHTML标签对搜索引擎的权重

028、HTML 标签2超链接，框架标签【代码】【图】

Html标签

PHP实现HTML标签自动补全代码

Html5 [标签]

HTML标签区别

去除字符串中html标签代码【代码】

html 标签

HTML_a标签的href属性取值解析

html 标签

html标签反转义【代码】

常见容易遗漏的html标签【代码】

PYTHON - 相关标签

HTML - 相关标签

字符串 - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程