首页 / PYTHON / python – 使用BeautifulSoup提取特定的dl和dd列表元素

python – 使用BeautifulSoup提取特定的dl和dd列表元素

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 使用BeautifulSoup提取特定的dl和dd列表元素，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1735字，纯文字阅读大概需要3分钟。

内容图文

我第一次发帖.我正在使用BeautifulSoup 4和python 2.7(pycharm).我有一个包含元素的网页,我需要提取标签为“Salary：”或“Date：”的特定元素,该页面包含多个列表.

问题：我似乎无法识别和提取特定文本.我搜索了这个网站并尝试没有成功.

示例html：

<dl><dt>Date:</dt><dd>13 September 2015</dd><dt>Salary:</dt><dd>Starting at ￡40,130 per annum.</dd></dl><dl><dt>Date:</dt><dd>15 December 2015</dd><dt>Salary:</dt><dd>Starting at ￡22,460 per annum.</dd></dl><dl><dt>Date:</dt><dd>10 January 2014</dd><dt>Salary:</dt><dd>Starting at ￡18,160 per annum.</dd></dl>

我尝试过的代码没有成功：

r = requests.get("http://www.mywebsite.com/test.html")
soup = BeautifulSoup(r.content, "html.parser")
dl_data = soup.find_all("dl")
for dlitem in dl_data: 
    print dlitem.find("dt",text="Date:").parent.findNext("dd").contents[0]
    print dlitem.find("dt",text="Salary:").parent.findNext("dd").contents[0]

预期结果：

13 September 2015
15 December 2015
10 January 2014
Starting at ￡40,130 per annum.
Starting at ￡22,460 per annum.
Starting at ￡18,160 per annum.

实际结果：

print dlitem.find("dt",text="Date:").parent.findNext("dd").contents[0]
AttributeError: 'NoneType' object has no attribute 'parent'

我已经尝试了这个代码的多种变体并绕圈了,我想出了如何将所有dd元素打印到屏幕上,而不是特定的dd元素！

谢谢

解决方法:

如果订单不重要,只需进行一些更改：

...
dl_data = soup.find_all("dd")
for dlitem in dl_data:
    print dlitem.string

结果：

13 September 2015
Starting at ￡40,130 per annum.
15 December 2015
Starting at ￡22,460 per annum.
10 January 2014
Starting at ￡18,160 per annum.

您的最新要求：

for item in list(zip(soup.find_all("dd")[0::3],soup.find_all("dd")[2::3])):
    date, salary = item
    print ', '.join([date.string, salary.string])

输出：

13 September 2015, 100
14 September 2015, 200

内容总结

以上是互联网集市为您收集整理的python – 使用BeautifulSoup提取特定的dl和dd列表元素全部内容，希望文章能够帮你解决python – 使用BeautifulSoup提取特定的dl和dd列表元素所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/725321.html

来源：【匿名】

【上一篇】Python对象是否源自公共父类？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 使用BeautifulSoup提取特定的dl和dd列表元素】教程文章相关的互联网学习教程文章

Python遍历删除元素【代码】

需求：有一个列表：ls = [1,2,3,4,5,6]，要求删除其中的偶数如果是下面这种方法，在遍历的过程中删除，会有问题for i in range(len(ls)):if ls[i]%2 == 0:del ls[i] 异常：IndexError: list index out of range因为删除一个元素后，列表的长度改变了，所以会报下标越界。可以采取一下三种方法：1.ls = [x for x in ls if x%2!=0] #列表解析 2.ls = filter(lambda x:x%2!=0,ls) #filter 3.for i in range(len(ls)-1,-1,-1)...

Python封装函数：实现删除一个list里面的重复,且元素顺序要与原list顺序对应【图】

封装函数：实现删除一个list里面的重复,且元素顺序要与原list顺序对应代码：def info(l):l1 = l[:]for i in range(len(l)):v = l.count(l[i])if l1.count(l[i]) > 1:for j in range(1, v):l1.remove(l[i])return l1print(info([1, 2, 3, 4, 2, 3, 6, 2]))思想：统计相同元素出现的次数，然后删除到1原文：http://blog.51cto.com/13241097/2114105

python---定位元素

1.定位元素：以百度输入框和搜索为例子（1）id定位：id属性在html文档中是唯一的find_element_by_id()方法通过id属性定位元素（2）name定位find_element_by_name()方法（3）class定位find_element_by_class_name()方法（4）tag定位：tag往往用来定义一类功能，通过tag识别某个元素的概率很低find_element_by_tag_name()方法（5）link定位：用来定位文本链接。find_element_by_link_txt("新闻")find_element_by_link_txt()方法通过...

Python循环列表删除元素问题【代码】

有人会遇到这种问题，遍历列表，想删除列表中的某几个元素，执行后发现有些并没有删除到，比如以下代码a=[1,2,3,4,5,6]print(a) for i in a:if i==3 or i==4:a.remove(i)print(a)从代码看主要就是想删除a列表中的 3 4 元素，程序的结果是：[1, 2, 3, 4, 5][1, 2, 4, 5]结果不尽人意，原因是我们在遍历的时候seek走到了3元素的位置if判断remove 3 这个元素3这个位置删除后位置空出来了，后面的元素就往前移动，替代了3的位置seek继...

python+selenium自动化测试——CSS选择元素（二）

id、class都是web元素的属性，因为他们是很常用的属性，所以css选择器专门提供了根据id、class选择的语法。那么其他的属性呢？比如：<a href="https://www.baidu.com"> 百度</a> 根据href选择，也可以使用css选择器 css选择器支持通过任何属性来选择元素，语法是用一个方括号[ ]比如：要选择上面的 a元素，可以使用 [ href = "https://www.baidu.com" ] 即选择属性href值为 https://www.baidu.com 的元素当然，前面可以加上css表达...

python计算列表内元素出现次数【代码】

result=[‘normal‘, ‘normal‘, ‘test2‘, ‘test1‘, ‘test2‘, ‘test1‘, ‘normal‘, ‘test1‘, ‘normal‘, ‘test2‘, ‘test2‘, ‘test2‘, ‘test1‘, ‘test2‘, ‘test1‘, ‘test2‘, ‘normal‘, ‘test2‘, ‘test2‘, ‘normal‘, ‘normal‘, ‘normal‘, ‘normal‘, ‘test2‘, ‘normal‘, ‘test1‘, ‘normal‘, ‘normal‘, ‘test1‘, ‘test2‘, ‘test2‘, ‘normal‘, ‘test2‘, ‘normal‘, ‘te...

APP自动化（java和python）——参考——appium参考——元素定位方法参考

Appium Appium 入门到原理之 Appium 基于安卓的各种 FindElement 的控件定位方法实践和建议转载：https://testerhome.com/topics/1970 TechoGoGoGo · 2015年02月04日 · 最后由 kuailel45 回复于 2016年01月11日 · 2485 次阅读目录 AppiumDriver 的各种 findElement 方法的尝试，尝试的目标应用是 SDK 自带的 Notepad 应用。findElementByName示例el = driver.findElementByName("Add note");assertThat(el.getText(),equalTo("Ad...

【python】Leetcode每日一题-删除排序链表中的重复元素【代码】【图】

【python】Leetcode每日一题-删除排序链表中的重复元素【题目描述】给你一个链表的头节点 head ，旋转链表，将链表每个节点向右移动 k 个位置。示例1：输入：head = [1,2,3,4,5], k = 2 输出：[4,5,1,2,3] 示例2：输入：head = [0,1,2], k = 4 输出：[2,0,1] 提示：链表中节点的数目在范围 [0, 500] 内 -100 <= Node.val <= 100 0 <= k <= 2 * 10^9 【分析】思路由于 $ 0 \le k \le 2 * 10^9$ ，k较大，因此需要先求出链表总长度，...

python 比较列表相邻元素（找相同或去重）（python compare adjacent elements in list for finding the same or repeat）【代码】

python 列表去除相邻重复相等数据（只保留一个）参开资料：https://stackoverflow.com/questions/3460161/remove-adjacent-duplicate-elements-from-a-list1 In [1]: import itertools 23 In [2]: a=[0, 1, 3, 2, 4, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 16, 16, 17, 18, 18, 19, 20, 20, 21, 22, 22, 22, 23, 23, 23, 26, 29, 29, 30, 32, 33, 34, 32, 32, 15, 24] ...

Python list替换元素【代码】

替换直接对应位置赋值假设现在班里仍然是3名同学：>>> L = [‘Adam‘, ‘Lisa‘, ‘Bart‘]现在，Bart同学要转学走了，碰巧来了一个Paul同学，要更新班级成员名单，我们可以先把Bart删掉，再把Paul添加进来。另一个办法是直接用Paul把Bart给替换掉：>>> L[2] = ‘Paul‘ >>> print L L = [‘Adam‘, ‘Lisa‘, ‘Paul‘]对list中的某一个索引赋值，就可以直接用新的元素替换掉原来的元素，list包含的元素个数保持不变。由于Bart还可...

02.python程序的元素分析【图】

一、缩进缩进表达程序的格式框架-严格明确缩进是语法的一部分，缩进不正确程序运行错误-所属关系表达代码间包含关系和层次关系的唯一手段-长度一致程序内一致即可，一般用4个空格或1个TAB二、1、注释不被程序执行的辅助性说明信息-单行注释以#开头，其后内容为注释-多行注释以‘’’开头和结尾2、变量用来保存和表示数据的占位符号-变量采用标识符（名字）来表示，关联标识符的过程叫命名-可以使用等号（=）向...

leetcode刷题_PYTHON(6):链表(6)删除排序链表中的重复元素 II【代码】

存在一个按升序排列的链表，给你这个链表的头节点 head ，请你删除链表中所有存在数字重复情况的节点，只保留原始链表中没有重复出现的数字。返回同样按升序排列的结果链表。提示：链表中节点数目在范围 [0, 300] 内-100 <= Node.val <= 100题目数据保证链表已经按升序排列# Definition for singly-linked list. # class ListNode: # def __init__(self, val=0, next=None): # self.val = val # self.next =...

首页 / PYTHON / python – 使用BeautifulSoup提取特定的dl和dd列表元素

python – 使用BeautifulSoup提取特定的dl和dd列表元素

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 使用BeautifulSoup提取特定的dl和dd列表元素】教程文章相关的互联网学习教程文章

Python遍历删除元素【代码】

Python封装函数：实现删除一个list里面的重复,且元素顺序要与原list顺序对应【图】

python---定位元素

Python循环列表删除元素问题【代码】

python+selenium自动化测试——CSS选择元素（二）

python计算列表内元素出现次数【代码】

APP自动化（java和python）——参考——appium参考——元素定位方法参考

【python】Leetcode每日一题-删除排序链表中的重复元素【代码】【图】

python 比较列表相邻元素（找相同或去重）（python compare adjacent elements in list for finding the same or repeat）【代码】

Python list替换元素【代码】

02.python程序的元素分析【图】

leetcode刷题_PYTHON(6):链表(6)删除排序链表中的重复元素 II【代码】

Python+Selenium定位不到元素常见原因及解决办法【图】

python selenium操作表格式元素实例【代码】【图】

Selenium2+python自动化,判定元素是否存在【图】

PYTHON - 相关标签

提取 - 相关标签

元素 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程