python – 如何在BeautifulSoup中获取所有父标签的列表?
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – 如何在BeautifulSoup中获取所有父标签的列表?,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1354字,纯文字阅读大概需要2分钟。
内容图文
![python – 如何在BeautifulSoup中获取所有父标签的列表?](/upload/InfoBanner/zyjiaocheng/754/d4e7bcaa62fc443ab28cc1c222542a55.jpg)
假设我有这样的结构:
<folder name="folder1">
<folder name="folder2">
<bookmark href="link.html">
</folder>
</folder>
如果我指向书签,那么只提取所有文件夹行的命令是什么?
例如,
bookmarks = soup.findAll('bookmark')
然后beautifulsoupcommand(书签[0])将返回:
[<folder name="folder1">,<folder name="folder2">]
我也想知道结尾标签何时出现.有任何想法吗?
提前致谢!
解决方法:
以下是我的尝试:
>>> from BeautifulSoup import BeautifulSoup
>>> html = """<folder name="folder1">
<folder name="folder2">
<bookmark href="link.html">
</folder>
</folder>
"""
>>> soup = BeautifulSoup(html)
>>> bookmarks = soup.findAll('bookmark')
>>> [p.get('name') for p in bookmarks[0].findAllPrevious(name = 'folder')]
[u'folder2', u'folder1']
与@ eumiro的答案的主要区别在于我使用的是findAllPrevious而不是findParents.当我测试@ eumiro的解决方案时,我发现findParents仅返回第一个(立即)父节点,因为父节点和祖父节点的名称相同.
>>> [p.get('name') for p in bookmarks[0].findParents('folder')]
[u'folder2']
>>> [p.get('name') for p in bookmarks[0].findParents()]
[u'folder2', None]
如果父母和祖父母的名字不同,它确实会返回两代父母.
>>> html = """<folder name="folder1">
<folder_parent name="folder2">
<bookmark href="link.html">
</folder_parent>
</folder>
"""
>>> soup = BeautifulSoup(html)
>>> bookmarks = soup.findAll('bookmark')
>>> [p.get('name') for p in bookmarks[0].findParents()]
[u'folder2', u'folder1', None]
内容总结
以上是互联网集市为您收集整理的python – 如何在BeautifulSoup中获取所有父标签的列表?全部内容,希望文章能够帮你解决python – 如何在BeautifulSoup中获取所有父标签的列表?所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。