首页 / PYTHON / python – 如何在BeautifulSoup中获取所有父标签的列表？

python – 如何在BeautifulSoup中获取所有父标签的列表？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 如何在BeautifulSoup中获取所有父标签的列表？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1354字，纯文字阅读大概需要2分钟。

内容图文

假设我有这样的结构：

<folder name="folder1">
     <folder name="folder2">
          <bookmark href="link.html">
     </folder>
</folder>

如果我指向书签,那么只提取所有文件夹行的命令是什么？
例如,

bookmarks = soup.findAll('bookmark')

然后beautifulsoupcommand(书签[0])将返回：

[<folder name="folder1">,<folder name="folder2">]

我也想知道结尾标签何时出现.有任何想法吗？

提前致谢！

解决方法:

以下是我的尝试：

>>> from BeautifulSoup import BeautifulSoup
>>> html = """<folder name="folder1">
     <folder name="folder2">
          <bookmark href="link.html">
     </folder>
</folder>
"""
>>> soup = BeautifulSoup(html)
>>> bookmarks = soup.findAll('bookmark')
>>> [p.get('name') for p in bookmarks[0].findAllPrevious(name = 'folder')]
[u'folder2', u'folder1']

与@ eumiro的答案的主要区别在于我使用的是findAllPrevious而不是findParents.当我测试@ eumiro的解决方案时,我发现findParents仅返回第一个(立即)父节点,因为父节点和祖父节点的名称相同.

>>> [p.get('name') for p in bookmarks[0].findParents('folder')]
[u'folder2']

>>> [p.get('name') for p in bookmarks[0].findParents()]
[u'folder2', None]

如果父母和祖父母的名字不同,它确实会返回两代父母.

>>> html = """<folder name="folder1">
     <folder_parent name="folder2">
          <bookmark href="link.html">
     </folder_parent>
</folder>
"""
>>> soup = BeautifulSoup(html)
>>> bookmarks = soup.findAll('bookmark')
>>> [p.get('name') for p in bookmarks[0].findParents()]
[u'folder2', u'folder1', None]

内容总结

以上是互联网集市为您收集整理的python – 如何在BeautifulSoup中获取所有父标签的列表？全部内容，希望文章能够帮你解决python – 如何在BeautifulSoup中获取所有父标签的列表？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/753841.html

来源：【匿名】

【上一篇】python – 删除SOCKS 4/5代理【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 如何在BeautifulSoup中获取所有父标签的列表？】教程文章相关的互联网学习教程文章

python获取内存SN编号等信息【代码】【图】

物理机内存检查，#!/usr/bin/env python # -*-coding:UTF-8 -*- import osmemdict = dict() memditail = dict()#os.popen() os.system(' dmidecode -t memory >./mem.txt ') memstr=os.popen('cat ./mem.txt') mem_count=os.popen("cat ./mem.txt |grep 'Number Of Devices' |awk -F':' '{print $2}'").read()#mem_count = memstr.read().count("Memory Device") #mem_count = os.popen(" dmidecode -t 17").read()Device_info ...

金融量化分析-python量化分析系列之---使用python获取股票历史数据和实时分笔数据【代码】

财经数据接口包tushare的使用（一）Tushare是一款开源免费的金融数据接口包，可以用于获取股票的历史数据、年度季度报表数据、实时分笔数据、历史分笔数据，本文对tushare的用法，已经存在的一些问题做一些介绍。一：安装tushare为避免由于依赖包缺失导致安装失败，请先安装anaconda,百度网盘地址：链接：http://pan.baidu.com/s/1qYDQUGs 密码：6wq8 安装直接一直下一步即可安装完成之后，anaconda会自动配置环境变量，直接就可...

python 获取一个正整数的二进制【代码】

#coding=utf-8def getbin(a):out = ""# 辗转相除法while (1):div = a // 2mod = a % 2out += str(mod)if (div == 0):breaka = divreturnout[::-1]print(getbin(11))输出1011 参考：https://www.nuoweb.com/scripts/3158.htmlhttps://jingyan.baidu.com/article/f0e83a255ca20422e59101f5.html 原文：https://www.cnblogs.com/sea-stream/p/11324105.html

Python获取个人网站的所有课程下载链接和密码，并保存到Mongodb中【代码】

1、获取网站课程的分类地址；‘‘‘ 爬取屌丝首页，获取每个分类名称和链接 ‘‘‘import requests from lxml import etreeheaders = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36‘, } def get_class_data():list_data = []url = ‘http://www.diaosiweb.net/index.html‘responese = requests.get(url,headers=headers)responese.encoding...

Python开发实战教程(8)-向网页提交获取数据

来这里找志同道合的小伙伴！↑↑↑ Python应用现在如火如荼，应用范围很广。因其效率高开发迅速的优势，快速进入编程语言排行榜前几名。本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结。希望大家能够快速入门并学习Python这门语言。本次课程是在掌握python基础之上进行的。基础没有学习的话建议先查看文章学习基础目录：Python开发实战系列教程-链接汇总，持续更新。进行学习。最近几天感冒中，四肢乏力以及...

python自动获取项目路径在windows和mac的不同【代码】

python自动获取项目路径在windows和mac的不同import os # 获取项目路径 project_path = os.path.abspath(os.path.join(os.path.dirname(os.path.split(os.path.realpath(__file__))[0]), ‘.‘)) # test_case_path = project_path+"\\src\\test_case" test_case_path = project_path+"//src//test_case"# mac环境 # print u‘日志路径：‘+log_path # 测试报告存储路径，并以当前时间作为报告名称前缀 # 获取到当前文件的目录，并检...

GitHub热榜第四！这套Python机器学习课，免费获取还易吸收 | 资源【图】

全文：https://mp.weixin.qq.com/s/tIsJr5br3D13-Lgc6w2ntg 刚刚，又一个机器学习人气课程冲上GitHub热榜，一天之内新增了近700 star，一下子登上热榜第四。这套课程名为A Machine Learning Course with Python（Python机器学习课程），其介绍中只有一句话：这是一套容易理解并且简单的Python机器学习课。入门级资源、门槛降到最低，这在不少网友心里种了草，推特网友纷纷转推，表示期待着有空好好学习一下。里面都有啥？“容易理解...

Python 读取文件下所有内容、获取文件名、截取字符、写回文件【代码】

# coding=gbkimport osimport os.path #读取目录下的所有文件，包括嵌套的文件夹def GetFileList(dir, fileList): newDir = dirif os.path.isfile(dir): fileList.append(dir) elif os.path.isdir(dir):for s in os.listdir(dir): # 如果需要忽略某些文件夹，使用以下代码 # if s == "xxx": # continue newDir = os.path.join(dir, s) GetFileList(newDir, f...

python 获取星期几【代码】

In [17]: now.strftime(%a),now.strftime(%w) Out[17]: ('Mon', '1')Directive Meaning %a Weekday name. %A Full weekday name. %b Abbreviated month name. %B Full month name. %c Appropriate date and time representation. %d Day of the month as a decimal number [01,31]. %H Hour (24-hour clock) as a decimal number [00,23]. %I Hour (12-hour clock) as a decimal number [01,12]. %j Day of the year as...

python3 使用Fiddler捕获的Raw信息带cookie使用GET或POST获取【代码】【图】

import requests from retrying import retrydef is_request_exception(e):print(e)return Truegetcookie=‘‘‘GET http://www.xxx.com HTTP/1.1 User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2 Accept-Encoding: gzip, d...

利用python+seleniumUI自动化登录获取cookie后再去测试接口，今天终于搞定了

#coding=utf-8from selenium import webdriverfrom selenium.common.exceptions import NoSuchElementExceptionimport unittest,timeimport requests#登录模块函数def login(): u‘‘‘gdtmpd登录‘‘‘ driver=webdriver.Chrome() driver.get(‘登录地址url‘) nowhandle=driver.current_window_handle print "nowhandle:%s"%nowhandle driver.implicitly_wait(30) driver.find_element_by_link_text(u‘QQ登...

Python实现获取域名所用服务器的真实IP【代码】

本来是要写个程序用的，没写完不写了，这一部分就贴出来吧验证域名和IP class JianKong():‘‘‘查询IDC信息，封ip和过白名单‘‘‘def __init__(self):pass@classmethoddef ip_verify(cls,str):‘验证IP地址规范‘pattern=re.compile(‘(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?...

入门一：python变量、获取值、标准输出、循环判断语句【代码】

变量是由字母、数字和下划线组成的，数字不能作为开头。　　python中没有常量，一般用常量的时候将变量名大写就可以了，注意后面不要修改它的值。　　变量命令：使用下划线分隔。　　字符编码在代码开头加入一行1# -*- coding:utf-8 -*-获取输入的值input：　　普通输入： 1 name = input("name:") 2 age = int(input("age:")) 3 job = input("job:") 4 salary = input("salary:")　　密文输如：1import getpass 23 password = get...

python 利用爬虫获取页面上下拉框里的所有国家【代码】

前段时间，领导说列一下某页面上的所有国家信息，话说这个国家下拉框里的国家有两三百个，是第三方模块导入的，手动从页面拷贝，不切实际，于是想着用爬虫去获取这个国家信息，并保存到文件里。下面是具体的代码，写的也是比较简单，利用Selenium操作页面，获取下拉国家列表的信息，并保存到文件里from selenium import webdriver import xlwt driver = webdriver.Chrome(‘C:\Program Files (x86)\Google\Chrome\Application\chro...

Python面向对象：获取对象信息【代码】

学习笔记内容简介：获取对象属性和方法的函数：type(): 判断对象类型isinstance() : 判断class的类型dir() : 获得一个对象的所有属性和方法把属性和方法列出来是不够的，配合以下函数，我们可以直接操作一个对象的状态：hasdttr()：测试是否有该属性setattr()：设置一个新的属性getattr(): 获取该属性下面开始列举说明：type()#基本类型都可以用type()判断： >>> type(123) <class‘int‘> >>> type(‘str‘) <class‘str‘> >>> t...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 如何在BeautifulSoup中获取所有父标签的列表？

python – 如何在BeautifulSoup中获取所有父标签的列表？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 如何在BeautifulSoup中获取所有父标签的列表？】教程文章相关的互联网学习教程文章

python获取内存SN编号等信息【代码】【图】

金融量化分析-python量化分析系列之---使用python获取股票历史数据和实时分笔数据【代码】

python 获取一个正整数的二进制【代码】

Python获取个人网站的所有课程下载链接和密码，并保存到Mongodb中【代码】

Python开发实战教程(8)-向网页提交获取数据

python自动获取项目路径在windows和mac的不同【代码】

GitHub热榜第四！这套Python机器学习课，免费获取还易吸收 | 资源【图】

Python 读取文件下所有内容、获取文件名、截取字符、写回文件【代码】

python 获取星期几【代码】

python3 使用Fiddler捕获的Raw信息带cookie使用GET或POST获取【代码】【图】

利用python+seleniumUI自动化登录获取cookie后再去测试接口，今天终于搞定了

Python实现获取域名所用服务器的真实IP【代码】

入门一：python变量、获取值、标准输出、循环判断语句【代码】

python 利用爬虫获取页面上下拉框里的所有国家【代码】

Python面向对象：获取对象信息【代码】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程