首页 / PYTHON / pythonBeautifulSoup使用方法详解

pythonBeautifulSoup使用方法详解

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了pythonBeautifulSoup使用方法详解，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2987字，纯文字阅读大概需要5分钟。

内容图文

直接看例子：

代码如下:

#!/usr/bin/python
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...

"""
soup = BeautifulSoup(html_doc)
print soup.title
print soup.title.name
print soup.title.string
print soup.p
print soup.a
print soup.find_all('a')
print soup.find(id='link3')
print soup.get_text()

结果为：

代码如下:

The Dormouse's story
title
The Dormouse's story

The Dormouse's story

Elsie
[Elsie, Lacie, Tillie]
Tillie
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...

可以看出：soup 就是BeautifulSoup处理格式化后的字符串，soup.title 得到的是title标签，soup.p 得到的是文档中的第一个p标签，要想得到所有标签，得用find_all
函数。find_all 函数返回的是一个序列，可以对它进行循环，依次得到想到的东西.
get_text() 是返回文本,这个对每一个BeautifulSoup处理后的对象得到的标签都是生效的。你可以试试 print soup.p.get_text()
其实是可以获得标签的其他属性的，比如我要获得a标签的href属性的值，可以使用 print soup.a['href'],类似的其他属性，比如class也是可以这么得到的（soup.a['class']）。
特别的，一些特殊的标签，比如head标签，是可以通过soup.head 得到，其实前面也已经说了。
如何获得标签的内容数组？使用contents 属性就可以比如使用 print soup.head.contents，就获得了head下的所有子孩子，以列表的形式返回结果，
可以使用 [num] 的形式获得 ,获得标签，使用.name 就可以。
获取标签的孩子，也可以使用children，但是不能print soup.head.children 没有返回列表，返回的是 ,
不过使用list可以将其转化为列表。当然可以使用for 语句遍历里面的孩子。
关于string属性，如果超过一个标签的话，那么就会返回None，否则就返回具体的字符串print soup.title.string 就返回了 The Dormouse's story
超过一个标签的话，可以试用strings
向上查找可以用parent函数，如果查找所有的，那么可以使用parents函数
查找下一个兄弟使用next_sibling,查找上一个兄弟节点使用previous_sibling,如果是查找所有的，那么在对应的函数后面加s就可以

如何遍历树？

使用find_all 函数

代码如下:

find_all(name, attrs, recursive, text, limit, **kwargs)

举例说明：

代码如下:

print soup.find_all('title')
print soup.find_all('p','title')
print soup.find_all('a')
print soup.find_all(id="link2")
print soup.find_all(id=True)

返回值为：

代码如下:

[The Dormouse's story]
[

The Dormouse's story

]
[Elsie, Lacie, Tillie]
[Lacie]
[Elsie, Lacie, Tillie]

通过css查找,直接上例子：

代码如下:

print soup.find_all("a", class_="sister")
print soup.select("p.title")

通过属性进行查找

代码如下:

print soup.find_all("a", attrs={"class": "sister"})

通过文本进行查找

代码如下:

print soup.find_all(text="Elsie")
print soup.find_all(text=["Tillie", "Elsie", "Lacie"])

限制结果个数

代码如下:

print soup.find_all("a", limit=2)

结果为：

代码如下:

[Elsie, Lacie, Tillie]
[

The Dormouse's story

]
[Elsie, Lacie, Tillie]
[u'Elsie']
[u'Elsie', u'Lacie', u'Tillie']
[Elsie, Lacie]

总之，通过这些函数可以查找到想要的东西。

内容总结

以上是互联网集市为您收集整理的pythonBeautifulSoup使用方法详解全部内容，希望文章能够帮你解决pythonBeautifulSoup使用方法详解所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/435778.html

来源：【匿名】

【上一篇】tornado框架blog模块分析与使用【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【pythonBeautifulSoup使用方法详解】教程文章相关的互联网学习教程文章

Python的Bottle框架中实现最基本的get和post的方法的教程【代码】

1、GET方式： # -*- coding: utf-8 -*- #!/usr/bin/python # filename: GETPOST_test.py # codedtime: 2014-9-20 19:07:04import bottledef check_login(username, password):if username == ‘123‘ and password == ‘234‘:return Trueelse:return False@bottle.route(‘/login‘) def login():if bottle.request.GET.get(‘do_submit‘,‘‘).strip(): #点击登录按钮# 第一种方式(latin1编码) ## username = bottle.requ...

Python “ValueError: incomplete format” upon print(“stuff %” % “thingy”) 解决方法【图】

直接贴代码这里我是想匹配length i 的值并且要打印出data里面%23也就是#的url编码，但是发现这样报错了，这时候我们在%23前面多加一个%号就能够成功执行我这里测试的2.7环境，3.x以上没有测试。。原文：http://www.cnblogs.com/Mrsm1th/p/6684626.html

python标准日志模块logging的使用方法

最近写一个爬虫系统，需要用到python的日志记录模块，于是便学习了一下。python的标准库里的日志系统从Python2.3开始支持。只要import logging这个模块即可使用。如果你想开发一个日志系统，既要把日志输出到控制台，还要写入日志文件，只要这样使用：复制代码代码如下:import logging# 创建一个loggerlogger = logging.getLogger(‘mylogger‘)logger.setLevel(logging.DEBUG)# 创建一个handler，用于写入日志文件fh = logging....

关于python中魔术方法和getter与setter的简记【代码】

python中一切皆对象，即我们定义的类本身也是对象　　　那么要注意每个类中可以写一些通用的方法，而且一般对外不可访问，即标识符首尾都有双下划线（没错__init__就是魔术方法之一），这些方法涉及到一些所有类可能都需要的属性，比如__len__可以返回长度，__repr__（）直接返回调用这个对象的返回值，（感觉类似c++中的函数对象的处理）。还有__new__()等在init之前创建对象时最先调用的方法，在对象使用结束之后还有一个__del__...

Python网络爬虫神器PyQuery的使用方法【代码】

#!/usr/bin/env python # -*- coding: utf-8 -*-import requests from pyquery import PyQuery as pqurl = ‘http://www.136book.com/huaqiangu/‘ headers = {‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36‘‘ (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36‘ }# 请求网页链接获取页面源码 r = requests.get(url, headers=headers).text doc = pq(r) # 获取网页的全部章节...

Python基础（数字,字符串方法）【代码】

数字:1#二进制转十进制2 a=‘100‘3 v=int(a,base=2) 4print(v)进制转换1#当前数字的二进制至少有多少位2 b=2 3 v2=b.bit_length() 4print(v2)数值二进制表示位数字符串:1#首字母大写2 a="kelvin"3 v=a.capitalize() 4print(v)首字母大写1#终极无敌‘大写‘变‘小写‘---->casefold2 b="KELVIN"3 v1=b.casefold() 4 v2=b.lower() 5print(v1) 6print(v2)大写转小写1#居中显示字符串2 c="kelvin"3 v3=c.center(50,"-") #第二个参数不...

Python3.x List方法集合

Python中的一个内置的基础类型叫List，类比于OC中的Array..他是有序的，那么下面写一些基础的方法，以备需要时候查阅：1>获取List的长度　　len(List)2> 索引访问元素　　List[0 ...N]3> 要取最后一个元素，除了计算索引位置外，还可以使用-1索引，如　　List[-1] 可以拿到最后一个位置的元素4> List是一个可变的有序表，所以可以追加元素到末尾　　List.append("XXX")5> 也可插入到指定位置　　List.insert(1,"XXX") 1是代表了...

（一）Python入门-6面向对象编程：03类对象-类属性-类方法-静态方法【代码】【图】

一：类对象　　前面讲的类定义格式中，“class 类名：”。实际上，当解释器执行class 语句时，就会创建一个类对象。【操作】#测试类对象的生成class Student:pass#空语句print(type(Student)) print(id(Student)) print(Student)s1 = Student() print(s1) Stu2 = Student s2 = Stu2() print(Stu2) print(s2)运行结果：　　<class ‘type‘>　　2220691901896　　<class ‘__main__.Student‘>　　<__main__.Student object at 0x0...

python列表的方法【代码】

1、append字列表末尾追加新的对象>>>lst=[1,2,3] >>>lst.append(4) >>>lst [1,2,3,4]2、count用于计算某个元素在列表中出现的次数>>>[‘to‘,‘be‘,‘or‘,‘not‘,‘to‘,‘be‘,‘this‘,‘is‘,‘a‘,‘question‘].count(‘to‘) 23、extend即使用一个b列表，来扩展a列表，注意，a列表会被改变。>>>a = [1,2,3] >>>b = [4,5,6] >>>a.extend(b) >>>a [1,2,3,4,5,6]同样的我们可以使用分片赋值4、indexindex方法用于从列表中找出...

关于python中strip方法的理解

1.strip方法并不是去除对称字符串的。比如a="123abcd321"a.strip()方法的结果是abcd有人可能就把strip方法理解成了“可以去除字符串两端对称字符”的一种方法。这么理解是错误的。2.strip方法既可以去除字符串左侧的字符也可以去除字符串右侧的字符，也可以两端同时去除。a="123abcd"a.strip(“123”)的结果是abcdb="abcd123"b.strip("123")的结果是abcdstrip方法的结果其实是先执行lstrip方法再执行rstrip方法，为了语义清楚，你如...

Python调用系统命令的6种方法

Python调用系统命令的6种方法在Python中调用系统命令一般使用os或者subprocess模块，下面介绍Python中最常用的6种调用系统命令的方法。1、os.system()该函数返回命令执行结果的返回值，system()函数在执行过程中进行了以下三步操作：1、fork一个子进程；2、在子进程中调用exec函数去执行命令；3、在父进程中调用wait（阻塞）去等待子进程结束。返回0表示命令执行成功，其他表示失败。用法：os.system("command")2、os.popen()这种调...

Learning-Python【26】：反射及内置方法【代码】

反射的概念可以用字符串的方式去访问对象的属性，调用对象的方法（但是不能去访问方法），Python 中一切皆对象，都可以使用反射。反射有四种方法：hasattr：hasattr（object, name）判断一个对象是否有 name 属性或者 name 方法。有就返回 True，没有就返回 Falsegetattr：获取对象的属性或者方法，如果存在则打印出来。hasattr 和 getattr 配套使用　　需要注意的是，如果返回的是对象的方法，返回出来的是对象的内存地址，如果需...

python tips:类的绑定方法（bound）和非绑定方法（unbound）【代码】

类属性只有类及其实例能够访问，可以理解为一个独立的命名空间。Python中类属性的引用方式有两种：1. 通过类的实例进行属性引用，称为绑定方法（bound method），可以理解为方法与实例绑定在一起。2. 通过类进行属性引用，称为非绑定方法（unbound method），方法没有与实例绑定。在绑定方法中，为了与实例绑定，Python自动将实例作为方法的第一个参数，而非绑定方法则表现的像普通函数，和普通函数的区别在于它只能通过类来访问。...

Python3+Selenium Web自动化测试案例分享⑷——页面基础类方法【代码】

本章节主要是封装selenium库的一些基础操作方法，如：打开网页、定位元素、截图等，这里是最基本最底层操作浏览器的方法，详情如下：一、basePage.py# _*_ coding:utf-8 _*_import time,os from selenium.webdriver.support.ui import WebDriverWait #导入显示等待等待from selenium.webdriver.support import expected_conditions as EC #导入判断方法from Public import getPathInfo,loglog_info =log.logger ...

python内置方法

1. 简介　　本指南归纳于我的几个月的博客，主题是魔法方法。　　什么是魔法方法呢？它们在面向对象的Python的处处皆是。它们是一些可以让你对类添加“魔法”的特殊方法。它们经常是两个下划线包围来命名的（比如 __init__ ， __lt__ ）。但是现在没有很好的文档来解释它们。所有的魔法方法都会在Python的官方文档中找到，但是它们组织松散。而且很少会有示例（有的是无聊的语法描述，语言参考）。　　所以，为了修复我感知的...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / pythonBeautifulSoup使用方法详解

pythonBeautifulSoup使用方法详解

内容导读

内容图文

内容总结

内容备注

内容手机端

【pythonBeautifulSoup使用方法详解】教程文章相关的互联网学习教程文章

Python的Bottle框架中实现最基本的get和post的方法的教程【代码】

Python “ValueError: incomplete format” upon print(“stuff %” % “thingy”) 解决方法【图】

python标准日志模块logging的使用方法

关于python中魔术方法和getter与setter的简记【代码】

Python网络爬虫神器PyQuery的使用方法【代码】

Python基础（数字,字符串方法）【代码】

Python3.x List方法集合

（一）Python入门-6面向对象编程：03类对象-类属性-类方法-静态方法【代码】【图】

python列表的方法【代码】

关于python中strip方法的理解

Python调用系统命令的6种方法

Learning-Python【26】：反射及内置方法【代码】

python tips:类的绑定方法（bound）和非绑定方法（unbound）【代码】

Python3+Selenium Web自动化测试案例分享⑷——页面基础类方法【代码】

python内置方法

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程