首页 / 爬虫 / 【Python3 爬虫】Beautiful Soup库的使用

【Python3 爬虫】Beautiful Soup库的使用

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了【Python3 爬虫】Beautiful Soup库的使用，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3063字，纯文字阅读大概需要5分钟。

内容图文

之前学习了正则表达式，但是发现如果用正则表达式写网络爬虫，那是相当的复杂啊！于是就有了Beautiful Soup

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

安装Beautiful Soup

使用命令安装

pip install beautifulsoup4

出现上述截图表示已经成功安装

Beautiful Soup的使用

1.首先必须先导入BS4库

from bs4 import BeautifulSoup

2.定义html内容（为后边的例子演示做准备）

下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简称为 爱丽丝 的文档):

html = """
<html><head><title>The Dormouse‘s story</title></head>
<body>
<p class="title"><b>The Dormouse‘s story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

3.创建beautifulsoup 对象

                #创建BeautifulSoup对象
soup = BeautifulSoup(html)
"""
若html内容存在文件a.html中，那么可以这么创建BeautifulSoup对象
soup = BeautifulSoup(open(a.html))
"""

4.格式化输出

                #格式化输出
                print(soup.prettify())

输出结果：

5.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构

每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

（1）Tags

Tags是 HTML 中的一个个标签，例如:

<a></a>

<p></p>

…

等都是标签

下面感受一下怎样用 Beautiful Soup 来方便地获取 Tags

                #获取tags
                print(soup.title)
#运行结果：<title>The Dormouse‘s story</title>print(soup.head)
#运行结果：<head><title>The Dormouse‘s story</title></head>print(soup.a)
#运行结果：<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>print(soup.p)
#运行结果：<p class="title"><b>The Dormouse‘s story</b></p>

不过有一点是，它查找的是在所有内容中的第一个符合要求的标签，看<a>标签的输出结果就可以明白了！

我们可以使用type来验证以下这些标签的类型

                #看获取Tags的数据类型
                print(type(soup.title))
#运行结果：<class ‘bs4.element.Tag‘>

对于Tags，还有2个属性，name跟attrs

                #查看Tags的两个属性name、attrs
                print(soup.a.name)
#运行结果：aprint(soup.a.attrs)
#运行结果：{‘href‘: ‘http://example.com/elsie‘, ‘class‘: [‘sister‘], ‘id‘: ‘link1‘}

从上面的输出结果我们可以看到标签<a>的attrs属性输出结果是一个字典，我们要想获取字典中的具体的值可以这样

p = soup.a.attrs
print(p[‘class‘])
#print(p.get(‘class‘)) 与上述方法等价#运行结果：[‘sister‘]

（2）NavigableString

我们已经获取了Tags了，那么我们如何来获取Tags中的内容呢？

                #获取标签内部的文字(NavigableString)
                print(soup.a.string)
#运行结果：Elsie

同样的，我们也可以通过type来查看他的类型

                print(type(soup.a.string))
#运行结果：<class ‘bs4.element.NavigableString‘>

（3）BeautifulSoup

soup本身也是有这两个属性的，只是比较特殊而已

                #查看BeautifulSoup的属性
                print(soup.name)
#运行结果：[document]print(soup.attrs)
#运行结果：{}

（4）Comment

我们把上述html中的这一段修改为下面这个样子（把<a></a>标签中的内容修改为注释内容）

<a href="http://example.com/elsie" class="sister" id="link1"><!--Elsie--></a>

我们可以使用Comment同样提取被注释的内容

#获取标签内部的文字
print(soup.a.string)
#运行结果：Elsie

查看其类型

print(type(soup.a.string))
#运行结果：<class ‘bs4.element.Comment‘>

原文：https://www.cnblogs.com/OliverQin/p/8665448.html

内容总结

以上是互联网集市为您收集整理的【Python3 爬虫】Beautiful Soup库的使用全部内容，希望文章能够帮你解决【Python3 爬虫】Beautiful Soup库的使用所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1125776.html

来源：【匿名】

【上一篇】Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【【Python3 爬虫】Beautiful Soup库的使用】教程文章相关的互联网学习教程文章

python3 网页爬虫图片下载无效链接处理 try except

代码比较粗糙，主要是备忘容易出错的地方。供自己以后查阅。#图片下载import reimport urllib.request #python3中模块名和2.x（urllib）的不一样site=‘https://world.taobao.com/item/530762904536.htm?spm=a21bp.7806943.topsale_XX.4.jcjxZC‘page=urllib.request.urlopen(site)html=page.read()html=html.decode(‘utf-8‘) #读取下来的网页源码需要转换成utf-8格式reg=r‘src="//(gd.*?jpg)‘imgre=re.compile(reg)imgl...

[Python3网络爬虫开发实战] 1.7.1-Charles的安装【图】

Charles是一个网络抓包工具，相比Fiddler，其功能更为强大，而且跨平台支持得更好，所以这里选用它来作为主要的移动端抓包工具。1. 相关链接官方网站：https://www.charlesproxy.com下载链接：https://www.charlesproxy.com/download2. 下载Charles我们可以在官网下载最新的稳定版本，如图1-43所示。可以发现，它支持Windows、Linux和Mac三大平台。图1-43 Charles下载页面直接点击对应的安装包下载即可，具体的安装过程这里不再赘述...

【Python3 爬虫】U28_多线程爬取斗图啦的表情包【代码】【图】

目录1.需求描述2.实战代码2.1 单线程爬取2.2 多线程版1.需求描述爬取斗图啦网站，地址为：https://www.doutula.com/photo/list/，网站截图如下：现在需要按页爬取前2页的表情包，那么接下来直接上代码吧。2.实战代码2.1 单线程爬取 from urllib import request import requests from lxml import etree import re import osHEADERS= {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like...

python3网络爬虫学习——正则表达式【代码】

正则表达式是处理字符串的强大工具，有着自己的语法结构。1.实例引入可以使用开源中国的 http://tool.oschina.net/regex# 可以看到有许多匹配项，正则表达式匹配就是按照一定规则将特定的文本提取出来。比如电子邮件开头是一段字符串，然后是一个@符号，最后是某个域名，这是由特定的格式组成的。至于匹配的具体规则，可以参见这个博客https://www.jianshu.com/p/773c32dcd254 一些规则的汇总可以看这个博主https://www.cnblog...

Python3爬虫爬取淘宝商品数据【代码】

这次的主要的目的是从淘宝的搜索页面获取商品的信息。其实分析页面找到信息很容易，页面信息的存放都是以静态的方式直接嵌套的页面上的，很容易找到。主要困难是将信息从HTML源码中剥离出来，数据和网页源码结合的很紧密，剥离数据有一定的难度。然后将获取的信息写入excel表格保存起来，这次只爬取了前面10页的内容。在运行代码的过程中发现，30页后面的数据有问题，出现了手机价格为0的情况，这是不符合实际的，码也没有写错误处...

Python3网络爬虫实战-23、使用Urllib：分析Robots协议【代码】

利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析，本节我们来简单了解一下它的用法。 1. Robots协议Robots 协议也被称作爬虫协议、机器人协议，它的全名叫做网络爬虫排除标准（Robots Exclusion Protocol），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。它通常是一个叫做 robots.txt 的文本文件，放在网站的根目录下。当搜索爬虫访问一个站点时，它首先会检查下这个站点根目录下是否存在 robots...

《python3网络爬虫开发实战》--Ajax数据爬取

1. ajax异步的 JavaScript和 XML。对于传统的网页，如果想更新其内容，那么必须要刷新整个页面，但有了 Ajax，便可以在页面不被全部刷新的情况下更新其内容。在这个过程中，页面实际上是在后台与服务器进行了数据交互，获取到数据之后，再利用 JavaScript改变网页，这样网页内容就会更新了。2. Ajax请求网页更新：发送请求解析内容渲染网页3. Ajax分析方法：查看请求过滤请求4. Ajax结果提取：分析请求分析响应原文：https:...

python3爬虫之requests库基本使用【代码】

官方文档链接（中文）https://2.python-requests.org/zh_CN/latest/requests 基于 urllib3 ，python编写。安装 pip install requests （python3）anaconda 版本用pip安装要在 anaconda prompt 里打入安装命令提示Requirement already satisfied: requests in xxxxxx 表示已经安装了import requestsresponse=requests.get(‘http://www.baidu.com‘) #打印类型print(type(response)) #打印状态码print(response.status_code...

【Python3 爬虫】Beautiful Soup库的使用【代码】【图】

之前学习了正则表达式，但是发现如果用正则表达式写网络爬虫，那是相当的复杂啊！于是就有了Beautiful Soup简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。安装Beautiful Soup使用命令安装pip ...

python3.4爬虫批量下载音乐【图】

最近在学习python，使用的版本为python3.4，开发环境为使用Pydev插件的eclipse。正好觉得http://www.dexiazai.com/?page_id=23上的音乐不错，决定使用python批量下载下来。 1、音乐地址经过分析，页面嵌入的虾米播放器中的地址如下，后面以逗号分隔的字符为音乐的id，如音乐的地址为http://www.xiami.com/song/2088578 <span style="font-size:14px;"><span style="font-size:14px;"> <embed src="http://www.xiami....

python3爬虫初探（五）之从爬取到保存【代码】【图】

想一想，还是写个完整的代码，总结一下前面学的吧。import requests import re# 获取网页源码 url = ‘http://www.ivsky.com/tupian/xiaohuangren_t21343/‘ data = requests.get(url).text#正则表达式三部曲 #<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width="135" height="135" alt="卑鄙的我小黄人图片"> regex = r‘<img src="(.*?.jpg)"‘#匹配网址 pa = re.compile(regex)#转为pattern对...

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / 【Python3 爬虫】Beautiful Soup库的使用

【Python3 爬虫】Beautiful Soup库的使用

内容导读

内容图文

安装Beautiful Soup

Beautiful Soup的使用

内容总结

内容备注

内容手机端

【【Python3 爬虫】Beautiful Soup库的使用】教程文章相关的互联网学习教程文章

python3 网页爬虫图片下载无效链接处理 try except

[Python3网络爬虫开发实战] 1.7.1-Charles的安装【图】

【Python3 爬虫】U28_多线程爬取斗图啦的表情包【代码】【图】

python3网络爬虫学习——正则表达式【代码】

Python3爬虫爬取淘宝商品数据【代码】

Python3网络爬虫实战-23、使用Urllib：分析Robots协议【代码】

《python3网络爬虫开发实战》--Ajax数据爬取

python3爬虫之requests库基本使用【代码】

【Python3 爬虫】Beautiful Soup库的使用【代码】【图】

python3.4爬虫批量下载音乐【图】

python3爬虫初探（五）之从爬取到保存【代码】【图】

python3爬虫第一天（1）【代码】【图】

[Python3网络爬虫开发实战] 1.2.6-aiohttp的安装

python网络爬虫（3）python2在python3上的变动处理（持续更新）【代码】

华为云照片的爬虫程序更新(python3.6)【代码】【图】

爬虫 - 最新教程

爬虫 - 最热教程