爬虫之Beautifulsoup模块

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了爬虫之Beautifulsoup模块，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4835字，纯文字阅读大概需要7分钟。

内容图文

一、介绍

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.目前已经开发到4.0以上了

baautiful soup常用的解析器如下：

解析器	使用方法	优势	劣势
Python标准库	`BeautifulSoup(markup, "html.parser")`	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	`BeautifulSoup(markup, "lxml")`	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	`BeautifulSoup(markup, ["lxml", "xml"])` `BeautifulSoup(markup, "xml")`	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	`BeautifulSoup(markup, "html5lib")`	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

二、BeautifulSoup的使用

1、遍历文档树

遍历文档树：即直接通过标签名字选择，特点是选择速度快，但如果存在多个相同的标签则只返回第一个

            #
             1、用法：
            from bs4 import BeautifulSoup
soup=BeautifulSoup(html_doc,‘lxml‘)
head=soup.head
# print(head)# 2、获取标签的名字： 重点
p = soup.p
print(p.name) #>: p# 3、获取标签的属性  重点
p = soup.body.p # 获取body下的p标签print(p.attrs) # 结果：{‘id‘: ‘my_p‘, ‘class‘: [‘title‘]}
# 获取p标签内属性值的三种方法
p.attrs.get(‘class‘)
p.get(‘class‘)
p[‘class‘]

# 4、获取标签的内容  重点‘‘‘
text: 取所选标签内下所有的文本内容
string: 若所选标签下的文本只有一个时，取到，否则为None
strings: 拿到一个生成器对象，取下所选标签下的所有文本内容
stripped_strings: 是去掉空白
get_text():是用来调取内部属性text的方法。
区别：string获取的是该标签的直系内容，无法获取该标签子标签的直系内容，
     而text/get_text()可以
注意：如果选标签下包含多个节点，则string输出结果是None,比如：body下有多个p节点
‘‘‘
p=soup.body.p
print(p.text)
print(p.string)
print(p.strings)  #结果：<generator object _all_strings at 0x0000026619237BF8>for line in p.stripped_strings:
    print(line)
print(p.get_text())

# 5、嵌套选择    重点
s = soup.body.a
print(s.get(‘id‘))

# 6、子节点、子孙节点print(soup.p.contents) #取出p下的所有子节点print(soup.p.children) #取出包含p标签下所有子节点,返回一个迭代器print(list(soup.p.children))

# 7、父节点、祖先节点print(soup.a.parent) #获取a标签的父节点(只有一个)print(soup.p.parent) #获取p标签的父节点print(soup.a.parents) #返回生成器，找到a标签所有的祖先节点，父亲的父亲，父亲的父亲的父亲...print(list(soup.a.parents))#找到a标签所有的祖先节点，父亲的父亲，父亲的父亲的父亲...# 8、兄弟节点print(soup.a.next_sibling) #下一个兄弟print(soup.a.previous_sibling) #上一个兄弟print(list(soup.a.next_siblings)) #下面的兄弟们=>生成器对象print(list(soup.a.previous_siblings)) #上面的兄弟们=>生成器对象

2、搜索文档树

（1）find()和find_all()

            ‘‘‘
            
 find_all(name , attrs , recursive , text , **kwargs)
 用处：找到所有符合要求的标签
 参数：name是标签名，attrs是一个字典参数，用来搜索包含特殊属性的标签，比如：data-*类型的属性
 recursive：True，则会搜索当前标签的子孙节点，如果是False，则只搜索当前标签的子节点。
 text: 可以是字符，列表，True,正则
 注意：按类名查找的时候，关键字是class_

            ‘‘‘
            
soup.find_all(
            ‘
            a
            ‘) #
soup.find([‘a‘,‘p‘]) #找到所有a和p标签
soup.find_all(‘a‘,limit=2) #找到前两个a标签
soup.find_all(‘a‘,attrs={‘data-fooo‘:‘value‘})
soup.find_all(‘p‘,attrs={‘class‘:‘title‘})
soup.find_all(‘p‘,recursive=False)
soup.find_all(‘a‘,text=‘Lacie‘)
soup.find_all(text=‘Lacie‘)
soup.find_all(class_=‘title‘)
‘‘‘
 find_(name , attrs , recursive , text , **kwargs)
 用处：找到第一个符合要求的标签
 参数：name是标签名，attrs是一个字典参数，用来搜索包含特殊属性的标签，比如：data-*类型的属性
 recursive：True，则会搜索当前标签的子孙节点，如果是False，则只搜索当前标签的子节点。
 text: 可以是字符，列表，True,正则
 注意：按类名查找的时候，关键字是class_
‘‘‘print(soup.find(‘a‘)) #寻找a标签print(soup.find(‘a‘,id=‘link3‘))  #寻找id是link3的a标签print(soup.find(‘a‘,class_=‘sister2‘))
print(soup.find(‘a‘,title=‘xxx‘)) #寻找title是xxx的a标签‘‘‘
区别：find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果.
     find_all() 方法没有找到目标是返回空列表, find() 方法找不到目标时,返回 None 
‘‘‘

(2) 五种过滤器

            ‘‘‘
            
五种过滤器：字符串、正则表达式、列表、True、方法

            ‘‘‘
            #
             1、字符串：也就是标签名
soup.find_all(‘b‘)
# 2、正则表达式import re
soup.find_all(re.compile(‘^b‘)) #找b开头的标签
# 3、列表
soup.find_all([‘a‘,‘p‘])
# 4、True: 匹配任何值
soup.find_all(True)  #查找所有标签，但是不会返回字符串节点
# 5、方法：可以是自己定义的方法def myfunc(tag):
    return tag.has_attr(‘class‘) andnot tag.has_attr(‘id‘)
soup.find_all(myfunc())

（3）css选择器

            ‘‘‘
            
css选择器：返回的是列表

            ‘‘‘
            #
             1、获取标签
            print(soup.select(‘.element‘))
print(soup.select(‘#link3‘))
# 2、获取标签的属性
soup.select(‘#link3‘)[0].attrs
# 3、获取标签的内容
soup.select(‘#link3‘)[0].get_text()

三国演义小说爬取案例：

            #
             -*-coding:utf-8 -*-
            import
             requests

            from bs4 import BeautifulSoup
import lxml
headers={
‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36‘,
}
req=requests.get(‘http://www.shicimingju.com/book/sanguoyanyi.html‘,headers=headers)
soup=BeautifulSoup(req.text,‘lxml‘)
li_list=soup.select(‘.book-mulu > ul > li > a‘)

for li in li_list:
    url=‘http://www.shicimingju.com‘+li[‘href‘]
    title = li.string
    req_detail=requests.get(url,headers=headers)
    soup_detail=BeautifulSoup(req_detail.text,‘lxml‘)
    detail_text=soup_detail.find(‘div‘,class_=‘chapter_content‘).text
    file_name=title+‘.txt‘
    with open(file_name,‘w‘,encoding=‘utf-8‘) as f:
        f.write(detail_text)
        print(title+‘   加载完毕‘)

爬肯德基餐厅信息（ajax请求，是post请求，返回的是数据）

            #
             -*-coding:utf-8 -*-
            import
             requests

            import
             json
url=‘http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword‘
headers={
‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36‘,
}
# word=input(">>:")
data={
    ‘cname‘: ‘‘,
    ‘pid‘: ‘‘,
    ‘keyword‘: ‘普宁‘,
    ‘pageIndex‘: 1,
    ‘pageSize‘: 10,
      }
res=requests.post(url,data=data,headers=headers)
print(res.json())

原文：https://www.cnblogs.com/nq31/p/14148692.html

内容总结

以上是互联网集市为您收集整理的爬虫之Beautifulsoup模块全部内容，希望文章能够帮你解决爬虫之Beautifulsoup模块所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1188216.html

来源：【匿名】

【上一篇】java获取qq邮箱的网络爬虫【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【爬虫之Beautifulsoup模块】教程文章相关的互联网学习教程文章

爬虫之request各种请求方式gethost_url = ‘https://www.pearvideo.com/‘ #浏览器的版本等信息 headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36" } res = requests.get(host_url, headers=headers)post r = requests.post(‘http://httpbin.org/post‘, data = {‘key‘:‘value‘})deleter = requests.delete(‘http://httpbin...

selenium模块在爬虫中的应用【代码】

1. 相关概念1. selenium模块　　是一个基于浏览器自动化的模块2. 与爬虫之间的关联　　便捷的捕获到动态加载到的数据（可见即可得）　　实现模拟登陆3.环境安装pip3 install selenium简单演示from selenium import webdriver from time import sleep# 后面是你的浏览器驱动位置，记得前面加r‘‘,‘r‘是防止字符转义的 driver = webdriver.Chrome(r‘chromedriver.exe‘)# 用get打开百度页面 driver.get("http://www.baidu.com")#...

python之路_day96_爬虫之requests模块补充【代码】

一、响应Response1、response属性import requests respone=requests.get(‘http://www.jianshu.com‘) # respone属性print(respone.text) #获得文本内容print(respone.content) #获得二进制文本内容print(respone.status_code) #获得状态码print(respone.headers) #获得响应头print(respone.cookies) #获得cookies...

python学习之爬虫：安装requests模块【图】

终端输入命令：pip install requests 如果报错：p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #000000; background-color: #ffffff } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #c33720; background-color: #ffffff } span.s1 { }Installing collected packages: idna, urllib3, certifi, chardet, requestsException:Traceback (most recent call last): File "/Library/Pyt...

【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用【图】

【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用广东职业技术学院欧浩源 2017-10-201、引言网络爬虫最终的目的就是过滤选取网络信息，因此最重要的就是解析器了，其性能的优劣直接决定这网络爬虫的速度和效率。BeautifulSoup可以通过定位HTML件中的标签来格式化和组织复杂的网络信息，尝试化平淡为神奇，用简单易用的Python对象为我们展现XML的信息结构，它会帮你节省数小时甚至数天的工作时间。2、什么是Beau...

python爬虫边看边学（xpath模块解析）【代码】

xpath模块解析 Xpath是一门在 XML 文档中查找信息的语言。 Xpath可用来在 XML文档中对元素和属性进行遍历。而我们熟知的HTML恰巧属于XML的一个子集。所以完全可以用xpath去查找html中的内容。一、安装lxml模块 pip install lxml 用法：1、将要解析的html内容构造出etree对象。 2、使用etree对象的xpath方法配合xpath表达式来完成对数据的提取。简单案例：from lxml import etreexml=‘‘‘ <bo...

python网络爬虫——requests模块（第二章）【代码】【图】

网络爬虫之requests模块今日概要基于requests的get请求基于requests模块的post请求基于requests模块ajax的get请求基于requests模块ajax的post请求综合项目练习：爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据知识点回顾常见的请求头常见的相应头https协议的加密方式基于如下5点展开requests模块的学习什么是requests模块requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起...

爬虫(六)：XPath、lxml模块【代码】【图】

1. XPath1.1 什么是XPathXPath（XML Path Language) 是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。1.2 XPath开发工具1.2.1 Chrome插件XPath Helperhttps://jingyan.baidu.com/article/1e5468f94694ac484861b77d.html1.2.2 Firefox插件XPath Checkerhttps://blog.csdn.net/menofgod/article/details/756464431.3 Xpath语法这个就要看我写的selenium基础中的文章了。https://www.cnblogs.c...

爬虫小试--用python中requests和urllib模块爬取图片【代码】

今天突发奇想小试爬虫,获取一下某素材站一些图片实现步骤如下:import re import requests from urllib import request import os# 1.首先要检查数据是否是动态加载出来的 # 2.获取页面源码数据ifnot os.path.exists(‘tupian‘):os.mkdir(‘tupian‘) headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36" } url = "http://sc...

Python 爬虫常用模块【代码】

1、fake_useragentpip install fake_useragent 2、图展示pip install pyechartspip install pyecharts-snapshot 原文：https://www.cnblogs.com/cbugs/p/9803203.html

Python爬虫连载10-Requests模块、Proxy代理【代码】【图】

一、Request模块1.HTTP for Humans,更简洁更友好2.继承了urllib所有的特征3.底层使用的是urllib34.?开源地址：https://github.com/requests/requests5.中文文档?：https://requests.readthedocs.io/zh_CN/latest/6.先安装这个包:pip install requests7.get请求（1）requests.get()（2）requests.request("get",url)（3）可以带有headers和params参数8.get返回内容 import requests?#两种请求 url = "http://www.baidu.com/s?"rsp =...

Forward团队-爬虫豆瓣top250项目-模块开发过程【代码】

项目托管平台地址:https://github.com/xyhcq/top250 我负责将爬取到的信息写入到文件中。首先，先打开一个文件# 打开文件 f=open("top250.txt","w")然后在别的队员写的能够爬取出信息的代码上，加入将信息写入文件的的代码def getData(html):# 分析代码信息，提取数据soup = BeautifulSoup(html, "html.parser")# 找到第一个class属性值为grid_view的ol标签movieList=soup.find(‘ol‘,attrs={‘class‘:‘grid_view‘})# 找到所有...

python爬虫模块理解【代码】

Url管理器：　　用来管理要抓取的url和已抓取的url,防止重复抓取和循环抓取，url管理器的五个最小功能:　　　　1、添加url到容器中　　　　2、获取一个url　　　　3、判断url是否已在容器中　　　　4、判断是否还有待爬取的url　　　　5、将待爬取的url移到已爬取的url网页下载器：　　网页下载器是爬虫的核心组件，它将url对应的互联网网页已html的形式保存在本地。目前有两种网页下载器，1：urllib2(python基础模块) 2:requests（...