首页 / 爬虫 / 【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素

【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3179字，纯文字阅读大概需要5分钟。

内容图文

【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素

1.常用CSS选择器介绍
2.实战演练：select和css选择器提取元素

1.常用CSS选择器介绍

以下是一个包含常用类选择器的案例，在案例后有具体的选择器使用介绍

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
    <style type="text/css">
        /*标签选择器*/
        p{
            background-color: pink;
        }
        /*类选择器*/
        .h1Line{
            background-color: greenyellow;
        }
        /*id选择器*/
        #h2{
            background-color: rosybrown;
        }
        /*定位直接子元素*/
        #info > li{
            background-color: orangered;
        }

        /*根据属性定位*/
        input[name="username"]{
            background-color: dodgerblue;
        }
    </style>
</head>
<body>
    <div>
        <p>我是第1行</p>
        <p>我是第2行</p>
        <p>我是第3行</p>
        <p>我是第4行</p>
    </div>
    <div>
        <h1 class="h1Line">我是标题1</h1>
    </div>
    <div>
        <h2 id="h2">我是标题2</h2>
        <h2 id="h2s">我是标题2的参照例子</h2>
    </div>
    <div id="info">
        <li>姓名</li>
        <li>年龄</li>
        <li>身高</li>
        <div>
            <li>班级</li>
            <li>教师</li>
            <li>人数</li>
            <em>asbas</em>
        </div>
    </div>

    <form>
        <input type="text" name="username"/>
        <input type="password" name="password"/>
    </form>
</body>
</html>

1.1 标签选择器

根据标签的名字选择。示例代码如下：

p{
    background-color: pink;
}

1.2 类名选择器

根据类名选择，那么需要在类名前加一个点。示例代码如下：

.h1Line{
    background-color: greenyellow;
}

1.3 id选择器

根据id选择，那么需要在id的前面加一个#号。示例代码如下：

#h2{
    background-color: rosybrown;
}

1.4 查找子孙元素

查找子孙元素，那么在子孙元素直接有一个空格。示例代码如下：

#info  li{
    background-color: orangered;
}

1.5 查找直接子元素

查找直接子元素，那么要在父子元素中间有一个>，示例代码如下：

#info > li{
    background-color: orangered;
}

1.6 根据属性查找

根据属性的名字进行查找，那么应该先写标签名字，然后在括号中写属性的值。示例代码如下：

input[name="username"]{
    background-color: dodgerblue;
}

2.实战演练：select和css选择器提取元素

下面使用到的"前程无忧"对应的代码来自于【Python3 爬虫】U11_BeautifulSoup4库提取数据详解

2.1 获取所有的p标签

from bs4 import BeautifulSoup
html = "前程无忧"
soup = BeautifulSoup(html,'lxml')
ps = soup.select('p')
for p in ps:
    print(p)
    print('=' * 40)

2.2 获取第2个p标签

from bs4 import BeautifulSoup
html = "前程无忧"
soup = BeautifulSoup(html,'lxml')
p = soup.select('p')[1]
print(p)

2.3 获取所有class等于t3的span标签

from bs4 import BeautifulSoup
html = "前程无忧"
soup = BeautifulSoup(html,'lxml')
spans = soup.select(".t3") #也可以直接写spans = soup.select(".t3")
# 也可以写为：spans = soup.select("span[class='t3']")
for span in spans:
    print(span)

2.4 获取class为t1的p标签下的所有a标签的href属性

from bs4 import BeautifulSoup
html = "前程无忧"
soup = BeautifulSoup(html,'lxml')
aList = soup.select("p.t1 a")
for a in aList:
    href = a['href']
    print(href)

2.5 获取所有的职位信息(文本)

from bs4 import BeautifulSoup
html = "前程无忧"
soup = BeautifulSoup(html,'lxml')

divs = soup.select('div')
infoSet = list()
for div in divs:
    info = {}
    infos = list(div.stripped_strings) # div.stripped_strings返回的是一个生成器
    info['job'] = infos[0]
    info['company'] = infos[1]
    info['address'] = infos[2]
    info['salary'] = infos[3]
    info['ReleaseDate'] = infos[4]
    infoSet.append(info)
print(infoSet)

内容总结

以上是互联网集市为您收集整理的【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素全部内容，希望文章能够帮你解决【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/636139.html

来源：【匿名】

【上一篇】【Python3 爬虫】U11_BeautifulSoup4库提取数据详解【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素】教程文章相关的互联网学习教程文章

【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素【代码】

目录1.常用CSS选择器介绍1.1 标签选择器1.2 类名选择器1.3 id选择器1.4 查找子孙元素1.5 查找直接子元素1.6 根据属性查找2.实战演练：select和css选择器提取元素2.1 获取所有的p标签2.2 获取第2个p标签2.3 获取所有class等于t3的span标签2.4 获取class为t1的p标签下的所有a标签的href属性2.5 获取所有的职位信息(文本) 1.常用CSS选择器介绍以下是一个包含常用类选择器的案例，在案例后有具体的选择器使用介绍 <!DOCTYPE html> <ht...

python3爬虫(7)--使用pyquery的CSS选择器（Selectors）解析数据

在利用python进行就网页数据采集时，为们往往通过urllib或requests发送请求，返回的数据结构是json格式的，我们就使用json解析；其他格式的网页数据可以采用XPath(lxml)解析数据或者使用Beautiful Soup解析数据或者使用pyquery解析数据等很多方法。其中，pyquery同样是一个强大的网页解析工具，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便。目录 1、准备及初始化 2、使用pyquery的CSS选择器（Selecto...

初识python 之爬虫：BeautifulSoup 的 find、find_all、select 方法【代码】

from bs4 import BeautifulSoup lxml 以lxml形式解析html，例：BeautifulSoup(html,lxml) # 注：html5lib 容错率最高find 返回找到的第一个标签find_all 以list的形式返回找到的所有标签limit 指定返回的标签个数attrs 将标签属性放到一个字典中string 获取标签下的非标签字符串(值), 返回字符串strings 获取标签下的所有非标签字符串，返回生成器。stripped_strings 获取标签下的所有非标签字符串，并剔除空白字符，返回生成器。...

转python爬虫：BeautifulSoup 使用select方法详解

我们在写 CSS 时，标签名不加任何修饰，类名前加点，id名前加 #，在这里我们也可以利用类似的方法来筛选元素，用到的方法是 soup.select()，返回类型是 list （1）通过标签名查找 print soup.select(title) [The Dormouse's story] print soup.select(a) [, Lacie, Tillie] print soup.select(b) [The Dormouses story] （2）通过类名查找 print soup.select(.sister) [, Lacie, Tillie] （3）通过 id 名查找 print soup.select(#l...

PYTHON3 - 相关标签

python3安装

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / 【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素

【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素

内容导读

内容图文

1.常用CSS选择器介绍

1.1 标签选择器

1.2 类名选择器

1.3 id选择器

1.4 查找子孙元素

1.5 查找直接子元素

1.6 根据属性查找

2.实战演练：select和css选择器提取元素

2.1 获取所有的p标签

2.2 获取第2个p标签

2.3 获取所有class等于t3的span标签

2.4 获取class为t1的p标签下的所有a标签的href属性

2.5 获取所有的职位信息(文本)

内容总结

内容备注

内容手机端

【【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素】教程文章相关的互联网学习教程文章

【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素【代码】

python3爬虫(7)--使用pyquery的CSS选择器（Selectors）解析数据

初识python 之爬虫：BeautifulSoup 的 find、find_all、select 方法【代码】

转python爬虫：BeautifulSoup 使用select方法详解

PYTHON3 - 相关标签

SELECT - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

首页 / 爬虫 / 【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素

【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素

内容导读

内容图文

1.常用CSS选择器介绍

1.1 标签选择器

1.2 类名选择器

1.3 id选择器

1.4 查找子孙元素

1.5 查找直接子元素

1.6 根据属性查找

2.实战演练：select和css选择器提取元素

2.1 获取所有的p标签

2.2 获取第2个p标签

2.3 获取所有class等于t3的span标签

2.4 获取class为t1的p标签下的所有a标签的href属性

2.5 获取所有的职位信息(文本)

内容总结

内容备注

内容手机端

【【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素】教程文章相关的互联网学习教程文章

【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素【代码】

python3爬虫(7)--使用pyquery的CSS选择器（Selectors）解析数据

初识python 之 爬虫：BeautifulSoup 的 find、find_all、select 方法【代码】

转python爬虫：BeautifulSoup 使用select方法详解

PYTHON3 - 相关标签

SELECT - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程

初识python 之爬虫：BeautifulSoup 的 find、find_all、select 方法【代码】