首页 / PYTHON / 【python网络数据采集】再来碗BeautifulSoup汤！

【python网络数据采集】再来碗BeautifulSoup汤！

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了【python网络数据采集】再来碗BeautifulSoup汤！，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1938字，纯文字阅读大概需要3分钟。

内容图文

上一篇我带你品尝了beautifulsoup，这次咱作为干饭人再来一碗BeautifulSoup汤！

首先抛出一个问题：当我们要采集一个网页上特定css样式的内容时，我们怎样操作呢？
首先我们要大致了解一下html的基础知识。
【python网络数据采集】再来碗BeautifulSoup汤！ - 文章图片
这是一张html structure的示意图，每个html页面均遵循此格式。
咱们可以看到一个页面中有许多tag（标签），我们以书中实例页面来看看：

书中要求抓取所有人名，仔细观察可以发现在这个页面中，人名都是被span tag标记的，用的green class渲染，这样我们的程序就可以判断这是不是要抓取的内容了。
okk，接下来咱开始下厨做汤！！！

#导入所需的函数
from urllib.request import urlopen
from bs4 import BeautifulSoup

#打开要抓取的页面链接
html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
bsobj = BeautifulSoup(html)

#调用findAll函数
#这句函数的意思是：找出所有tga（标签）为span，class为green的数据
nameList = bsobj.findAll("span", {"class":"green"})

for name in nameList:
    print(name.get_text())
    #将这些采集到的数据打印出来看看

【python网络数据采集】再来碗BeautifulSoup汤！ - 文章图片
至此，我们完成了对此页面的人物名称采集。但是不知道细心的你有没有喝出这汤不对啊？感觉少了点儿盐！
在原文中，Anna Pavlovna Scherer是同一个名字，而python似乎将它当成了两个名字处理？？？
【python网络数据采集】再来碗BeautifulSoup汤！ - 文章图片
实际上python并没有搞错，放盐这种业余厨师都会的技能作为大厨的python是不会搞错的！！！
咱们可以来看看python到底有没有忘记放盐：

喏，实际上python是记得加盐的，只是在html中Pavlovna Scherer被换行了（文本中看不出来）
【python网络数据采集】再来碗BeautifulSoup汤！ - 文章图片
所以如果把网页比做菜谱，python是个厨师，那么大厨python是严格按照菜谱将Pavlovna Scherer换行了。

题外话：
①在findAll函数中，获取到的数据是以列表的形式存储的，所以我们可以通过访问列表的方法访问具体的名称：
【python网络数据采集】再来碗BeautifulSoup汤！ - 文章图片
②通过上面的例子，你有没有好奇为什么透过列表的方式访问的nameList输出会带有span、class等字符串？？？
原因是在代码

for name in nameList:
    print(name.get_text())
    #将这些采集到的数据打印出来看看

中，get._text()函数已经将其他的干扰字符串剔除了，只将我们想要的内容保留并输出。
实际上我们还可以这样遍历nameList：

for _ in nameList:
	print(_.get_text())

也就是用下划线代替name

③此外，在新版beautifulsoup中，findAll更新为find_all，使用时需注意??

内容总结

以上是互联网集市为您收集整理的【python网络数据采集】再来碗BeautifulSoup汤！全部内容，希望文章能够帮你解决【python网络数据采集】再来碗BeautifulSoup汤！所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/604242.html

来源：【匿名】

【上一篇】python多线程threading 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【【python网络数据采集】再来碗BeautifulSoup汤！】教程文章相关的互联网学习教程文章

python练习之员工信息采集程序接口与判断【代码】

一、需求编写一个用于验证员工登录并采集员工信息的接口员工尝试登录次数为3次，超过三次被锁定员工输入个人信息并存档，可重复输入两次，若两次输入个人信息错误，则程序结束二、代码#!/usr/bin/env python #_*_coding:utf-8_*_ import sys from imaplib import Continuation username = ‘mangguo‘ password = ‘json‘ try_time = 0 while try_time < 3: username_input = raw_input(‘input your username:‘) if use...

【Python】完美采集某宝数据，到底A和B哪个是YYDS?（附完整源代码和视频教程）【代码】【图】

目录前言准备分析（x0）分析（x1）分析（x2）分析（x3）分析（x4）总结我有话说前言大家好，我叫善念。不说漂亮话，直接开始今天要采集的目标：某宝数据今天要采用的方式是selenium自动化工具。简单说下selenium的原理——利用网页元素控制浏览器。准备安装selenium模块： pip install selenium 我采用的是利用selenium控制Chrome浏览器，所以咱们需要下载一个selenium与Chrome的桥梁——Chromedriver插件下载地...

杂记使用Python采集网页内容【代码】

BeautifulSoup 一个分析、处理DOM树的类库。采集所有img标签的title属性的内容# -*- coding: utf-8 -*- from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoupurl = "http://qa.beloved999.com/category/view?id=2" url = "http://beloved.finley.com/category/view?id=24" html = urlopen(url) bs = BeautifulSoup(html.read(),"html.parser")...

Python网络数据采集

Python网络数据采集（高清版）PDF百度网盘链接：https://pan.baidu.com/s/16c4GjoAL_uKzdGPjG47S4Q提取码：febb复制这段内容后打开百度网盘手机App，操作更方便哦内容简介 · · · · · ·本书采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与...

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。小的时候心中总有十万个为什么类似的问题，今天带大家爬取一个问答类的网站，本堂课使用正则表达式对文本类的数据进行提取，正则表达式是数据提取的通用方法。适合人群：Python零基础、对爬虫数据采集感兴趣的同学！环境介绍：python 3.6pycharmrequestsrejson爬虫的一般思路1、确定爬取的url路径，heade...

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。 1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。 2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正则...

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

适合爬虫入门的书籍《Python网络数据采集》，采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。《Python网络数据采集》高清中文PDF，224页...

性能测试基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据【图】

基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据 by:授客 QQ：1033553122 实现功能测试环境环境搭建使用前提使用方法运行程序效果展示实现功能无需在被监控主机上安装代理，一键对Linux远程服务器不同主机执行性能监控、性能数据采集命令，并实时展示支持跨堡垒机收集实时性能数据(注：定制化开发，非通用) 支持docker容器(因为程序实现是从docker容器内部获取性能数据，所以目前仅支持 CPU,内存,I/O) 使...

java-PHP或者python进行数据采集和分析，有什么比较成熟的框架？

我现在需要对一个网站的文章列表和列表里面的实际内容进行自动化数据采集，列表里面能够取得每个文章的id，而每个文章又是通过一个统一的接口（参数带上那个文章id即可获取到对应的json）里面又有一部分数据需要采集然后进行数据分析。目前有什么比较成熟的框架或者轮子能够实现我的需求吗？（要多线程，而且可以7x24小时稳定运行，因为采集数量巨大）另外问一下，采集到的内容如何存储（百万到千万），数据里面有一些数字数据，...

PHP或者python进行数据采集和分析，有什么比较成熟的框架？

简单说下Python采集和其它语言采集的优势？

简单说下Python采集和其它语言采集的优势？除了方便以外，考虑到速度，性能，占CPU率以及批量循环采集等。最好也提供建议，应该要使用什么语言做采集要比Python好的多！回复内容：简单说下Python采集和其它语言采集的优势？除了方便以外，考虑到速度，性能，占CPU率以及批量循环采集等。最好也提供建议，应该要使用什么语言做采集要比Python好的多！虽然知道php不是和采集，但是还一直在用php，因为其他的不会。。。优势就是库...

[先睹为快]Python网络数据采集那些事儿_html/css_WEB-ITnose

写在前面的话接下来的这个月要忙着应付期末的各种事情了, 可能不太有时间写博客了. 看过我博客的, 对于我博客的”又长又臭”可能有所了解, 平均一篇都要花费我2.5天时间. 这次, 我先把之前做的笔记放出来, 美其名曰: 先睹为快, 算作以后的一个系列吧. 稍后应该可能也许大概会有修订版, 对笔记的内容作进一步的梳理总结. 笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸 ...

Python实时数据采集-新型冠状病毒【代码】【图】

Python实时数据采集-新型冠状病毒源代码来源：https://github.com/Programming-With-Love/2019-nCoV疫情数据时间为：2020.2.1项目相关截图：全国数据展示国内数据展示国外数据展示查看指定区域详细数据源代码，注意安装所需模块（例如 pip install 模块名）import requests import re from bs4 import BeautifulSoup from time import sleep import json from prettytable import ALL from prettytable import PrettyTablehubei =...

Python采集--数据的储存【图】

Python网络数据采集3-数据存到CSV以及MySql先热热身，下载某个页面的所有图片。import requestsfrom bs4 import BeautifulSoupheaders = {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193}start_url = https://www.pythonscraping.comr = requests.get(start_url, headers=headers) soup = BeautifulSoup(r.text, lxml)# 获取...

用python写的一个wordpress的采集程序【图】

在学习python的过程中，经过不断的尝试及努力，终于完成了第一个像样的python程序，虽然还有很多需要优化的地方，但是目前基本上实现了我所要求的功能，先贴一下程序代码：具体代码如下:#! /usr/bin/pythonimport os,urllib2,re,time,MySQLdb,sysreTitle = re.compile(<font[^>]*>(.*?)<\/font><font[^>]*)reNeiron = re.compile([1-9|A-Z|a-z].*)retiqu = re.compile(^(?!MARGINWIDTH|BR).*.[^>|}]$)re...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 【python网络数据采集】再来碗BeautifulSoup汤！

【python网络数据采集】再来碗BeautifulSoup汤！

内容导读

内容图文

内容总结

内容备注

内容手机端

【【python网络数据采集】再来碗BeautifulSoup汤！】教程文章相关的互联网学习教程文章

python练习之员工信息采集程序接口与判断【代码】

【Python】完美采集某宝数据，到底A和B哪个是YYDS?（附完整源代码和视频教程）【代码】【图】

杂记使用Python采集网页内容【代码】

Python网络数据采集

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

Python天气预报采集器实现代码(网页爬虫)

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

性能测试基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据【图】

java-PHP或者python进行数据采集和分析，有什么比较成熟的框架？

PHP或者python进行数据采集和分析，有什么比较成熟的框架？

简单说下Python采集和其它语言采集的优势？

[先睹为快]Python网络数据采集那些事儿_html/css_WEB-ITnose

Python实时数据采集-新型冠状病毒【代码】【图】

Python采集--数据的储存【图】

用python写的一个wordpress的采集程序【图】

PYTHON - 相关标签

网络 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程