首页 / PYTHON / python bs4 BeautifulSoup

python bs4 BeautifulSoup

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python bs4 BeautifulSoup，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3358字，纯文字阅读大概需要5分钟。

内容图文

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。

安装

命令：pip install beautifulsoup4

解析器

主要的解析器,以及它们的优缺点如下：

安装命令：

pip install lxml
pip install html5lib

requests

requests的底层实现就是urllib, requests能够自动帮助我们解压(gzip压缩的等)网页内容
安装命令：pip install requests
推荐使用 response.content.deocde() 的方式获取响应的html页面

pandas

安装命令：pip install pandas
基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

数据结构：

Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近，其区别是：List中的元素可以是不同的数据类型，而Array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。
Time- Series：以时间为索引的Series。
DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
Panel ：三维的数组，可以理解为DataFrame的容器。

使用

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

Tag：Tag 对象与XML或HTML原生文档中的tag相同，tag中最重要的属性: name和attributes

从网页中获取指定标签、属性值，取值方式：

通过标签名获取：tag.name tag对应的type是<class 'bs4.element.Tag'>
通过属性获取：tag.attrs
获取标签属性：tag.get('属性名') 或 tag['属性名']

功能标签

stripped_strings：输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容
标准输出页面：soup.prettify()

查找元素：

find_all(class_="class") 返回的是多个标签
find(class_="class") 返回一个标签
select_one() 返回一个标签
select() 返回的是多个标签
soup = BeautifulSoup(backdata,'html.parser')　　#转换为BeautifulSoup形式属性
soup.find_all('标签名'，attrs{'属性名':'属性值'} ) #返回的是列表
limitk 控制 find_all 返回的数量
recursive=Flase 返回tag的直接子元素

demo

import sys
import io
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
from py_teldcore import sqlserver_db as db

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

url = "http://www.tianqihoubao.com/lishi/hefei/month/201812.html"


def get_soap():
    try:
        r = requests.get(url)
        soap = bs(r.text, "lxml")
        return soap
    except Exception as e:
        print(e)
        return "Request Error"


def save2cvs(data, path):
    result_weather = pd.DataFrame(data, columns=['date', 'tq', 'temp', 'wind'])
    result_weather.to_csv(path,  encoding='gbk')
    print('save weather sucess')


def save2mssql(data):
    sql = "Insert into Weather(date, tq, temp, wind) values(%s, %s, %s, %s)"
    data_list = np.ndarray.tolist(data)

    # sqlvalues = list()
    # for data in data_list:
    #     sqlvalues.append(tuple(data))

    sqlvalues = [tuple(iq) for iq in data_list]

    try:
        db.exec_sqlmany(sql, sqlvalues)
    except Exception as e:
        print(e)


def get_data():
    soap = get_soap()
    print(soap)
    all_weather = soap.find("div", class_="wdetail").find("table").find_all("tr")
    data = list()
    for tr in all_weather[1:]:
        td_li = tr.find_all("td")
        for td in td_li:
            s = td.get_text()
            data.append("".join(s.split()))

    res = np.array(data).reshape(-1, 4)
    return res


if __name__ == "__main__":
    data = get_data()
    save2mssql(data)
    print("save2 Sqlserver ok!")

参考资料

内容总结

以上是互联网集市为您收集整理的python bs4 BeautifulSoup全部内容，希望文章能够帮你解决python bs4 BeautifulSoup所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/733641.html

来源：【匿名】

首页 / PYTHON / python bs4 BeautifulSoup

python bs4 BeautifulSoup

内容导读

内容图文

内容总结

内容备注

内容手机端

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程