首页 / PYTHON / 数据ETL-基于Python的数据预处理案例

数据ETL-基于Python的数据预处理案例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了数据ETL-基于Python的数据预处理案例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6001字，纯文字阅读大概需要9分钟。

内容图文

目的：

从数据收集，数据预处理，数据简单的汇总统计，以及后续的数据说明做一个简单的示例
本分析不涉及具体姓名的数据，做相应的匿名化处理，所有数据来源都是网络公开数据。通过对公开数据的收集，数据预处理，汇总，描述性统计等方式
熟悉相应的技术应用，一些分析的结论和更加关联的数据，有待后续的个人探索

步骤和方式：

0.了解数据限制：
 01.**纳税企业或注册地在**的民办非企业、社会团体等单位
 02.*** 标准： 博士每人每月2000元,硕士每人每月800元,学士和高级工每人每月600元(实际租金低于补贴标准的,按实际租金补贴),补贴期限累计不超过36个月。

1.下载数据，

可以下载到公开的公示信息：在公示的数据，注意数据完整性，数据有首批数据，第二批审核通过数据，季度补发数据等数据

2.数据预处理

1.数据格式处理
 01.正常的数据格式
  201*年的数据要处理成以下格式
  201*年数据-添加字段-年份，以便和其他的年份做为区别，
 发放区	姓名	单位名称	4月	5月	6月	补贴总金额
 02.补发的数据格式: 发放区	姓名	单位名称	补发总金额（元）
2.数据变换处理
  发放月份用的是对号，把对号替换成1，其没有对号的替换为0，以便汇总发放的月份
  同金额相相处理后，可以判断用户的学历信息(注意实际租金低于补贴的情况，可以查看总金额的类型有哪些)
    注意实际租金低于补贴的情况-以租金所在的区间为该用户所在的范围设置学历
 3.数据
   缺失数据处理
   重复数据处理-
   数据一致性处理-
    201*年数据： 201*机构设置发生重大调整 2020年:  
  数据规范化
   公司名称 --有的带有点号，有的不带
      *****事务所有限公司.

3.数据汇总处理

 201*年花销 **元 ，即**亿元  共计： **位补贴人员
    doctor  **   master ** undergraduate    ** 补贴比例： 1:*:**
其中人力资源服务的公司，这部分人员的有待归类
 各个地区的企业数，
 申请补贴的用户数，
 不同用户的申请金额等级，
 各个区的不同申请等级的用户数

4.数据解释说明

 各个地区的企业数，申请补贴的用户数，不同用户的申请金额等级，各个区的不同申请等级的用户数可以粗略的看到一些信息
 数据进行独立检查后，要做相互验证
独立优秀的数据提取和数据清洗能力，确保数据的统计口径，以及统计口径下的数据准确性

5.不足和后续展望

1.(在编制的情况不予考虑)，所以本数据只是反映
2.本地有房的不在名单之中，本地就业无房的数据部分的比例数据没有，所以这部分数据不全
3.不是所有的人都有申请，或者申请的都有审批，这部分用户数据不全，**的符合条件的毕业生，申请的毕业生的人数不全
4.有部分年月的数据缺失，有待补充
5.企业名称，可以结合所在的位置，行业类型做进一步的数据分析和展示，通过地图的形式，可以更好的直观了解目前的企业分布
5.注意： 真实数据和理论数据有所区别，以及一旦分析数据作为考核数据会对数据参与者造成相应的引导和影响，
所以，本数据只是数据分析的一个流程展示

代码附录

 #!/usr/bin/env python
 # -*-coding:utf-8-*-

import pandas as pd
import numpy as np

if __name__ == '__main__':
    # 数据结构示例
    """ pay_area,applicant_nm,applicant_company_nm,M1月,M2月,M3月,金额合计
    开发区,***,***有限公司,1,1,1,990
    **区,***,**有限公司,1,0,0,800"""

    """1.读取数据，构造数据名称和索引 """
    insert_file = r"F:\Database\Data_201*.txt"
    insert_df = pd.read_csv(insert_file, sep=',', header=None, skiprows=1, encoding='utf-8')
    insert_df.columns = ['pay_area', 'applicant_nm', 'applicant_company_nm',
                         'pay_m1_flag', 'pay_m2_flag', 'pay_m3_flag', 'pay_amt']
    """2.查看数据 """
    print(insert_df.head())
    print(insert_df.dtypes)
    print(insert_df.shape)

    """3.处理数据 """
    """3.处理数据_去重- SQL- distinct """
    insert_df = insert_df.drop_duplicates()
    """3.处理数据_增加列- SQL- distinct """
    # insert_df['mean_flag'] = insert_df['pay_amt']/(insert_df['pay_m2_flag']+insert_df['pay_m3_flag'])
    insert_df = insert_df.assign(mean_flag=insert_df['pay_amt']/(insert_df['pay_m1_flag'] + insert_df['pay_m2_flag']
                                                     + insert_df['pay_m3_flag']))

    """3.处理数据_条件处理- SQL- case when """
    # 默认左闭右闭区间-inclusive=True case when
    insert_df['educational'] = np.select([insert_df['mean_flag'].between(0, 600, inclusive=True),
                                          insert_df['mean_flag'].between(600, 800.01, inclusive=False),
                                          insert_df['mean_flag'].between(800.01, 2500, inclusive=True)],
                                        ['undergraduate', 'master', 'doctor'],
                                         default='Unknown')


    """3.处理数据_筛选- SQL- where """
    expt = insert_df[insert_df['educational'] == 'Unknown']

    """3.处理数据_分组  SQL- group """
    # group by count 在pandas中 分组操作groupby可以选择对行或者列进行拆分
    # DataFrameGroupBy
    # edu_sum = insert_df.groupby(['pay_area','educational']).count()
    edu_sum_DataFrameGroupBy = insert_df[insert_df['educational'] == 'undergraduate']\
        .groupby(['pay_area', 'educational'], axis=0, as_index=False, sort=True)['applicant_nm']
    # 查看分组的个数
    print('分组个数是: ', len(edu_sum_DataFrameGroupBy))
    # Only relevant for DataFrame input. as_index=False is effectively “SQL-style” grouped output
    edu_sum = edu_sum_DataFrameGroupBy.count()

    """3.处理数据_排序  SQL- order by  """
    # sort_index
    # sort_values()是按值排序的方法。它接受一个by参数，它将使用要与其排序值的DataFrame的列名称。
    edu_sum_df = edu_sum.sort_values(by=['applicant_nm'], ascending=False)

    """3.处理数据 """
    comp_df = insert_df[['pay_area', 'applicant_company_nm']] \
        .groupby(['pay_area'], axis=0, as_index=False, sort=True)['applicant_company_nm'] \
        .count()

    comp_df = insert_df[['pay_area', 'applicant_company_nm']]\
        .drop_duplicates(subset=None, keep='first') \
        .groupby(['pay_area'], axis=0, as_index=False, sort=True)['applicant_company_nm'] \
        .count()

    calcu_df = insert_df[['pay_area', 'applicant_company_nm', 'educational']]
    # ['undergraduate', 'master', 'doctor']
    comp_df = calcu_df[calcu_df['educational'] == 'undergraduate'] \
        .groupby(['applicant_company_nm'], axis=0, as_index=False, sort=True)['pay_area'] \
        .count()
    # 企业人数分布
    comp_df = comp_df.sort_values(by=['pay_area'], ascending=False).reset_index(drop=True)
    print(comp_df.head(50))
    
    # 字符串的操作
    surname = pd.DataFrame(insert_df['applicant_nm'].str.strip().str[0])
    # 索引 ——> 列,便于分组统计频次使用 增加列的另外一种方式
    surname['index_df'] = surname.index
    surname_rs = surname.groupby(['applicant_nm'], axis=0, as_index=False)['index_df'] \
        .count()\
        .sort_values(by=['index_df'], ascending=False).reset_index(drop=True)
    print(surname_rs.head(30))
    print(len(surname_rs))

    """4.数据输出 """
    mid_out_path = r"F:\Database\edu_sum_df.txt"
    comp_df.to_csv(mid_out_path, sep='\t',  index=False, encoding='utf-8')

参考：

政府信息公开制度_人力资源和社会保障局
Pandas-Pandas中的Case when和default https://www.cnpython.com/qa/68227
pandas documentation https://pandas.pydata.org/pandas-docs/stable/reference/index.html

内容总结

以上是互联网集市为您收集整理的数据ETL-基于Python的数据预处理案例全部内容，希望文章能够帮你解决数据ETL-基于Python的数据预处理案例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/624304.html

来源：【匿名】

【上一篇】python国内镜像源【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【数据ETL-基于Python的数据预处理案例】教程文章相关的互联网学习教程文章

[Python数据挖掘]第4章、数据预处理【代码】【图】

数据预处理主要包括数据清洗、数据集成、数据变换和数据规约，处理过程如图所示。一、数据清洗 1.缺失值处理：删除、插补、不处理 ## 拉格朗日插值代码（使用缺失值前后各5个未缺失的数据建模）import pandas as pd #导入数据分析库Pandasfrom scipy.interpolate import lagrange #导入拉格朗日插值函数 inputfile = ‘../data/catering_sale.xls‘#销量数据路径 outputfile = ‘../tmp/sales.xls‘#输出数据路径...

吴裕雄 python 机器学习——数据预处理字典学习模型【代码】【图】

from sklearn.decomposition import DictionaryLearning#数据预处理字典学习DictionaryLearning模型def test_DictionaryLearning():X=[[1,2,3,4,5],[6,7,8,9,10],[10,9,8,7,6,],[5,4,3,2,1]]print("before transform:",X)dct=DictionaryLearning(n_components=3)dct.fit(X)print("components is :",dct.components_)print("after transform:",dct.transform(X))# 调用 test_DictionaryLearning test_DictionaryLearning() from skl...

吴裕雄 python 机器学习——数据预处理标准化StandardScaler模型【代码】【图】

from sklearn.preprocessing import StandardScaler#数据预处理标准化StandardScaler模型def test_StandardScaler():X=[[1,5,1,2,10],[2,6,3,2,7],[3,7,5,6,4,],[4,8,7,8,1]]print("before transform:",X)scaler=StandardScaler()scaler.fit(X)print("scale_ is :",scaler.scale_)print("mean_ is :",scaler.mean_)print("var_ is :",scaler.var_)print("after transform:",scaler.transform(X))# 调用 test_StandardScaler test_S...

python 对入参文本进行预处理成以一个空格为间隔的一维数组

#!/usr/bin/python import re def pre_process_msg ( msgIn ): if msgIn=="": return "msgIn_Input_Error,should‘nt Null, it is Strings" else: #1 trim msg = msgIn msg = msg.strip() #2 process msg internal special char replace with “ ” dst_replace_pattern1 = re.compile(‘\n‘) msg = dst_replace_pattern1.sub(" ",msg) dst_repl...

吴裕雄--天生自然 pythonTensorFlow图形数据处理：图像预处理完整样例【代码】【图】

import numpy as np import tensorflow as tf import matplotlib.pyplot as plt#随机调整图片的色彩，定义两种顺序。def distort_color(image, color_ordering=0):if color_ordering == 0:image = tf.image.random_brightness(image, max_delta=32./255.)image = tf.image.random_saturation(image, lower=0.5, upper=1.5)image = tf.image.random_hue(image, max_delta=0.2)image = tf.image.random_contrast(image, lower=0.5, u...

吴裕雄 python 机器学习——数据预处理正则化Normalizer模型【代码】【图】

from sklearn.preprocessing import Normalizer#数据预处理正则化Normalizer模型def test_Normalizer():X=[[1,2,3,4,5],[5,4,3,2,1],[1,3,5,2,4,],[2,4,1,3,5]]print("before transform:",X)normalizer=Normalizer(norm=‘l2‘)print("after transform:",normalizer.transform(X))# 调用 test_Normalizer test_Normalizer() 原文：https://www.cnblogs.com/tszr/p/10801982.html

Python机器学习（七十四）Keras 预处理数据【代码】

首先需要调整数据集的形状，让其包含图像的位深信息。打印原始数据集的形状：>>> print (X_train.shape) (60000, 28, 28)可以看到并没有包含图像的位深信息。MNIST是灰度图像，位深为1，我们将数据集从形状(n，宽度，高度)转换为(n，位深，宽度，高度)。if K.image_data_format() == ‘channels_first‘:X_train = X_train.reshape(X_train.shape[0], 1, 28, 28)X_test = X_test.reshape(X_test.shape[0], 1, 28, 28)input_shape =...

吴裕雄 python 神经网络——TensorFlow 图像预处理完整样例【代码】【图】

import numpy as np import tensorflow as tf import matplotlib.pyplot as pltdef distort_color(image, color_ordering=0):if color_ordering == 0:image = tf.image.random_brightness(image, max_delta=32./255.)image = tf.image.random_saturation(image, lower=0.5, upper=1.5)image = tf.image.random_hue(image, max_delta=0.2)image = tf.image.random_contrast(image, lower=0.5, upper=1.5)else:image = tf.image.rand...

吴裕雄--天生自然 pythonTensorFlow图形数据处理：图像预处理完整样例【代码】【图】

import numpy as np import tensorflow as tf import matplotlib.pyplot as plt#随机调整图片的色彩，定义两种顺序。 def distort_color(image, color_ordering=0):if color_ordering == 0:image = tf.image.random_brightness(image, max_delta=32./255.)image = tf.image.random_saturation(image, lower=0.5, upper=1.5)image = tf.image.random_hue(image, max_delta=0.2)image = tf.image.random_contrast(image, lower=0.5, ...

python中预处理以及热图的简单介绍【图】

本篇文章给大家带来的内容是关于python中预处理以及热图的简单介绍，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。在数据分析当中的东西还是很多的，我在这里只是启发式的介绍一下，了解到这方面的东西之后，使用的时候可以更快的找到解决办法，希望能对大家有所帮助。这次，依然是使用的sklearn中的iris数据集，对其进行通过热图来展示。预处理sklearn.preprocessing是机器学习库中预处理的模块，可以对数据进...

Python中数据预处理（代码）

本篇文章给大家带来的内容是关于Python中数据预处理（代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。1、导入标准库import numpy as np import matplotlib.pyplot as plt import pandas as pd2、导入数据集dataset = pd.read_csv(data (1).csv) # read_csv：读取csv文件 #创建一个包含所有自变量的矩阵，及因变量的向量 #iloc表示选取数据集的某行某列；逗号之前的表示行，之后的表示列；冒号表示选取全...

【机器学习】数据预处理之将类别数据转换为数值

在进行python数据分析的时候，首先要进行数据预处理。有时候不得不处理一些非数值类别的数据，嗯，今天要说的就是面对这些数据该如何处理。目前了解到的大概有三种方法： 1，通过LabelEncoder来进行快速的转换； 2，通过mapping方式，将类别映射为数值。不过这种方法适用范围有限； 3，通过get_dummies方法来转换。1 import pandas as pd2 from io import StringIO3 4 csv_data = A,B,C,D5 1,2,3,46 5,6,,87 0,11,12,8 9 df = p...

opencv-python（PIL）图像处理之训练模型前的几种图预处理【代码】

# 滤波import cv2 image=cv2.imread("")image_new=cv2.medianBlur(image,3)from PIL import Imagefrom PIL import ImageEnhance image = Image.open(.jpg)#亮度增强enb_b = ImageEnhance . Brightness (image)brightness = 1.3image_bri= enb_b. enhance (brightness )image_bri. show ()# 色度增强enh_col = ImageEnhance.Color (image)color=1.5image_col = enh_col . enhance (color)image_col.show()#对比度增强enh_con = Imag...

python数据分析中使用pandas进行预处理的转换数据【代码】【图】

转换数据（1）哑变量处理类别型数据（2）使用等宽法、等频法和聚类分析方法离散化连续型数据 1.哑变量处理类别型数据 import pandas as pd import numpy as np detail=pd.read_csv('../数据分析/detail.csv',encoding='gbk') data=detail.loc[0:5,'dishes_name'] print('哑变量处理之前：\n',data) print('哑变量处理之后：\n',pd.get_dummies(data))2.离散化连续型数据 ① 等宽法离散化 price=pd.cut(detail['amounts'],5)...

Python 文本数据预处理实践【代码】【图】

https://mp.weixin.qq.com/s/BwWmYTXyk8iN1miqPzHVFg 在进行数据分析与可视化之前，得先处理好数据，而很多时候需要处理的都是文本数据，本文总结了一些文本预处理的方法。将文本中出现的字母转化为小写input_str = """ There are some people who think love is sex And marriage And six oclock-kisses And children, And perhaps it is, Miss Lester. But do you know what I think? I think love is a touch and yet not a t...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 数据ETL-基于Python的数据预处理案例

数据ETL-基于Python的数据预处理案例

内容导读

内容图文

目的：

步骤和方式：

1.下载数据，

2.数据预处理

3.数据汇总处理

4.数据解释说明

5.不足和后续展望

代码附录

参考：

内容总结

内容备注

内容手机端

【数据ETL-基于Python的数据预处理案例】教程文章相关的互联网学习教程文章

[Python数据挖掘]第4章、数据预处理【代码】【图】

吴裕雄 python 机器学习——数据预处理字典学习模型【代码】【图】

吴裕雄 python 机器学习——数据预处理标准化StandardScaler模型【代码】【图】

python 对入参文本进行预处理成以一个空格为间隔的一维数组

吴裕雄--天生自然 pythonTensorFlow图形数据处理：图像预处理完整样例【代码】【图】

吴裕雄 python 机器学习——数据预处理正则化Normalizer模型【代码】【图】

Python机器学习（七十四）Keras 预处理数据【代码】

吴裕雄 python 神经网络——TensorFlow 图像预处理完整样例【代码】【图】

吴裕雄--天生自然 pythonTensorFlow图形数据处理：图像预处理完整样例【代码】【图】

python中预处理以及热图的简单介绍【图】

Python中数据预处理（代码）

【机器学习】数据预处理之将类别数据转换为数值

opencv-python（PIL）图像处理之训练模型前的几种图预处理【代码】

python数据分析中使用pandas进行预处理的转换数据【代码】【图】

Python 文本数据预处理实践【代码】【图】

PYTHON - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程