首页 / PYTHON / python – 应用/ vectorize /加速列式清理功能到pandas dataframe

python – 应用/ vectorize /加速列式清理功能到pandas dataframe

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 应用/ vectorize /加速列式清理功能到pandas dataframe，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3036字，纯文字阅读大概需要5分钟。

内容图文

python – 应用/ vectorize /加速列式清理功能到pandas dataframe

我有一些数据管道代码,它根据名称将转换/清理逻辑应用于Pandas数据帧的列.

现在我正在使用df.iteritems()迭代列,根据this guide优化Pandas应用函数优于粗循环但是“运行大多数标准函数的效率最低的方法”.

我想通过利用Pandas对这些操作进行矢量化的能力或其他一些并行方法来提高此代码的性能.

我见过的所有工作示例都说明了如何按行进行此操作(例如,在一个系列上进行计算而不是在一行上进行计算)但我无法找到如何执行此列的良好示例 – 明智的.

这是一个使用来自scikit learn的Boston数据集的可重现/玩具示例.期望的结果是以矢量化/并行方式实现清理逻辑(不使用.iteritems()或循环).谢谢！

from typing import Callable

# sample df from sklearn
from sklearn import datasets
boston = datasets.load_boston()
boston = pd.DataFrame(boston.data, columns=boston.feature_names)
boston.head()

def double_it(col: pd.Series) -> pd.Series:
    return col.multiply(2)

def make_string(col: pd.Series) -> pd.Series:
    return col.astype(str)

def do_nothing(col: pd.Series) -> pd.Series:
    return col

def match_cleaner(col_name: str) -> Callable:
    if col_name in ['ZN', 'NOX', 'INDUS', 'AGE']:
        return double_it
    elif col_name in ['TAX', 'DIS', 'CHAS', 'PTRATIO']:
        return make_string
    else:
        print(col_name)
        return do_nothing

for key, value in boston.iteritems():
    cleaning_func = match_cleaner(key)
    boston.loc[:, key] = cleaning_func(value)

# confirm changes
boston.head()
print(boston.dtypes)

解决方法:

您可以使用pandas.DataFrame.apply.默认情况下,apply方法将在数据框的所有列中应用提供的函数.但是你需要修改一下match_cleaner函数.

def match_cleaner2(col):
     col_name = col.name
     if col_name in ['ZN', 'NOX', 'INDUS', 'AGE']:
         return double_it(col)
     elif col_name in ['TAX', 'DIS', 'CHAS', 'PTRATIO']:
         return make_string(col)
     else:
         return do_nothing(col)

b2 = boston.apply(match_cleaner2)
b2.head()
      CRIM             ZN          INDUS  ...   PTRATIO       B  LSTAT
0  0.00632  3.932955e+246  5.047292e+245  ...      15.3  396.90   4.98
1  0.02731   0.000000e+00  1.544777e+246  ...      17.8  396.90   9.14
2  0.02729   0.000000e+00  1.544777e+246  ...      17.8  392.83   4.03
3  0.03237   0.000000e+00  4.763245e+245  ...      18.7  394.63   2.94
4  0.06905   0.000000e+00  4.763245e+245  ...      18.7  396.90   5.33

%timeit boston.apply(match_cleaner2)
3.68 ms ± 68.3 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)

def original():
     for k, v in boston.iteritems():
         clean_f = match_cleaner(k)
         boston.loc[:, k] = clean_f(v)

original()
boston.head()
      CRIM             ZN          INDUS  ...   PTRATIO       B  LSTAT
0  0.00632  3.932955e+246  5.047292e+245  ...      15.3  396.90   4.98
1  0.02731   0.000000e+00  1.544777e+246  ...      17.8  396.90   9.14
2  0.02729   0.000000e+00  1.544777e+246  ...      17.8  392.83   4.03
3  0.03237   0.000000e+00  4.763245e+245  ...      18.7  394.63   2.94
4  0.06905   0.000000e+00  4.763245e+245  ...      18.7  396.90   5.33


pd.testing.assert_frame_equal(b2, boston) # boston was modified in place

# No AssertionError means frames are equal

%timeit original()
6.14 ms ± 278 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)

因此,从一个非常粗略的实验中,应用函数看起来可以加快这个速度达到约40％.

内容总结

以上是互联网集市为您收集整理的python – 应用/ vectorize /加速列式清理功能到pandas dataframe全部内容，希望文章能够帮你解决python – 应用/ vectorize /加速列式清理功能到pandas dataframe所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/781678.html

来源：【匿名】

【上一篇】如何通过Selenium WebDriver和Python找到用户名和密码元素【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 应用/ vectorize /加速列式清理功能到pandas dataframe】教程文章相关的互联网学习教程文章

<Python>判断变量是否是DataFrame 或者 Series【代码】

https://stackoverflow.com/questions/14808945/check-if-variable-is-dataframe Use the built-in isinstance() function.1import pandas as pd 23def f(var): 4if isinstance(var, pd.DataFrame): 5print"do stuff" 判断变量是否是DataFrame 或者 Series' ref='nofollow'>判断变量是否是DataFrame 或者 Series原文：https://www.cnblogs.com/focus-z/p/10134539.html

Python 学习第十三篇：数据的读写-文件、DataFrame、json和pymssql【代码】

Python的文件是一个重要的对象，使用open()函数来打开文件，创建文件对象，进行文件的读写操作。当数据用于交换信息时，通常需要把数据保存为有格式的文本数据，可以保存为有特定的行分隔符和列分隔符的数据，这可以使用pandas模块中的函数来读写；也可以保存为json结构的数据，这可以使用json模块中的函数来实现；对于大型的数据交互，通常使用数据库。一，Python的open函数open()函数用于打开文件，创建文件对象：open(name, mod...

python数据分析之pandas库的DataFrame应用【代码】【图】

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔型）。DateFrame既有行索引也有列索引，可以被看作为由Series组成的字典。构建DataFrame：1.1、直接传入一个由等长列表或numpy数组组成的字典‘‘‘ Created on 2016-8-10 @author: xuzhengzhu ‘‘‘from pandas import *data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,20...

python 修改dataframe的列名【代码】

1. 修改全部列名 df.columnsbase_data_model.columns = [u‘有效率‘,u‘提交率‘,u‘参与度‘,u‘回放占比‘,u‘主好评率‘,u‘辅好评率‘,u‘是否付费‘] 2. 修改指定列名 df.renamedf.rename(columns={‘a‘:‘A‘}) #把原来的 a 命名为 A 原文：https://www.cnblogs.com/skyEva/p/9672777.html

python—dataframe用法【代码】

#行处理#df.iloc[1] 行索引号——获取行#df.iloc[0,1] 行列索引号——获取一个元素#df.iloc[[0,1]] 双括号默认都是行索引号——获取n行#df.iloc[0:2,1:3] 行列索引号——获取区域元素#df.loc["A"] 行名称——获取行#df.loc["A","c1"] 行列名称——获取一个元素#df.loc[["A","B"]] 双括号默认都是行名称号——获取n行#df.loc["A":"B","c1":"c2"] 行列名称——获取区域元素#列处理#df["c2"] 列名称——获取列#df[[...

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。3、pandas的主要功能　　--具备对其功能的数据结构DataFrame、Series 　　--集成时间序列功能　　--提供丰富的数学运算和操作　　--灵活处理缺失数据4、安装方法：pip install pandas5、引用方法：import pandas as pd二、Series Series是一种类似于一位数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。创建方式：...

Python中从SQL型数据库读写dataframe型数据【代码】

Python的pandas包对表格化的数据处理能力很强，而SQL数据库的数据就是以表格的形式储存，因此经常将sql数据库里的数据直接读取为dataframe，分析操作以后再将dataframe存到sql数据库中。而pandas中的read_sql和to_sql函数就可以很方便得从sql数据库中读写数据。read_sql参见pandas.read_sql的文档，read_sql主要有如下几个参数：sql:SQL命令字符串con：连接sql数据库的engine，一般可以用SQLalchemy或者pymysql之类的包建立index_c...

Python介绍嵌套 JSON 秒变 Dataframe！【代码】【图】

Python教程栏目介绍如何嵌套JSON推荐（免费）：Python教程调用API和文档数据库会返回嵌套的JSON对象，当我们使用Python尝试将嵌套结构中的键转换为列时，数据加载到pandas中往往会得到如下结果：df = pd.DataFrame.from_records（results [“ issues”]，columns = [“ key”，“ fields”]）说明：这里results是一个大的字典，issues是results其中的一个键，issues的值为一个嵌套JSON对象字典的列表，后面会看到JSON嵌套结构。问题...

pandas技巧之详解DataFrame中的apply与applymap方法【图】

相关学习推荐：python视频教程今天是pandas数据处理专题的第5篇文章，我们来聊聊pandas的一些高级运算。在上一篇文章当中，我们介绍了panads的一些计算方法，比如两个dataframe的四则运算，以及dataframe填充Null的方法。今天这篇文章我们来聊聊dataframe中的广播机制，以及apply函数的使用方法。 dataframe广播广播机制我们其实并不陌生，我们在之前介绍numpy的专题文章当中曾经介绍过广播。当我们对两个尺寸不一致的数组进行运...

pandas技巧之 DataFrame中的排序与汇总方法【图】

相关学习推荐：python教程今天是pandas数据处理专题的第六篇文章，我们来聊聊DataFrame的排序与汇总运算。在上一篇文章当中我们主要介绍了DataFrame当中的apply方法，如何在一个DataFrame对每一行或者是每一列进行广播运算，使得我们可以在很短的时间内处理整份数据。今天我们来聊聊如何对一个DataFrame根据我们的需要进行排序以及一些汇总运算的使用方法。排序排序是我们一个非常基本的需求，在pandas当中将这个需求进一步细分，...

pandas妙招之在DataFrame中通过索引高效获取数据【代码】【图】

相关学习推荐：python教程今天是pandas数据处理专题的第三篇文章，我们一起来聊聊DataFrame中的索引。上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法，比如iloc、loc以及逻辑索引等等。今天的文章我们来看看DataFrame的一些基本运算。数据对齐我们可以计算两个DataFrame的加和，pandas会自动将这两个DataFrame进行数据对齐，如果对不上的数据会被置为Nan（not a number）。首先我们来创建两个DataFrame：...

pandas妙招之 DataFrame基础运算以及空值填充【代码】【图】

相关学习推荐：python教程今天是pandas数据处理专题的第四篇文章，我们一起来聊聊DataFrame中的索引。上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法，比如iloc、loc以及逻辑索引等等。今天的文章我们来看看DataFrame的一些基本运算。数据对齐我们可以计算两个DataFrame的加和，pandas会自动将这两个DataFrame进行数据对齐，如果对不上的数据会被置为Nan（not a number）。首先我们来创建两个DataFrame：...

使用pandas进行数据处理之 DataFrame篇【图】

相关学习推荐：python教程这是pandas数据处理专题的第二篇文章，我们一起来聊聊pandas当中最重要的数据结构——DataFrame。上一篇文章当中我们介绍了Series的用法，也提到了Series相当于一个一维的数组，只是pandas为我们封装了许多方便好用的api。而DataFrame可以简单了理解成Series构成的dict，这样就将数据拼接成了二维的表格。并且为我们提供了许多表级别数据处理以及批量数据处理的接口，大大降低了数据处理的难度。创建DataF...

pandas.DataFrame中pivot()如何实现行转列的问题（代码）【图】

本篇文章给大家带来的内容是关于pandas.DataFrame中pivot()如何实现行转列的问题（代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。示例：有如下表需要进行行转列：代码如下：# -*- coding:utf-8 -*- import pandas as pd import MySQLdb from warnings import filterwarnings # 由于create table if not exists总会抛出warning，因此使用filterwarnings消除 filterwarnings(ignore, category = MySQLdb.W...

python读取文本中数据并转化为DataFrame的实例_python【图】

这篇文章给大家分享的是python读取文本中数据并转化为DataFrame的实例，具有一定的参考价值，希望可以帮助到有需要的人在技术问答中看到一个这样的问题，感觉相对比较常见，就单开一篇文章写下来。从纯文本格式文件 “file_in”中读取数据，格式如下：需要输出成“file_out”，格式如下：数据的原格式是“类别：内容”，以空行“\n”为分条目，转换后变成一个条目一行，按照类别顺序依次写出内容。建议读取后，使用pandas，把数据建...

首页 / PYTHON / python – 应用/ vectorize /加速列式清理功能到pandas dataframe

python – 应用/ vectorize /加速列式清理功能到pandas dataframe

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 应用/ vectorize /加速列式清理功能到pandas dataframe】教程文章相关的互联网学习教程文章

<Python>判断变量是否是DataFrame 或者 Series【代码】

Python 学习第十三篇：数据的读写-文件、DataFrame、json和pymssql【代码】

python数据分析之pandas库的DataFrame应用【代码】【图】

python 修改dataframe的列名【代码】

python—dataframe用法【代码】

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

Python中从SQL型数据库读写dataframe型数据【代码】

Python介绍嵌套 JSON 秒变 Dataframe！【代码】【图】

pandas技巧之详解DataFrame中的apply与applymap方法【图】

pandas技巧之 DataFrame中的排序与汇总方法【图】

pandas妙招之在DataFrame中通过索引高效获取数据【代码】【图】

pandas妙招之 DataFrame基础运算以及空值填充【代码】【图】

使用pandas进行数据处理之 DataFrame篇【图】

pandas.DataFrame中pivot()如何实现行转列的问题（代码）【图】

python读取文本中数据并转化为DataFrame的实例_python【图】

PYTHON - 相关标签

功能 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程