首页 / PYTHON / python – Pandas的性能与np.vectorize相对应,可以从现有列创建新列

python – Pandas的性能与np.vectorize相对应,可以从现有列创建新列

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – Pandas的性能与np.vectorize相对应,可以从现有列创建新列，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6175字，纯文字阅读大概需要9分钟。

内容图文

python – Pandas的性能与np.vectorize相对应,可以从现有列创建新列

我正在使用Pandas数据帧,并希望创建一个新列作为现有列的函数.我没有看到df.apply()和np.vectorize()之间的速度差异的很好的讨论,所以我想我会在这里问.

Pandas apply()函数很慢.根据我的测量结果(在下面的一些实验中显示),使用np.vectorize()比使用DataFrame函数apply()快25倍(或更多),至少在我的2016 MacBook Pro上使用.这是预期的结果,为什么？

例如,假设我有以下具有N行的数据帧：

N = 10
A_list = np.random.randint(1, 100, N)
B_list = np.random.randint(1, 100, N)
df = pd.DataFrame({'A': A_list, 'B': B_list})
df.head()
#     A   B
# 0  78  50
# 1  23  91
# 2  55  62
# 3  82  64
# 4  99  80

进一步假设我想创建一个新列作为两列A和B的函数.在下面的例子中,我将使用一个简单的函数divide().要应用该函数,我可以使用df.apply()或np.vectorize()：

def divide(a, b):
    if b == 0:
        return 0.0
    return float(a)/b

df['result'] = df.apply(lambda row: divide(row['A'], row['B']), axis=1)

df['result2'] = np.vectorize(divide)(df['A'], df['B'])

df.head()
#     A   B    result   result2
# 0  78  50  1.560000  1.560000
# 1  23  91  0.252747  0.252747
# 2  55  62  0.887097  0.887097
# 3  82  64  1.281250  1.281250
# 4  99  80  1.237500  1.237500

如果我将N增加到像100万或更多的实际大小,那么我发现np.vectorize()比df.apply()快25倍或更多.

以下是一些完整的基准测试代码：

import pandas as pd
import numpy as np
import time

def divide(a, b):
    if b == 0:
        return 0.0
    return float(a)/b

for N in [1000, 10000, 100000, 1000000, 10000000]:    

    print ''
    A_list = np.random.randint(1, 100, N)
    B_list = np.random.randint(1, 100, N)
    df = pd.DataFrame({'A': A_list, 'B': B_list})

    start_epoch_sec = int(time.time())
    df['result'] = df.apply(lambda row: divide(row['A'], row['B']), axis=1)
    end_epoch_sec = int(time.time())
    result_apply = end_epoch_sec - start_epoch_sec

    start_epoch_sec = int(time.time())
    df['result2'] = np.vectorize(divide)(df['A'], df['B'])
    end_epoch_sec = int(time.time())
    result_vectorize = end_epoch_sec - start_epoch_sec


    print 'N=%d, df.apply: %d sec, np.vectorize: %d sec' % \
            (N, result_apply, result_vectorize)

    # Make sure results from df.apply and np.vectorize match.
    assert(df['result'].equals(df['result2']))

结果如下所示：

N=1000, df.apply: 0 sec, np.vectorize: 0 sec

N=10000, df.apply: 1 sec, np.vectorize: 0 sec

N=100000, df.apply: 2 sec, np.vectorize: 0 sec

N=1000000, df.apply: 24 sec, np.vectorize: 1 sec

N=10000000, df.apply: 262 sec, np.vectorize: 4 sec

如果np.vectorize()通常总是比df.apply()快,那么为什么np.vectorize()没有提到更多？我只看到与df.apply()相关的StackOverflow帖子,例如：

pandas create new column based on values from other columns

How do I use Pandas ‘apply’ function to multiple columns?

How to apply a function to two columns of Pandas dataframe

解决方法:

我将首先说Pandas和NumPy数组的强大功能来源于数值数组上的高性能矢量化计算.1矢量化计算的整个要点是通过将计算移动到高度优化的C代码并使用连续的方法来避免Python级循环记忆块

Python级循环

现在我们可以看看一些时间.下面是所有Python级循环,它们生成pd.Series,np.ndarray或包含相同值的列表对象.为了在数据帧中分配系列,结果是可比较的.

# Python 3.6.5, NumPy 1.14.3, Pandas 0.23.0

np.random.seed(0)
N = 10**5

%timeit list(map(divide, df['A'], df['B']))                                   # 43.9 ms
%timeit np.vectorize(divide)(df['A'], df['B'])                                # 48.1 ms
%timeit [divide(a, b) for a, b in zip(df['A'], df['B'])]                      # 49.4 ms
%timeit [divide(a, b) for a, b in df[['A', 'B']].itertuples(index=False)]     # 112 ms
%timeit df.apply(lambda row: divide(*row), axis=1, raw=True)                  # 760 ms
%timeit df.apply(lambda row: divide(row['A'], row['B']), axis=1)              # 4.83 s
%timeit [divide(row['A'], row['B']) for _, row in df[['A', 'B']].iterrows()]  # 11.6 s

一些要点：

>基于元组的方法(前4个)是比基于pd.Series的方法(后3个)更有效的因素.
> np.vectorize,list comprehension zip和map方法,即前3个,都具有大致相同的性能.这是因为它们使用元组并绕过pd.DataFrame.itertuples中的一些Pandas开销.
>使用raw = True与pd.DataFrame.apply相比没有显着提高速度.此选项将NumPy数组提供给自定义函数而不是pd.Series对象.

pd.DataFrame.apply：只是另一个循环

要准确查看Pandas传递的对象,您可以简单地修改您的功能：

def foo(row):
    print(type(row))
    assert False  # because you only need to see this once
df.apply(lambda row: foo(row), axis=1)

输出：< class'pandas.core.series.Series'>.创建,传递和查询Pandas系列对象相对于NumPy数组会带来很大的开销.这应该不足为奇：熊猫系列包含了相当数量的脚手架来保存索引,值,属性等.

使用raw = True再次执行相同的练习,您将看到< class'numpy.ndarray'>.所有这些都在文档中描述,但看到它更有说服力.

np.vectorize：假矢量化

np.vectorize的文档有以下注释：

The vectorized function evaluates pyfunc over successive tuples of
the input arrays like the python map function, except it uses the
broadcasting rules of numpy.

“广播规则”在这里是无关紧要的,因为输入数组具有相同的尺寸.与地图平行是有启发性的,因为上面的地图版本具有几乎相同的性能. source code显示正在发生的事情：np.vectorize通过np.frompyfunc将输入函数转换为Universal function(“ufunc”).有一些优化,例如缓存,这可以带来一些性能提升.

简而言之,np.vectorize执行Python级循环应该做的事情,但pd.DataFrame.apply增加了一个粗略的开销.你在numba看到的没有JIT编译(见下文).这是just a convenience.

真正的矢量化：你应该使用什么

为什么上述差异不在任何地方？因为真正矢量化计算的性能使它们无关紧要：

%timeit np.where(df['B'] == 0, 0, df['A'] / df['B'])       # 1.17 ms
%timeit (df['A'] / df['B']).replace([np.inf, -np.inf], 0)  # 1.96 ms

是的,这比上述循环解决方案中最快的速度快40倍.这些都是可以接受的.在我看来,第一个是简洁,可读和高效.只看其他方法,例如下面的numba,如果性能至关重要,这是你瓶颈的一部分.

numba.njit：效率更高

当循环被认为是可行的时,它们通常通过具有底层NumPy阵列的numba进行优化,以尽可能多地移动到C.

实际上,numba将性能提高到微秒.没有一些繁琐的工作,就很难比这更有效率.

from numba import njit

@njit
def divide(a, b):
    res = np.empty(a.shape)
    for i in range(len(a)):
        if b[i] != 0:
            res[i] = a[i] / b[i]
        else:
            res[i] = 0
    return res

%timeit divide(df['A'].values, df['B'].values)  # 717 μs

使用@njit(parallel = True)可以为更大的数组提供进一步的提升.

1数字类型包括：int,float,datetime,bool,category.它们排除了对象dtype,并且可以保存在连续的内存块中.

2
与Python相比,NumPy操作的效率至少有两个原因：

> Python中的所有东西都是一个对象.与C不同,这包括数字.因此,Python类型具有本机C类型不存在的开销.
> NumPy方法通常是基于C的.此外,还有优化的算法
尽可能使用.

内容总结

以上是互联网集市为您收集整理的python – Pandas的性能与np.vectorize相对应,可以从现有列创建新列全部内容，希望文章能够帮你解决python – Pandas的性能与np.vectorize相对应,可以从现有列创建新列所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/709215.html

来源：【匿名】

【上一篇】python – 熊猫的写CSV – 追加与写【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – Pandas的性能与np.vectorize相对应,可以从现有列创建新列】教程文章相关的互联网学习教程文章

Python——pandas数据处理（python programming）【图】

原文：https://www.cnblogs.com/caiyishuai/p/10685128.html

用Python的pandas框架操作Excel文件中的数据教程【代码】

引言本文的目的，是向您展示如何使用pandas 来执行一些常见的Excel任务。有些例子比较琐碎，但我觉得展示这些简单的东西与那些你可以在其他地方找到的复杂功能同等重要。作为额外的福利，我将会进行一些模糊字符串匹配，以此来展示一些小花样，以及展示pandas是如何利用完整的Python模块系统去做一些在Python中是简单，但在Excel中却很复杂的事情的。有道理吧？让我们开始吧。为某行添加求和项我要介绍的第一项任务是把某几列相加...

Python pandas Date【代码】【图】

Pandas主要有4中与时间相关的类型。Timestamp, Period, DatetimeIndex,PeriodIndex.import pandas as pd import numpy as np # #Timestamp pd.Timestamp(‘9/1/2016 10:05AM‘) #output: Timestamp(‘2016-09-01 10:05:00‘) # #Period pd.Period(‘1/2016‘) #output: Period(‘2016-01‘, ‘M‘) pd.Period(‘3/5/2016‘) #output: Period(‘2016-03-05‘, ‘D‘) # #DatetimeIndex t1 = pd.Series(list(‘abc‘), [pd.Timestamp...

Python 2.7_pandas连接MySQL数据处理_20161229【代码】【图】

在我本地Mysql_local_db数据库建立了一个pandas数据表用来对pandas模块的学习1、创建表CREATE TABLE pandastest( 城市 VARCHAR(255), 用户ID INT(19), 订单日期 DATE, 金额 DECIMAL(19,4), 金额区间 VARCHAR(255), 订单数 INT(19), 上次订单日期 DATE, 距上次订单天数 INT(19), 上次金额 DECIMAL(19,4), 距上次订单间隔区间 VARCHAR(255), 品类数 INT(19), KEY city (城市), KEY res_id(用户ID) )ENGINE=INNODB DEFAULT CHARSET=ut...

python pandas stack和unstack函数【代码】【图】

在用pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即“不要堆叠”，我对两个函数是这样理解和区分的。　　常见的数据的层次化结构有两种，一种是表格，一种是“花括号”，即下面这样的l两种形式： store1store2store3street1123street2456 　　表格在行列方向上均有索引（类似于DataFrame），花括号结构只有“列方向”上的索引（类似于层次化的Seri...

python 计算均值、方差、标准差 Numpy，Pandas【代码】

Python 中的 numpy 包和 pandas 包都能够计算均值、方差等，本文总结一下它们的用法。1. Numpy 计算均值、方差、标准差一般的均值可以用 numpy 中的 mean 方法求得：>>> import numpy as np >>> a = [5, 6, 16, 9] >>> np.mean(a) 9.0numpy 中的 average 方法不仅能求得简单平均数，也可以求出加权平均数。average 里面可以跟一个 weights 参数，里面是一个权数的数组，例如：>>> np.average(a) >>> 9.0 >>> np.average(a, weight...

python学习-使用pandas 按照行数分割表格【代码】【图】

问题一张excel表格，大概1万行，需要录入系统系统每次最多只能录入500行表格数据，一旦超过500行，就会录入失败需要把1万行的数据按照500行分割，形成20个表格，这样才能录入系统思路使用pandas得到总行数，比如10002行，分割表格的时候，要保留一行表头第一张表，是1-500行，第二张表是 501-1000，以此类推最后一张表应该是1000-10002行，生成的表格数量是10000/500+1,21张生成的表格按照顺序保存到一个目录中写一个函数，可以按照...

python学习笔记（四）：pandas基础【代码】

pandas 基础seriseimport pandas as pd from pandas import Series, DataFrame obj = Series([4, -7, 5, 3]) obj0 4 1 -7 2 5 3 3 dtype: int64obj.valuesarray([ 4, -7, 5, 3], dtype=int64)obj.indexRangeIndex(start=0, stop=4, step=1)obj[[1,3]] # 跳着选取数据1 -7 3 3 dtype: int64obj[1:3]1 -7 2 5 dtype: int64pd.isnull(obj)0 False 1 False 2 False 3 False dtype: boolreindex可以...

python数据分析之pandas库的DataFrame应用【代码】【图】

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔型）。DateFrame既有行索引也有列索引，可以被看作为由Series组成的字典。构建DataFrame：1.1、直接传入一个由等长列表或numpy数组组成的字典‘‘‘ Created on 2016-8-10 @author: xuzhengzhu ‘‘‘from pandas import *data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,20...

python_执行报错_No module named 'pandas'【图】

程序中代码如下：报错：根据链接（ http://www.pianshen.com/article/6871295514/ ）中指导，解决过程如下：File --> Settings --> Project （ Project Interpreter ） --> 点击其中加号 --> 搜索 pandas ，然后点击安装。 '' ref='nofollow'>python_执行报错_No module named 'pandas'原文：https://www.cnblogs.com/lyj0123/p/11773733.html

python—pandas读取excel与写入excel【代码】

import pandas as pdimport openpyxl#将excel数据读取，输出格式为dataframe格式path = r‘/Users/**/PycharmProjects/class/pyclass1/others/file/学生信息表.xlsx‘#sheet_name可填写1）excel中表单序号从0开始2）表单名data = pd.read_excel(path,sheet_name=‘基础信息‘)#data.head()print(data)#将dataframe格式数据写入excel表path=r‘/Users/**/PycharmProjects/class/pyclass1/others/file/学生信息表2.xlsx‘data.to_exc...

Python数据分析与机器学习-Pandas_1【代码】

import pandas food_info = pandas.read_csv("food_info.csv") print(type(food_info)) print (food_info.dtypes)<class 'pandas.core.frame.DataFrame'> NDB_No int64 Shrt_Desc object Water_(g) float64 Energ_Kcal int64 Protein_(g) float64 Lipid_Tot_(g) float64 Ash_(g) float64 Carbohydrt_(g) float64 Fiber_TD_(g) float64 Sugar_Tot_(g)...

Python 使用Pandas读取Excel的学习笔记【代码】【图】

这里介绍Python中使用Pandas读取Excel的方法一、软件环境： OS：Win7 64位 Python 3.7二、文件准备 1、项目结构： 2、在当前实验文件夹下建立一个Source文件夹，里面放待读取的Excel文件 3、待读取的Excel文件名：Book1.xlsx，Sheet Name:Sheet1 内容示例：三、代码参考代码中已进行了注释说明，这里就不重复说明了。1、第一行作为列名处理，数据的第1行实际是从Excel的第2行开始，数据的最大行数...

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。3、pandas的主要功能　　--具备对其功能的数据结构DataFrame、Series 　　--集成时间序列功能　　--提供丰富的数学运算和操作　　--灵活处理缺失数据4、安装方法：pip install pandas5、引用方法：import pandas as pd二、Series Series是一种类似于一位数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。创建方式：...

小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择【代码】

人生苦短，我用 Python前文传送门：小白学 Python 数据分析（1）：数据分析基础小白学 Python 数据分析（2）：Pandas （一）概述小白学 Python 数据分析（3）：Pandas （二）数据结构 Series小白学 Python 数据分析（4）：Pandas （三）数据结构 DataFrame小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据引言上一篇文章我们介绍如何在 Pandas 一些基础的查看数据的操作，但是官方更推荐我们使用 .at、.iat、.loc...

首页 / PYTHON / python – Pandas的性能与np.vectorize相对应,可以从现有列创建新列

python – Pandas的性能与np.vectorize相对应,可以从现有列创建新列

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – Pandas的性能与np.vectorize相对应,可以从现有列创建新列】教程文章相关的互联网学习教程文章

Python——pandas数据处理（python programming）【图】

用Python的pandas框架操作Excel文件中的数据教程【代码】

Python pandas Date【代码】【图】

Python 2.7_pandas连接MySQL数据处理_20161229【代码】【图】

python pandas stack和unstack函数【代码】【图】

python 计算均值、方差、标准差 Numpy，Pandas【代码】

python学习-使用pandas 按照行数分割表格【代码】【图】

python学习笔记（四）：pandas基础【代码】

python数据分析之pandas库的DataFrame应用【代码】【图】

python_执行报错_No module named 'pandas'【图】

python—pandas读取excel与写入excel【代码】

Python数据分析与机器学习-Pandas_1【代码】

Python 使用Pandas读取Excel的学习笔记【代码】【图】

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择【代码】

PYTHON - 相关标签

性能 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程