【python – Pandas Dataframe:将带有列表的行展开到多行,并为所有列创建所需的索引】教程文章相关的互联网学习教程文章

python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量?【代码】

我有一个数据矩阵29523行x 503 cols,其中3 cols是索引(下面是例如子集).IDX1| IDX2 | IDX3 | 1983 Q4 | X | Y | Z |1984 Q1 | X | Y | Z --------------------------------------------------------------------------- A | A1 | Q | 10 | A | F | NaN | 110 | A | F | NaN A | A2 | Q | 20 | B | C | 40 | 120 | B | C | 240 A | A3 | Q | 30 | A...

python – 从DataFrame列构造Series时丢失值【代码】

我有一个由以下列组成的DataFrame td:In [111]: td.head(5) Out[111]:Date Time Price 0 2015-09-21 00:01:26 4303.00 1 2015-09-21 00:01:33 4303.00 2 2015-09-21 00:02:21 4303.50 3 2015-09-21 00:02:21 4303.50 4 2015-09-21 00:02:31 4303.25我的目标是拥有一个具有日期时间和价格的系列. 我试过了:s = pd.Series(td['Price'], index=pd.to_datetime(td['Date'] + ' ' + td['Time']))但得到结果:>...

python – 从pandas DataFrame转换为raw numpy数组可以提高ML性能吗?【代码】

pandas DataFrame具有固定整数数据类型的限制(int64). NumPy数组没有这个限制;例如,我们可以使用np.int8(我们也有不同的浮点大小可用). (限制不再存在.) 如果我们首先将DataFrame转换为数据类型减小的原始NumPy数组(例如从np.float64到np.float16),那么scikit-learn性能通常会改善大数据集吗?如果是这样,当内存有限时,这种可能的性能提升是否只会发挥作用? 对于ML而言,相对于计算大小和复杂性而言,真正高浮点精度似乎通常并不重要...

python – 在将pandas DataFrame保存为feather时可以指定列类型吗?【代码】

目前,如果列恰好只有空值,则抛出异常并显示错误:Invalid: Unable to infer type of object array, were all null可以指定列的类型,而不是推断类型吗? 版本:feather-format==0.3.1 pandas==0.19.1示例代码:feather.write_dataframe(pandas.DataFrame([None]*5), '/tmp/test.feather')解决方法:将n更改(或替换)为numpy.nan并且它将起作用:In [22]: feather.write_dataframe(pd.DataFrame([np.nan]*5), 'd:/temp/test.feather')I...

python – pandas dataframe按日期排序【代码】

我通过导入csv文件创建了一个数据帧.并将date列转换为datetime并将其作为索引.但是,在对索引进行排序时,它不会产生我想要的结果print(df.head()) df['Date'] = pd.to_datetime(df['Date']) df.index = df['Date'] del df['Date'] df.sort_index() print(df.head())这是结果:Date Last 0 2016-12-30 1.05550 1 2016-12-29 1.05275 2 2016-12-28 1.04610 3 2016-12-27 1.05015 4 2016-12-23 1.05005Last Date ...

python – 在Dask DataFrame中的分区之间分配行【代码】

期望:我希望,当我对给定的数据帧进行分区时,行将大致均匀地分布到每个分区中.我希望,当我将数据帧写入csv时,得到的n csvs(在本例中为10)将同样具有大致相等的长度. 现实:当我运行下面的代码时,我发现行而不是偶数分布的行,所有行都在export_results-0.csv中,其余9个csv为空. 问题:是否需要设置其他配置以确保行分布在所有分区中?from dask.distributed import Client import dask.dataframe as dd import pandas as pdclient =...

python – 用于pandas DataFrame中文本的Jaccard相似度【代码】

我想测量pandas DataFrame中文本之间的jaccard相似度.更确切地说,我有一些实体组,并且在一段时间内每个实体都有一些文本.我想分析每个实体的文本相似度(这里是Jaccard相似度)随时间的变化. 一个简单的例子来说明我的观点:import pandas as pdentries = [{'Entity_Id':'Firm1', 'date':'2001-02-05', 'text': 'This is a text'},{'Entity_Id':'Firm1', 'date':'2001-03-07', 'text': 'This is a text'},{'Entity_Id':'Firm1', 'dat...

python dask dataframe将元组列拆分为两列【代码】

我正在使用带有dask的python 2.7 我有一个数据框,其中包含我创建的一列元组,如下所示:table[col] = table.apply(lambda x: (x[col1],x[col2]), axis = 1, meta = pd.Dataframe) 我想将此元组列重新转换为两个单独的列在熊猫我会这样做:table[[col1,col2]] = table[col].apply(pd.Series) 这样做的一点是,dask数据帧不支持多索引,我想根据多个列使用groupby,并希望创建一个元组列,它将为我提供一个包含我需要的所有值的索引(请忽略...

python – Pandas Dataframe在由索引分隔的部分中进行插值【代码】

我的示例代码如下:import pandas as pddictx = {'col1':[1,'nan','nan','nan',5,'nan',7,'nan',9,'nan','nan','nan',13],\'col2':[20,'nan','nan','nan',22,'nan',25,'nan',30,'nan','nan','nan',25],\'col3':[15,'nan','nan','nan',10,'nan',14,'nan',13,'nan','nan','nan',9]} df = pd.DataFrame(dictx).astype(float)我正在尝试插入包含值’nan’的各个段.对于上下文,我试图使用城市(巴西圣保罗)提供的GPS数据来跟踪公交车的速...

python – 将分隔符上的多个列拆分为pandas dataframe中的行【代码】

参见英文答案 > pandas: records with lists to separate rows 3个我有一个pandas数据框,如下所示:id pos value sent 1 a/b/c test/test2/test3 21 2 d/a test/test5 21我想拆分(=爆炸)df [‘pos’]和df [‘token’],以便数据框看起来像这样:id pos value sent 1 a test 21 1 ...

python – Pandas DataFrame:如何在滚动窗口中设置Union Aggregation【代码】

我有一个Dataframe,其中包含一列中的id和另一列中的日期:import pandas as pddf = pd.DataFrame([['2018-01-01', {1, 2, 3}],['2018-01-02', {3}],['2018-01-03', {3, 4, 5}],['2018-01-04', {5, 6}]],columns=['timestamp', 'ids'])df['timestamp'] = pd.to_datetime(df['timestamp']) df.set_index('timestamp', inplace=True)ids timestamp 2018-01-01 {1, 2, 3} 2018-01-02 {3} 2018-01-03 {3, 4,...

python – 应用/ vectorize /加速列式清理功能到pandas dataframe【代码】

我有一些数据管道代码,它根据名称将转换/清理逻辑应用于Pandas数据帧的列. 现在我正在使用df.iteritems()迭代列,根据this guide优化Pandas应用函数优于粗循环但是“运行大多数标准函数的效率最低的方法”. 我想通过利用Pandas对这些操作进行矢量化的能力或其他一些并行方法来提高此代码的性能. 我见过的所有工作示例都说明了如何按行进行此操作(例如,在一个系列上进行计算而不是在一行上进行计算)但我无法找到如何执行此列的良好示...

python – 将Dataframe与不同日期合并?【代码】

我想将单独的数据帧(df2)与主数据帧(df1)合并,但是如果对于给定的行,df1中的日期不存在于df2中,则在df1中搜索基础日期之前的最近日期. 我尝试使用pd.merge,但它会删除具有不匹配日期的行,并且只保留两个df中匹配的行.df1 = [['2007-01-01','A'],['2007-01-02','B'],['2007-01-03','C'],['2007-01-04','B'],['2007-01-06','C']]df2 = [['2007-01-01','B',3],['2007-01-02','A',4],['2007-01-03','B',5],['2007-01-06','C',3]]df1 = ...

python – 转换Pandas Dataframe类型【代码】

我有一个通过mysql调用创建的pandas dataFrame,它将数据作为对象类型返回. 数据主要是数字,有一些’na’值. 如何转换dataFrame的类型以使数值适当地键入(浮点数)并且’na’值表示为numpy NaN值?解决方法:在数据帧上使用replace方法:import numpy as np df = DataFrame({ 'k1': ['na'] * 3 + ['two'] * 4, 'k2': [1, 'na', 2, 'na', 3, 4, 4]})print dfdf = df.replace('na', np.nan)print df我认为指出df.replace(‘na’,np.nan)...

python – Pandas:为什么DataFrame.apply(f,axis = 1)在DataFrame为空时调用f?【代码】

为什么Pandas的DataFrame.apply方法在DataFrame为空时调用正在应用的函数? 例如:>>> import pandas as pd >>> df = pd.DataFrame({"foo": []}) >>> df Empty DataFrame Columns: [foo] Index: [] >>> x = [] >>> df.apply(x.append, axis=1) Series([], dtype: float64) >>> x [Series([], dtype: float64)] # <<< why was the apply callback called with an empty row?解决方法:深入挖掘熊猫来源,看起来这就是罪魁祸首:if not...