【Python:如何从pandas系列中获取字典中的值】教程文章相关的互联网学习教程文章

python – pandas groupby没有按列分组转换为索引【代码】

pandas groupby的默认行为是将按列转换为索引,并将其从数据框的列列表中删除.例如,假设我有一个包含这些列的dataFramecol1|col2|col3|col4如果我通过这种方式使用列col2和col3来应用组df.groupby(['col2','col3']).sum()数据框df不再在列列表中包含[‘col2′,’col3’].它们会自动转换为结果数据帧的索引. 我的问题是如何在列上执行groupby并将该列保留在数据框中?解决方法: df.groupby(['col2','col3'], as_index=False).sum()

python – Pandas中timedeltas的字符串格式【代码】

我注意到Pandas知道如何巧妙地将timedelta对象格式化为字符串.In [1]: df[column][rows].max() Out[1]: 0 2 days, 02:08:07 dtype: timedelta64[ns]当我尝试手动执行此操作时,我会在纳秒内继续获取字符串.In [2]: df[column][rows].max()[0] Out[2]: numpy.timedelta64(180487000000000,'ns')In [2]: str(df[column][rows].max()[0]) Out[2]: '180487000000000 nanoseconds'我宁愿不重新发明轮子,所以有没有办法访问Pandas用来在...

python – 使用pandas groupby计算唯一值【代码】

我有以下形式的数据:df = pd.DataFrame({'group': [1, 1, 2, 3, 3, 3, 4],'param': ['a', 'a', 'b', np.nan, 'a', 'a', np.nan] }) print(df)# group param # 0 1 a # 1 1 a # 2 2 b # 3 3 NaN # 4 3 a # 5 3 a # 6 4 NaN组内的非空值始终相同.我想为每个组(它存在的位置)计算一次非空值,然后查找每个值的总计数. 我目前正在以下(笨重和低效)的方式做到这一点:pa...

python – 在pandas数据帧中查找条纹【代码】

我有一个pandas数据帧如下:time winner loser stat 1 A B 0 2 C B 0 3 D B 1 4 E B 0 5 F A 0 6 G A 0 7 H A 0 8 I A 1每一行都是匹配结果.第一列是匹配的时间,第二列和第三列包含赢家/输家,第四列是匹配的一个统计. 我想检测每个输家的统计数据为零. 预期结果应如下所...

Python Pandas – 基于先前获取的子集从DataFrame中删除行【代码】

我正在运行安装了Pandas 0.11.0库的Python 2.7. 我一直在寻找一个没有找到这个问题的答案,所以我希望有人比我有解决方案更有经验. 让我们说我的数据,在df1中,如下所示: DF1 =zip x y access123 1 1 4123 1 1 6133 1 2 3145 2 2 3167 3 1 1167 3 1 2例如,使用df2 = df1 [df1 [‘zip’] == 123]然后df2 = df2.join(df1 [df1 [‘zip’] == 133])我得到以下数据子集: DF2 =zip x y access123 1...

python – 有效地将列中的值替换为另一列Pandas DataFrame【代码】

我有一个像下面这样的Pandas DataFrame:col1 col2 col3 1 0.2 0.3 0.3 2 0.2 0.3 0.3 3 0 0.4 0.4 4 0 0 0.3 5 0 0 0 6 0.1 0.4 0.4我想要将col1值替换为第二列(col2)中的值,仅当col1值等于0时,并且(对于剩余的零值)之后,再次使用第三列(col3)进行替换.期望的结果是下一个:col1 col2 col3 1 0.2 0.3 0.3 2 0.2 0.3 0.3 3 0.4 0.4 0.4 4 0.3 0 0.3 5 0 0 0 6 ...

python – Pandas比较两个数据帧并删除一列中的匹配项【代码】

我有两个独立的pandas数据帧(df1和df2),它们有多个列,但只有一个是共同的(‘text’). 我想在df2中找到df2和df1共有的任何行中没有匹配项的每一行. DF1A B text 45 2 score 33 5 miss 20 1 scoreDF2C D text .5 2 shot .3 2 shot .3 1 miss结果df(删除包含未命中的行,因为它出现在df1中)C D text .5 2 shot .3 2 shot在这种情况下是否可以使用isin方法?解决方法:正如您...

python – pandas对于long()的文字无效,基数为10【代码】

我想做:df [‘Num_Detections’] = df [‘Num_Detections’].astype(int) 我得到以下错误:ValueError: invalid literal for long() with base 10: ‘12.0’我的数据看起来如下:>>> df['Num_Detections'].head() Out[6]: sku_name DOBRIY MORS GRAPE-CRANBERRY-RASBERRY 1L 12.0 AQUAMINERALE 5.0L 9.0 DOBRIY PINEAPPLE 1.5L 2.0 FRUKT.SAD APPLE 0.95L ...

python – pandas比较引发TypeError:无法将dtyped [float64]数组与[bool]类型的标量进行比较【代码】

我的dataFrame有以下结构:Index: 1008 entries, Trial1.0 to Trial3.84 Data columns (total 5 columns): CHUNK_NAME 1008 non-null values LAMBDA 1008 non-null values BETA 1008 non-null values HIT_RATE 1008 non-null values AVERAGE_RECIPROCAL_HITRATE 1008 non-null valueschunks=['300_321','322_343','344_365','36...

python – pandas数据帧上的分位数规范化【代码】

简单来说,如何在Python中对大型Pandas数据帧(可能是2,000,000行)应用分位数归一化? PS.我知道有一个名为rpy2的包可以在子进程中运行R,在R中使用分位数标准化.但事实是当我使用如下数据集时,R无法计算正确的结果:5.690386092696389541e-05,2.051450375415418849e-05,1.963190184049079707e-05,1.258362869906251862e-04,1.503352476021528139e-04,6.881341586355676286e-06 8.535579139044583634e-05,5.128625938538547123e-06,1....

python – Pandas:修改特定级别的Multiindex【代码】

我有一个带有Multiindex的数据框,想要修改Multiindex的一个特定级别.例如,第一级可能是字符串,我可能想要从该索引级别删除空格:df.index.levels[1] = [x.replace(' ', '') for x in df.index.levels[1]]但是,上面的代码会导致错误:TypeError: 'FrozenList' does not support mutable operations.我知道我可以reset_index并修改列然后重新创建Multiindex,但我想知道是否有更优雅的方法来直接修改Multiindex的某个特定级别.解决方法...

python – 将netCDF文件导入Pandas数据帧【代码】

圣诞节快乐.我仍然是Python和熊猫的新手所以非常感谢帮助.我试图读取netCDF文件,我可以做,然后将其导入到Pandas Dataframe中. netcDF文件是2D的,所以我只想“转储它”.我已经尝试过DataFrame方法,但它无法识别该对象.大概我需要将netCDF对象转换为2D numpy数组?再次感谢有关最佳方法的任何想法.最好的祝愿贾森解决方法:xarray库处理任意维度的netCDF数据,并保留元数据. Xarray提供了一种打开netCDF文件并将其转换为pandas数据帧的...

python – 将numpy.array存储在Pandas.DataFrame的单元格中【代码】

我有一个数据框,我想在其中存储’raw’numpy.array:df['COL_ARRAY'] = df.apply(lambda r: np.array(do_something_with_r), axis=1)但似乎熊猫试图’解包’numpy.array. 有解决方法吗?除了使用包装器(参见下面的编辑)? 我试过reduce = False没有成功. 编辑 这是有效的,但是我必须使用’dummy’Data类来包围数组,这是不令人满意的并且不是很优雅.class Data:def __init__(self, v):self.v = vmeas = pd.read_excel(DATA_FILE) me...

python – 融合Pandas Dataframe的上三角矩阵【代码】

给定以下形式的方形pandas DataFrame:a b c a 1 .5 .3 b .5 1 .4 c .3 .4 1我怎样才能融化上三角形才能得到Row Column Valuea a 1a b .5 a c .3b b 1b c .4c c 1 #Note the combination a,b is only listed once. There is no b,a listing 我对一个惯用的熊猫解决方案更感兴趣,一个自定义索引器很容易手工编写…提前感谢您的考虑...

python – Pandas在连接后重新计算索引【代码】

我有一个问题,我通过沿行轴连接(垂直堆叠)生成一个pandas数据帧. 每个组成数据帧都有一个自动生成的索引(递增数字). 连接后,我的索引被搞砸了:它计数到n(其中n是相应数据帧的形状[0]),并在下一个数据帧重新开始. 我试图“重新计算索引,给定当前的顺序”,或“重新索引”(或者我认为).事实证明,这并不是DataFrame.reindex似乎正在做的事情. 这是我试图做的:train_df = pd.concat(train_class_df_list) train_df = train_df.reindex...

字典 - 相关标签