【python – 合并pandas数据帧,其中一个值介于两个其他值之间】教程文章相关的互联网学习教程文章

python – 从pandas列中删除非ASCII字符【代码】

我一直试图解决这个问题.我试图从DB_user列中删除非ASCII字符并尝试用空格替换它们.但我不断收到一些错误.这就是我的数据框的外观:+----------------------------------------------------------- | DB_user source count | +----------------------------------------------------------- | ???/"|Z?)?]??C %??J A ...

python – Pandas无法读取用h5py创建的hdf5文件【代码】

当我尝试读取用h5py创建的HDF5格式文件时,我得到了pandas错误.我想知道我是不是做错了什么?import h5py import numpy as np import pandas as pd h5_file = h5py.File('test.h5', 'w') h5_file.create_dataset('zeros', data=np.zeros(shape=(3, 5)), dtype='f') h5_file.close() pd_file = pd.read_hdf('test.h5', 'zeros')给出错误:TypeError:如果对象不存在或传递值,则无法创建存储器 我尝试将密钥集指定为’/ zeros(就像我在...

python – 获取pandas中其列中具有相同值的行【代码】

在pandas中,给定一个DataFrame D:+-----+--------+--------+--------+ | | 1 | 2 | 3 | +-----+--------+--------+--------+ | 0 | apple | banana | banana | | 1 | orange | orange | orange | | 2 | banana | apple | orange | | 3 | NaN | NaN | NaN | | 4 | apple | apple | apple | +-----+--------+--------+--------+当有三列或更多列时,如何返回其所有列中具有相同内容的...

python – 在Pandas DataFrame中反转列顺序的大O复杂性是什么?【代码】

所以假设我在pandas中有一个带有m行和n列的DataFrame.我们还要说我想颠倒列的顺序,可以使用以下代码完成:df_reversed = df[df.columns[::-1]]这项行动的大O复杂性是什么?我假设这将取决于列数,但它还取决于行数?解决方法:我不知道熊猫是如何实现这一点的,但我确实根据经验进行了测试.我运行以下代码(在Jupyter笔记本中)来测试操作的速度:def get_dummy_df(n):return pd.DataFrame({'a': [1,2]*n, 'b': [4,5]*n, 'c': [7,8]*n})...

python – 将Pandas数据框列值合并到新列中【代码】

我正在和Pandas一起工作,我有一个数据框,我们可以在其中填充以下三个值中的一个:ID_1 ID_2 ID_3 abc NaN NaN NaN def NaN NaN NaN ghi NaN NaN jkl NaN mno NaN pqr NaN NaN我的目标是将这三列组合成我数据框中的新列:ID_1 ID_2 ID_3 Combined_ID abc NaN NaN abc NaN def NaN def NaN NaN ghi ghi NaN NaN jkl jkl ...

python – 在pandas数据帧中的特定小时之间选择数据【代码】

我的Pandas Dataframe框架看起来像这样1. 2013-10-09 09:00:052. 2013-10-09 09:05:003. 2013-10-09 10:00:004. ............5. ............6. ............7. 2013-10-10 09:00:058. 2013-10-10 09:05:00 9. 2013-10-10 10:00:00我希望数据位于9到10小时之间…如果有人在这样的事情上工作,那将非常有帮助.解决方法:In [7]: index = date_range('20131009 08:30','20131010 10:05',freq='5T')In [8]: df = DataFrame(randn(l...

python – Pandas中双括号`[[…]]`和单括号`[..]`索引之间的区别【代码】

我对以下代码行的语法感到困惑:x_values = dataframe[['Brains']]数据框对象由2列(大脑和身体)组成Brains Bodies 42 34 32 23当我打印x_values时,我得到这样的东西:Brains 0 42 1 32就dataframe对象的属性和方法而言,我知道pandas文档,但是双括号语法让我感到困惑.解决方法:考虑一下: 来源DF:In [79]: df Out[79]:Brains Bodies 0 42 34 1 32 23选择一列 – 导致Pandas.Series:In [80]: df['B...

python – Pandas:按行数将数据帧拆分为多个数据帧【代码】

对熊猫来说相当新鲜所以忍受我… 我有一个巨大的csv,有很多行的表.我想简单地将每个数据帧拆分为2,如果它包含超过10行. 如果为true,我希望第一个数据帧包含前10个数据帧,其余数据帧包含第二个数据帧. 这有一个方便的功能吗?我环顾四周但发现没什么用处…… 即split_dataframe(df,2(如果> 10))?解决方法:如果满足条件,这将返回拆分的DataFrame,否则返回原始和None(然后您需要单独处理).请注意,这假设拆分只需要每df发生一次,而拆分...

python – Pandas Dataframe:用行平均值替换NaN【代码】

我正在努力学习大熊猫,但我对以下内容感到困惑.我想替换NaNs是一个具有行平均值的数据帧.因此像df.fillna(df.mean(axis = 1))这样的东西应该可以工作,但由于某种原因它不适合我.我错过了什么,我做错了什么?是因为它没有实施;见link hereimport pandas as pd import numpy as np ? pd.__version__ Out[44]: '0.15.2'In [45]: df = pd.DataFrame() df['c1'] = [1, 2, 3] df['c2'] = [4, 5, 6] df['c3'] = [7, np.nan, 9] dfOut[45]:...

python – 动态过滤pandas数据帧【代码】

我正在尝试使用三列的阈值来过滤pandas数据帧import pandas as pd df = pd.DataFrame({"A" : [6, 2, 10, -5, 3],"B" : [2, 5, 3, 2, 6],"C" : [-5, 2, 1, 8, 2]}) df = df.loc[(df.A > 0) & (df.B > 2) & (df.C > -1)].reset_index(drop = True)dfA B C 0 2 5 2 1 10 3 1 2 3 6 2但是,我想在一个函数中执行此操作,其中列的名称及其阈值在字典中提供给我.这是我的第一次尝试,运作正常.基本上我将过滤器放在cond变量中并...

python – 将列表转换为pandas数据框【代码】

我试图将我的输出转换为熊猫数据框,我正在努力.我有这个清单my_list = [1,2,3,4,5,6,7,8,9]我想创建一个包含3列和3行的pandas数据框.我尝试使用df = pd.DataFrame(my_list, columns = list("abc"))但它似乎对我不起作用.任何帮助,将不胜感激.解决方法:你需要转换列表到numpy数组,然后reshape:df = pd.DataFrame(np.array(my_list).reshape(3,3), columns = list("abc")) print (df)a b c 0 1 2 3 1 4 5 6 2 7 8 9

python Pandas DataFrame copy(deep = False)vs copy(deep = True)vs’=’【代码】

有人可以向我解释一下之间的区别df2 = df1df2 = df1.copy()df3 = df1.copy(deep=False)我已经尝试了所有选项,并按如下方式执行:df1 = pd.DataFrame([1,2,3,4,5]) df2 = df1 df3 = df1.copy() df4 = df1.copy(deep=False) df1 = pd.DataFrame([9,9,9])并返回如下:df1: [9,9,9] df2: [1,2,3,4,5] df3: [1,2,3,4,5] df4: [1,2,3,4,5]所以,我发现.copy()和.copy(deep = False)之间的输出没有区别.为什么? 我希望其中一个选项’=’,c...

python – 填写MultiIndex Pandas Dataframe中的日期空白【代码】

我想修改一个pandas MultiIndex DataFrame,使每个索引组包含指定范围之间的日期.我希望每个小组用值0(或NaN)填写2013-06-11到2013-12-31的缺失日期.Group A, Group B, Date, Value loc_a group_a 2013-06-11 222013-07-02 352013-07-09 142013-07-30 92013-08-06 42013-09-03 402013-10-01 18group_b 2013-07-09 42013-08-06 22013-09-03 5group_c 2013-0...

python – 将函数应用于pandas数据帧的每一行以创建两个新列【代码】

我有一个pandas DataFrame,st包含多个列:<class 'pandas.core.frame.DataFrame'> DatetimeIndex: 53732 entries, 1993-01-07 12:23:58 to 2012-12-02 20:06:23 Data columns: Date(dd-mm-yy)_Time(hh-mm-ss) 53732 non-null values Julian_Day 53732 non-null values AOT_1020 53716 non-null values AOT_870 53732 non-null values ...

将多个列值合并到python pandas中的一列中【代码】

我有一个像这样的pandas数据框:Column1 Column2 Column3 Column4 Column50 a 1 2 3 41 a 3 4 52 b 6 7 83 c 7 7 我现在要做的是获取一个包含Column1和新columnA的新数据帧.此列A应包含第2列的所有值 – (到)n(其中n是从Column2到行尾的列数),如下所示:Column1 ColumnA 0 a 1,2,3,4 1 a 3,4,5 2 b...