【python – 复制一些行并更改pandas中的某些值】教程文章相关的互联网学习教程文章

python – 反向中的Pandas分裂函数【代码】

我有一个Pandas Dataframe,其列如下所示:Car_Make 0 2017 Abarth 124 Spider ManualConvertible 1 2017 Abarth 124 Spider AutoConvertible 2 2017 Abarth 124 Spider ManualConvertible 3 2017 Abarth 124 Spider AutoConvertible 4 2017 Abarth 595 ManualHatch 5 2017 Abarth 595 AutoHatch三个问题: 1 How to save split data in panda in reverse order? – 这解决了我的问题,但我不知道它是如何或为什么有效 ...

Python Pandas滚动功能【代码】

我不确定我是否理解Pandas滚动函数中的参数min_periods:为什么它必须小于window参数?我想计算(例如)滚动最大值减去滚动min与一个十个值的窗口但是我想在开始计算之前等待20个值:In[1]: import pandas as pd In[2]: import numpy as np In[3]: df = pd.DataFrame(columns=['A','B'], data=np.random.randint(low=0,high=100,size=(100,2))) In[4]: roll = df['A'].rolling(window=10, min_periods=20) In[5]: df['C'] = rol...

python – 在Pandas DataFrame中查找连续日期组【代码】

我正在尝试从Pandas DataFrame连续日期获取大量数据.我的df看起来如下.DateAnalyzed Val 1 2018-03-18 0.470253 2 2018-03-19 0.470253 3 2018-03-20 0.470253 4 2018-09-25 0.467729 5 2018-09-26 0.467729 6 2018-09-27 0.467729在这个df中,我想得到前3行,做一些处理然后得到最后3行并对其进行处理. 我通过应用以下代码计算了1滞后的差异.df['Delt...

python – 使用的更奇怪的结果:pandas中的groupby和nlargest()【代码】

这个问题是以下帖子的扩展:select largest N of a column of each groupby group using pandas 让我们使用相同的df和所选答案中提出的解决方法.基本上,我正在尝试进行2次groupby操作并选择每组的nlargest N.但是,正如您在下面看到的,我得到其中一个操作的错误. 鉴于原始帖子在代码中发现了一个错误(see here),我想知道是否有另一个错误或同一个错误的另一个表现? 不幸的是,在这些问题得到修复和解决之前,我仍处于工作中.我们能不...

python – 比较多个列以获取两个Pandas Dataframe中不同的行【代码】

我有两个数据帧:df1=A B C 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2df2=A B C 0 A2 B2 C10 1 A1 B3 C11 2 A9 B4 C12我想在df1中找到基于一列或两列(或更多列)在df2中找不到的行.因此,如果我只比较列’A’,则在df2中找不到df1中的以下行(请注意,列’B’和列’C’不用于df1和df2之间的比较)A B C 0 A0 B0 C0我想回一个系列0 False 1 True 2 True或者,如果我只比较列’A’和列’B...

python – Pandas如何在不丢失列标题的情况下连接两个数据帧【代码】

我有以下玩具代码:import pandas as pddf = pd.DataFrame()df["foo"] = [1,2,3,4]df2 = pd.DataFrame()df2["bar"]=[4,5,6,7] df = pd.concat([df,df2], ignore_index=True,axis=1)print(list(df))输出:[0,1]预期输出:[foo,bar](顺序不重要)有没有办法连接两个数据帧而不会丢失原始列标题,如果我可以保证标题是唯一的?我想到迭代列然后将它们添加到其中一个DataFrame中,但是有没有pandas函数或者我不知道的concat参数? 谢谢!...

python – 使用不同偏移向量的Pandas矢量化日期偏移操作【代码】

我正在尝试执行以下操作,但似乎不支持此模式下的矢量化操作.import pandas as pd df=pd.DataFrame([[2017,1,15,1],[2017,1,15,2],[2017,1,15,3],[2017,1,15,4],[2017,1,15,5],[2017,1,15,6],[2017,1,15,7]],columns=['year','month','day','month_offset']) df['date']=df.apply(lambda g: pd.datetime(g.year,g.month,g.day),axis=1) df['offset']=df.apply(lambda g: pd.offsets.MonthEnd(g.month_offset),axis=1) df['date_offs...

python – 将分组的聚合nunique列添加到pandas数据帧【代码】

我想在我的pandas数据帧中添加一个聚合的,分组的,nunique列,但不会聚合整个数据帧.我试图在一行中执行此操作,并避免创建新的聚合对象并合并它等. 我的df有track,type和id.我希望每个轨道/类型组合的唯一ID数量作为表格中的新列(但不会在生成的df中折叠轨道/类型组合).相同行数,1列. 这样的事情不起作用:df['n_unique_id'] = df.groupby(['track', 'type'])['id'].nunique()也不是df['n_unique_id'] = df.groupby(['track', 'type'...

python – 检查列值是否在pandas的其他列中【代码】

我在熊猫中有以下数据帧target A B C 0 cat bridge cat brush 1 brush dog cat shoe 2 bridge cat shoe bridge如何测试df.target是否在任何列[‘A’,’B’,’C’等]中,哪些列要检查? 我尝试将A,B和C合并为字符串以使用df.abcstring.str.contains(df.target),但这不起作用.解决方法:您可以使用drop,isin和any. >删除目标列,使其仅包含A,B,C列的df>检查值是否在目标列中>并检查是否存在任...

Python pandas数据帧插入缺失的数据【代码】

我有一个如下的数据集.我们只有一个月的最后一天的数据,我试图插入剩余的数据,这是正确的做法吗?Date Australia China 2011-01-01 NaN NaN 2011-01-02 NaN NaN - - - - - - 2011-01-31 4.75 5.81 2011-02-01 NaN NaN 2011-02-02 NaN NaN - - - - - - 2011-02-28 4.75 5.81 2011-03-01 NaN NaN 2011-03-02 NaN NaN - - - - ...

python – pandas.DataFrame corrwith()方法【代码】

我最近开始和熊猫一起工作.任何人都可以用Series和DataFrame来解释函数.corrwith()的行为差异吗? 假设我有一个DataFrame:frame = pd.DataFrame(data={'a':[1,2,3], 'b':[-1,-2,-3], 'c':[10, -10, 10]})我想要计算特征’a’和所有其他特征之间的相关性.我可以通过以下方式完成:frame.drop(labels='a', axis=1).corrwith(frame['a'])结果将是:b -1.0 c 0.0但非常相似的代码:frame.drop(labels='a', axis=1).corrwith(fram...

python – Pandas:带有multiIndex数据帧的条形图【代码】

我有一个带有TIMESTAMP列(不是索引)的pandas DataFrame,时间戳格式如下:2015-03-31 22:56:45.510我还有名为CLASS和AXLES的列.我想为AXLES的每个唯一值分别计算每个月的记录数(AXLES可以取3-12之间的整数值). 我想出了resample和groupby的组合:resamp = dfWIM.set_index('TIMESTAMP').groupby('AXLES').resample('M', how='count').CLASS这似乎给了我一个multiIndex数据帧对象,如下所示.In [72]: resampOut [72]:AXLES TIMESTAMP...

python – 适用于dateframe的Pandas生成’<内置方法值...'【代码】

我正在尝试构建一个GeoJSON object.我的输入是一个带有地址列,lat列和lon列的csv.然后,我从坐标中创建了Shapely点,用给定的半径缓冲它们,并通过映射选项获得坐标字典 – 到目前为止,非常好.然后,在参考this question之后,我编写了以下函数来获得一系列字典: def make_geojson(row): return {‘geometry’:row [‘geom’],’properties’:{‘address’:row [‘address’]}} 我这样应用了它:data['new_output'] = da...

python pandas选择两列(非)相等的行【代码】

hsp.loc[hsp['Len_old'] == hsp['Len_new']]我试试这个代码,它正在运行. 但我尝试了这三个hsp.loc[hsp['Type_old'] == hsp['Type_new']] hsp.loc[hsp['Type_old'] != hsp['Type_new']] hsp.loc[hsp['Len_old'] != hsp['Len_new']] 他们没有工作. 我的数据表hsp就像id Type_old Type_new Len_old Len_new 1 Num Num 15 15 2 Num Char 12 12 3 Char Num 10 8 4 ...

python – 为什么pandas.DataFrame.apply打印出垃圾?【代码】

考虑这个简单的数据帧:a b 0 1 2 1 2 3我这样执行.apply:In [4]: df.apply(lambda x: [x.values]) Out[4]: a [[140279910807944, 140279910807920]] b [[140279910807944, 140279910807920]] dtype: objectIn [5]: df.apply(lambda x: [x.values]) Out[5]: a [[37, 37]] b [[37, 37]] dtype: objectIn [6]: df.apply(lambda x: [x.values]) Out[6]: a [[11, 11]] b [[11, 11]] dtype: object为什么大熊...