【python-根据其他列值创建Pandas Dataframe行】教程文章相关的互联网学习教程文章

python – 在DataFrame中测试后续值【代码】

我有一个DataFrame,其中一列有正负整数.对于每一行,我想看看有多少连续行(从当前行开始并包括当前行)具有负值. 因此,如果序列为2,-1,-3,1,-1,则结果为0,2,1,0,1. 我可以通过迭代所有索引,使用.iloc拆分列,然后使用next()找出下一个正值的位置.但我觉得这并没有利用熊猫的能力,我想有更好的方法.我已尝试使用.shift()和expanding_window但没有成功. 有没有更“宽容”的方法来找出当前一个符合某种逻辑条件后连续多少行? 这是现在正...

python – 更快地处理Pandas中的Dataframe【代码】

我正在尝试处理非常大的文件(10,000个观察),其中邮政编码不容易格式化.我需要将它们全部转换为前5位数,这是我当前的代码:def makezip(frame, zipcol):i = 0while i < len(frame):frame[zipcol][i] = frame[zipcol][i][:5]i += 1return frameframe是数据帧,zipcol是包含邮政编码的列的名称.虽然这有效,但处理需要很长时间.有更快的方法吗?解决方法:您可以在字符串列上使用.str访问器来访问某些特定的字符串方法.在此,您还可以切片...

python – 从大型Pandas DataFrame中删除行的快速有效方法【代码】

我希望从大型Pandas DataFrame中删除行,其中包含基于用户在网站上执行的操作/事件的分析数据.所有用户操作流都以start事件开始,并以end事件结束.我想查找已完成特定事件的所有用户(例如注册 – 示例数据框中的索引13)并删除该事件之后的所有事件,直到(并包括)结束事件.因此,在此示例中,必须从数据框中删除已查看的博客帖子,页面视图,访问过的网站,广告活动点击,已查看的博客帖子,访问过的网站,页面视图和结束.In [26]: data Out[26...

python – 添加由pandas dataframe to_excel方法创建的Excel工作表的超链接【代码】

我已使用df.to_excel将pandas DataFrame转换为Excel工作表. 现在,我想在一列中添加超值的超链接.换句话说,当客户看到我的Excel工作表时,他就可以点击一个单元格并显示一个网页(取决于此单元格中的值).解决方法:您可以使用HYPERLINK功能import pandas as pd df = pd.DataFrame({'link':['=HYPERLINK("http://www.someurl.com", "some website")']}) df.to_excel('test.xlsx')

python – 如何将小时添加到pandas dataframe列【代码】

我有一个像下面这样的pandas数据帧时间列.segments_data['time']Out[1585]: 0 04:50:001 04:50:002 05:00:003 05:12:004 06:04:005 06:44:006 06:44:007 06:47:008 06:47:009 06:47:00我想在上面的时间栏上添加5小时30分钟.我在python中做跟随.pd.DatetimeIndex(segments_data['time']) + pd.DateOffset(hours=5,minutes=30)但它给了我一个错误.TypeError: object of type 'dat...

python – Pandas使用bool过滤DataFrame的列【代码】

对于具有多个列和行的DataFrame(df)A B C D 0 1 4 2 6 1 2 5 7 4 2 3 6 5 6和另一个包含dtype:Bool的DataFrame(dfBool)0 True 1 False 2 False 3 True通过转置dfbool将此DataFrame按列拆分为两个不同的DataFrame的最简单方法是什么,以便获得所需的输出A D 0 1 6 1 2 4 2 3 6 B C 0 4 2 1 5 7 2 6 5 我无法理解,在我有限的经验中为什么dfTrue = df [dfBool.tran...

python – 来自dataframe pandas的数据的多线程【代码】

我正在努力使用多线程来计算在篮子上有不同购物项目的客户列表之间的相关性.所以我有一个由1,000个客户组成的熊猫数据框,这意味着我必须计算100万次相关性,这需要很长时间来处理 数据框的示例如下所示:ID Item 1 Banana 1 Apple 2 Orange 2 Banana 2 Tomato 3 Apple 3 Tomato 3 Orange 这是代码的简化版本:import pandas as pddef relatedness (customer1, custome...

python – 访问Pandas DataFrame元素中的列表【代码】

我有一个Pandas DataFrame,其中一列内有一个整数列表.我想访问此列表中的各个元素.我已经找到了一种方法来使用tolist()并将其转换回DataFrame,但我想知道是否有更简单/更好的方法.在此示例中,我将列A添加到列B中列表的中间元素.import pandas as pd df = pd.DataFrame({'A' : (1,2,3), 'B': ([0,1,2],[3,4,5,],[6,7,8])}) df['C'] = df['A'] + pd.DataFrame(df['B'].tolist())[1] df有一个更好的方法吗?解决方法:更简单的是:df['...

python – pandas dataframe fillna()不工作?【代码】

我有一个数据集,我正在执行主成分分析(PCA).我尝试转换数据时收到ValueError消息.以下是一些代码:import pandas as pd import numpy as np import matplotlib as mpl from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA as sklearnPCAdata = pd.read_csv('test.csv',header=0) X = data.ix[:,0:1000].values # values of 1000 predictor variables Y = data.ix[:,1000].values # val...

Python Pandas Dataframe GroupBy大小基于条件【代码】

我有一个数据帧’df’,如下所示:id date1 date2 1 11/1/2016 11/1/2016 1 11/1/2016 11/2/2016 1 11/1/2016 11/1/2016 1 11/1/2016 11/2/2016 1 11/2/2016 11/2/2016 2 11/1/2016 11/1/2016 2 11/1/2016 11/2/2016 2 11/1/2016 11/1/2016 2 11/2/2016 11/2/2016 2 11/2/2016 11/2/2016我想做的是将id分组,然后获取date1 = date2的每个id的大小.结果应如下所示:id samedate count...

python – 通过系列共享索引划分Dataframe【代码】

我想用一个列(一个系列)划分一个DataFrame,它们都共享索引,所以我希望结果具有原始DataFrame的形状. 这段代码显示了我的所作所为:import numpy as np import pandas as pd cols = ['A', 'B', 'C', 'D'] ix = range(10) df = pd.DataFrame(index=ix, columns=cols, data=np.random.randint(0, 100, size=(10, 4)))print(df / df['A'])结果是这样的:0 1 2 3 4 5 6 7 8 9 A B C D 0 NaN NaN NaN NaN NaN ...

python – Pandas DataFrame计算重复行并填充列【代码】

我创建了一个DataFrame,现在需要计算每个重复的行(例如df [‘Gender’].假设性别’男性’出现两次而女性出现三次,我需要这个列:Gender Occurrence Male 1 Male 2 Female 1 Female 2 Female 3有没有办法与熊猫一起做到这一点?解决方法:按性别分组后使用cumcount方法:df = pd.DataFrame({'Gender':['Male','Male','Female','Female','Female']}) df['Occurrence'] = df.groupby('Gender').cumcount() + 1 prin...

Python Pandas返回DataFrame,其中value count高于设定的数字【代码】

我有一个Pandas DataFrame,我想仅在客户编号超过设定次数时才返回DataFrame. 以下是DataFrame的示例:114 2017-04-26 1 7507 34 13 115 2017-04-26 3 77314 41 14 116 2017-04-27 7 4525 190 315 117 2017-04-27 7 5525 67 94 118 2017-04-27 1 6525 43 378 119 2017-04-27 3 7415 38 27...

python – 在pandas dataframe列中查找特定模式【代码】

我想在pandas dataframe列中找到一个特定的模式,并返回相应的索引值以便对数据帧进行子集化. 这是一个带有可能模式的示例数据框: 用于生成数据帧的代码段:import pandas as pd import numpy as npObservations = 10 Columns = 2 np.random.seed(123) df = pd.DataFrame(np.random.randint(90,110,size=(Observations, Columns)),columns = ['ColA','ColB']) datelist = pd.date_range(pd.datetime(2017, 7, 7).strftime('%Y-%m-%...

Python Pandas Dataframe:根据条件制作整行NaN【代码】

我想根据基于列的条件制作整行NaN.例如,如果B> 5我想整排NaN: 未处理的数据帧:'A''B'1 43 54 68 7 如果B> 5,则整行NaN'A''B'1 43 5NaN NaNNaN NaN谢谢.解决方法:你也可以使用df.loc [df.B> 5,:] = np.nan 例In [14]: df Out[14]: A B 0 1 4 1 3 5 2 4 6 3 8 7In [15]: df.loc[df.B > 5, :] = np.nan In [16]: df Out[16]: A B 0 1.0 4.0 1 3.0 5.0 2 NaN NaN 3 NaN NaN在人类语言df.loc [df.B> 5,:]...