【从python嵌套列表在pandas中创建新列】教程文章相关的互联网学习教程文章

python – Pandas数据帧datetime到时间再到秒【代码】

我有一个数据帧.列包含时间戳.我想删除日期并将时间转换为秒. 首先我将它们转换为日期时间:In: df_time = pd.to_datetime(df["Timestamp"])Out: 0 2017-11-07 13:09:00 1 2017-11-07 13:11:00 2 2017-11-07 13:13:00 3 2017-11-07 13:15:00 dtype: datetime64[ns]然后我删除了日期:In: df_time = pd.Series([val.time() for val in df_time])Out: 0 13:09:00 1 13:11:00 2 13:13:00 3 13:15...

python – PySpark.将Dataframe传递给pandas_udf并返回一个系列【代码】

我正在使用PySpark的新pandas_udf装饰器,我试图让它将多列作为输入并返回一个系列作为输入,但是,我得到一个TypeError:无效的参数 示例代码@pandas_udf(df.schema, PandasUDFType.SCALAR) def fun_function(df_in):df_in.loc[df_in['a'] < 0] = 0.0return (df_in['a'] - df_in['b']) / df_in['c']解决方法:A SCALAR udf期望pandas系列作为输入而不是数据帧.对于您的情况,没有必要使用udf.剪切后列a,b,c的直接计算应该起作用:impor...

python – 如何使用pandas将浮动列嵌入【代码】

这段代码一直有效,直到我将python 2.x升级到3.x.我有一个由3列ipk1,ipk2,ipk3组成的df.ipk1,ipk2,ipk3由浮点数0 – 4.0组成,我想将它们分成字符串. 数据看起来像这样:ipk1 ipk2 ipk3 ipk4 ipk5 jk 0 3.25 3.31 3.31 3.31 3.34 P 1 3.37 3.33 3.36 3.33 3.41 P 2 3.41 3.47 3.59 3.55 3.60 P 3 3.23 3.10 3.05 2.98 2.97 L 4 3.24 3.4...

python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现【代码】

对于输入表中的每一行,我需要通过基于每月分隔日期范围来生成多行. (请参阅以下示例输出). 有一种简单的迭代方法可以逐行转换,但在大型数据帧上却非常慢. 任何人都可以建议使用矢量化方法,例如使用apply(),map()等来实现目标吗? 输出表是一个新表. 输入:ID, START_DATE, END_DATE 1, 2010-12-08, 2011-03-01 2, 2010-12-10, 2011-01-12 3, 2010-12-16, 2011-03-07输出:ID, START_DATE, END_DATE, NUMBER_DAYS, ACTION_DATE 1, 2...

python – 替换Pandas中的列之间的重复值【代码】

我有一个简单的数据帧:df = [ {'col1' : 'A', 'col2': 'B', 'col3': 'C', 'col4':'0'},{'col1' : 'M', 'col2': '0', 'col3': 'M', 'col4':'0'},{'col1' : 'B', 'col2': 'B', 'col3': '0', 'col4':'B'},{'col1' : 'X', 'col2': '0', 'col3': 'Y', 'col4':'0'}] df = pd.DataFrame(df) df = df[['col1', 'col2', 'col3', 'col4']] df 看起来像这样:| col1 | col2 | col3 | col4 | |------|------|------|------| | A ...

python – Pandas – 在DataFrame中的任何位置查找值索引【代码】

我是Python&的新手大熊猫. 我想在我的pandas数据帧中找到某个值的索引(比如说security_id),因为这是列开始的位置.(列数上方的行数不明,行数不相关,左侧有许多空“列”.) 据我所知,isin方法只返回值是否存在的布尔值,而不是索引. 如何找到该值的索引?解决方法:假设您的DataFrame如下所示:0 1 2 3 4 0 a er tfr sdf 34 1 rt tyh fgd thy rer 2 1 2...

python – Pandas:将列拆分成多行【代码】

参见英文答案 > How to unnest (explode) a column in a pandas DataFrame? 11个我有一个关于将数据帧列中的列表拆分为多行的问题. 假设我有这个数据帧:Job position Job type id 0 [6] [1] 3 1 [2, 6] [3, 6, 5] 4 2 [1] [9] 43我想要每一个数字组合,所以最终的结果是:id Job position Job type 0 3 6.0 1.0 1 4 ...

python – 获取pandas DataFrame的名称【代码】

如何获取DataFrame的名称并将其作为字符串打印? 例: boston(var名称分配给csv文件)boston = read_csv('boston.csv')print ('The winner is team A based on the %s table.) % boston解决方法:您可以使用以下命令对数据框命名,然后在任意位置调用名称:import pandas as pd df = pd.DataFrame( data=np.ones([4,4]) ) df.name = 'Ones'print df.name >>> Ones希望有所帮助.

python – 将大写应用于pandas数据帧中的列【代码】

我在将大写字母应用于DataFrame中的列时遇到了问题. 数据帧是df. 1/2 ID是需要应用UPPERCASE的列标题. 问题是这些值由三个字母和三个数字组成.例如,rrr123是其中一个值.df['1/2 ID'] = map(str.upper, df['1/2 ID'])我收到一个错误: TypeError:描述符’upper’需要’str’对象但收到’unicode’错误. 如何将大写应用于DataFrame df列中的前三个字母?解决方法:这应该工作:df['1/2 ID'] = map(lambda x: str(x).upper(), df['1/2...

python – Pandas中的数据透视表小计【代码】

我有以下数据:Employee Account Currency Amount Location Test 2 Basic USD 3000 Airport Test 2 Net USD 2000 Airport Test 1 Basic USD 4000 Town Test 1 Net USD 3000 Town Test 3 Basic GBP 5000 Town Test 3 Net GBP 4000 Town我可以通过执行以下操作来设法转动:import pandas as pd table = ...

python – 用于显示的pandas整数格式【代码】

我已经看到this和this格式化浮点数以便在pandas中显示,但我有兴趣为整数做同样的事情. 现在,我有pd.options.display.float_format = '{:,.2f}'.format这对我的数据中的浮点数很有用,但是要么会在转换为浮点数的整数上留下恼人的尾随零,要么我将使用不用逗号格式化的普通整数. 大熊猫文档提到了一个关于我无法找到任何信息的SeriesFormatter类. 或者,如果有一种方法可以编写一个单独的字符串格式化程序,它将浮点格式化为“{:,.2f}”...

python – 在Pandas中添加几个月的日期【代码】

我试图弄清楚如何在Pandas数据帧中添加3个月的日期,同时保持日期格式,以便我可以使用它来查找范围. 这就是我尝试过的:#create dataframe df = pd.DataFrame([pd.Timestamp('20161011'),pd.Timestamp('20161101') ], columns=['date'])#create a future month period plus_month_period = 3#calculate date + future period df['future_date'] = plus_month_period.astype("timedelta64[M]")但是,我收到以下错误:AttributeError: ...

python – Pandas groupby和聚合输出应包括所有原始列(包括未聚合的列)【代码】

我有以下数据框架,并希望: >按月分组记录>每个唯一UPC_ID的Sum QTY_SOLD和NET_AMT(每月)>在结果数据框中包括其余列 我认为我可以做到这一点的方式是第一:创建一个月份列来聚合D_DATES,然后通过UPC_ID对QTY_SOLD求和. 脚本:# Convert date to date time object df['D_DATE'] = pd.to_datetime(df['D_DATE'])# Create aggregated months column df['month'] = df['D_DATE'].apply(dt.date.strftime, args=('%Y.%m',))# Group by m...

如何使用null将字符串转换为datetime – python,pandas?【代码】

我有一个系列有一些日期时间(作为字符串)和一些空值为’nan’:import pandas as pd, numpy as np, datetime as dt df = pd.DataFrame({'Date':['2014-10-20 10:44:31', '2014-10-23 09:33:46', 'nan', '2014-10-01 09:38:45']})我正在尝试将这些转换为日期时间:df['Date'] = df['Date'].apply(lambda x: dt.datetime.strptime(x, '%Y-%m-%d %H:%M:%S'))但我得到错误:time data 'nan' does not match format '%Y-%m-%d %H:%M:%S'...

python – 使用pandas组合/合并2个不同的Excel文件/工作表【代码】

我试图结合2个不同的Excel文件. (感谢帖子Import multiple excel files into python pandas and concatenate them into one dataframe) 我到目前为止的工作是:import os import pandas as pddf = pd.DataFrame()for f in ['c:\\file1.xls', 'c:\\ file2.xls']:data = pd.read_excel(f, 'Sheet1')df = df.append(data)df.to_excel("c:\\all.xls")这是他们的样子. 但是我想: >排除每个文件的最后一行(即File1.xls中的row4和row5; F...