python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含3049字,纯文字阅读大概需要5分钟。
内容图文
![python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现](/upload/InfoBanner/zyjiaocheng/707/5e45cc341fa24dc08032f7f23feadae0.jpg)
对于输入表中的每一行,我需要通过基于每月分隔日期范围来生成多行. (请参阅以下示例输出).
有一种简单的迭代方法可以逐行转换,但在大型数据帧上却非常慢.
任何人都可以建议使用矢量化方法,例如使用apply(),map()等来实现目标吗?
输出表是一个新表.
输入:
ID, START_DATE, END_DATE
1, 2010-12-08, 2011-03-01
2, 2010-12-10, 2011-01-12
3, 2010-12-16, 2011-03-07
输出:
ID, START_DATE, END_DATE, NUMBER_DAYS, ACTION_DATE
1, 2010-12-08, 2010-12-31, 23, 201012
1, 2010-12-08, 2011-01-31, 54, 201101
1, 2010-12-08, 2011-02-28, 82, 201102
1, 2010-12-08, 2011-03-01, 83, 201103
2, 2010-12-10, 2010-12-31, 21, 201012
2, 2010-12-10, 2011-01-12, 33, 201101
3, 2010-12-16, 2010-12-31, 15, 201012
4, 2010-12-16, 2011-01-31, 46, 201101
5, 2010-12-16, 2011-02-28, 74, 201102
6, 2010-12-16, 2011-03-07, 81, 201103
解决方法:
我想你可以用:
import pandas as pd
df = pd.DataFrame({'ID': {0: 1, 1: 2, 2: 3},
'END_DATE': {0: pd.Timestamp('2011-03-01 00:00:00'),
1: pd.Timestamp('2011-01-12 00:00:00'),
2: pd.Timestamp('2011-03-07 00:00:00')},
'START_DATE': {0: pd.Timestamp('2010-12-08 00:00:00'),
1: pd.Timestamp('2010-12-10 00:00:00'),
2: pd.Timestamp('2010-12-16 00:00:00')}},
columns=['ID','START_DATE', 'END_DATE'])
print df
ID START_DATE END_DATE
0 1 2010-12-08 2011-03-01
1 2 2010-12-10 2011-01-12
2 3 2010-12-16 2011-03-07
#if multiple columns, you can filter them by subset
#df = df[['ID','START_DATE', 'END_DATE']]
#stack columns START_DATE and END_DATE
df1 = df.set_index('ID')
.stack()
.reset_index(level=1, drop=True)
.to_frame()
.rename(columns={0:'Date'})
#print df1
#resample and fill missing data
df1 = df1.groupby(df1.index).apply(lambda x: x.set_index('Date').resample('M').asfreq())
.reset_index()
print df1
ID Date
0 1 2010-12-31
1 1 2011-01-31
2 1 2011-02-28
3 1 2011-03-31
4 2 2010-12-31
5 2 2011-01-31
6 3 2010-12-31
7 3 2011-01-31
8 3 2011-02-28
9 3 2011-03-31
月份的最后一天有问题,因为重新采样添加了月的最后一天,所以首先创建期间列然后创建merge个.到combine_first,从列日期添加缺失值,并在bfill添加列START_DATE的缺失值.
df['period'] = df.END_DATE.dt.to_period('M')
df1['period'] = df1.Date.dt.to_period('M')
df2 = pd.merge(df1, df, on=['ID','period'], how='left')
df2['END_DATE'] = df2.END_DATE.combine_first(df2.Date)
df2['START_DATE'] = df2.START_DATE.bfill()
df2 = df2.drop(['Date','period'], axis=1)
最后通过与dt.days和dt.strftime的差异添加新列:
df2['NUMBER_DAYS'] = (df2.END_DATE - df2.START_DATE).dt.days
df2['ACTION_DATE'] = df2.END_DATE.dt.strftime('%Y%m')
print df2
ID START_DATE END_DATE NUMBER_DAYS ACTION_DATE
0 1 2010-12-08 2010-12-31 23 201012
1 1 2010-12-08 2011-01-31 54 201101
2 1 2010-12-08 2011-02-28 82 201102
3 1 2010-12-08 2011-03-01 83 201103
4 2 2010-12-10 2010-12-31 21 201012
5 2 2010-12-10 2011-01-12 33 201101
6 3 2010-12-16 2010-12-31 15 201012
7 3 2010-12-16 2011-01-31 46 201101
8 3 2010-12-16 2011-02-28 74 201102
9 3 2010-12-16 2011-03-07 81 201103
内容总结
以上是互联网集市为您收集整理的python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现全部内容,希望文章能够帮你解决python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。