首页 / PYTHON / python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现

python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3049字，纯文字阅读大概需要5分钟。

内容图文

对于输入表中的每一行,我需要通过基于每月分隔日期范围来生成多行. (请参阅以下示例输出).

有一种简单的迭代方法可以逐行转换,但在大型数据帧上却非常慢.

任何人都可以建议使用矢量化方法,例如使用apply(),map()等来实现目标吗？

输出表是一个新表.

输入：

ID, START_DATE, END_DATE
1, 2010-12-08, 2011-03-01
2, 2010-12-10, 2011-01-12
3, 2010-12-16, 2011-03-07

输出：

ID, START_DATE, END_DATE, NUMBER_DAYS, ACTION_DATE
1, 2010-12-08, 2010-12-31, 23, 201012
1, 2010-12-08, 2011-01-31, 54, 201101
1, 2010-12-08, 2011-02-28, 82, 201102
1, 2010-12-08, 2011-03-01, 83, 201103
2, 2010-12-10, 2010-12-31, 21, 201012
2, 2010-12-10, 2011-01-12, 33, 201101
3, 2010-12-16, 2010-12-31, 15, 201012
4, 2010-12-16, 2011-01-31, 46, 201101
5, 2010-12-16, 2011-02-28, 74, 201102
6, 2010-12-16, 2011-03-07, 81, 201103

解决方法:

我想你可以用：

import pandas as pd

df = pd.DataFrame({'ID': {0: 1, 1: 2, 2: 3}, 
'END_DATE': {0: pd.Timestamp('2011-03-01 00:00:00'),
             1: pd.Timestamp('2011-01-12 00:00:00'), 
             2: pd.Timestamp('2011-03-07 00:00:00')}, 
'START_DATE': {0: pd.Timestamp('2010-12-08 00:00:00'), 
               1: pd.Timestamp('2010-12-10 00:00:00'), 
               2: pd.Timestamp('2010-12-16 00:00:00')}}, 
columns=['ID','START_DATE', 'END_DATE'])

print df
   ID START_DATE   END_DATE
0   1 2010-12-08 2011-03-01
1   2 2010-12-10 2011-01-12
2   3 2010-12-16 2011-03-07

#if multiple columns, you can filter them by subset
#df = df[['ID','START_DATE', 'END_DATE']]

#stack columns START_DATE and END_DATE
df1 = df.set_index('ID')
        .stack()
        .reset_index(level=1, drop=True)
        .to_frame()
        .rename(columns={0:'Date'})
#print df1

#resample and fill missing data 
df1 = df1.groupby(df1.index).apply(lambda x: x.set_index('Date').resample('M').asfreq())
         .reset_index()
print df1

   ID       Date
0   1 2010-12-31
1   1 2011-01-31
2   1 2011-02-28
3   1 2011-03-31
4   2 2010-12-31
5   2 2011-01-31
6   3 2010-12-31
7   3 2011-01-31
8   3 2011-02-28
9   3 2011-03-31

月份的最后一天有问题,因为重新采样添加了月的最后一天,所以首先创建期间列然后创建merge个.到combine_first,从列日期添加缺失值,并在bfill添加列START_DATE的缺失值.

df['period'] = df.END_DATE.dt.to_period('M')
df1['period'] = df1.Date.dt.to_period('M')

df2 = pd.merge(df1, df, on=['ID','period'], how='left')

df2['END_DATE'] = df2.END_DATE.combine_first(df2.Date)
df2['START_DATE'] = df2.START_DATE.bfill()
df2 = df2.drop(['Date','period'], axis=1)

最后通过与dt.days和dt.strftime的差异添加新列：

df2['NUMBER_DAYS'] = (df2.END_DATE - df2.START_DATE).dt.days
df2['ACTION_DATE'] = df2.END_DATE.dt.strftime('%Y%m')

print df2
   ID START_DATE   END_DATE  NUMBER_DAYS ACTION_DATE
0   1 2010-12-08 2010-12-31           23      201012
1   1 2010-12-08 2011-01-31           54      201101
2   1 2010-12-08 2011-02-28           82      201102
3   1 2010-12-08 2011-03-01           83      201103
4   2 2010-12-10 2010-12-31           21      201012
5   2 2010-12-10 2011-01-12           33      201101
6   3 2010-12-16 2010-12-31           15      201012
7   3 2010-12-16 2011-01-31           46      201101
8   3 2010-12-16 2011-02-28           74      201102
9   3 2010-12-16 2011-03-07           81      201103

内容总结

以上是互联网集市为您收集整理的python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现全部内容，希望文章能够帮你解决python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/706466.html

来源：【匿名】

【上一篇】python – 使用Flask / Jinja2宏的样式活动导航元素【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

Python Pandas库的学习（三）【代码】【图】

今天我们来继续讲解Python中的Pandas库的基本用法那么我们如何使用pandas对数据进行排序操作呢？food.sort_values("Sodium_(mg)",inplace= True) print(food["Sodium_(mg)"]) food.sort_values("Sodium_(mg)",inplace=True,ascending= False) print(food["Sodium_(mg)"])我们对food，进行sort_values方法，会自动帮我们排序，第一个参数"Sodium_(mg)"是我们数据中的列名意思是说，你要对哪一列数据进行排序，inplace 参数的意思是，...

【转载】python安装numpy和pandas【代码】

转载：原文地址 http://www.cnblogs.com/lxmhhy/p/6029465.html 最近要对一系列数据做同比比较，需要用到numpy和pandas来计算，不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了。首要条件，python版本必须是2.7以上。linux首先安装依赖包yum -y install blas blas-devel lapack-devel lapack yum -y install seaborn scipy yum -y install freetype freetype-devel libpng libpng-devel yum -y ins...

Python3快速入门（十五）——Pandas数据处理【代码】

Python3快速入门（十五）——Pandas数据处理一、函数应用1、函数应用简介如果要将自定义函数或其它库函数应用于Pandas对象，有三种使用方式。pipe()将函数用于表格，apply()将函数用于行或列，applymap()将函数用于元素。2、表格函数应用可以通过将函数对象和参数作为pipe函数的参数来执行自定义操作，会对整个DataFrame执行操作。# -*- coding=utf-8 -*- import pandas as pd import numpy as npdef adder(x, y):return x + yif ...

利用 Python 进行数据分析（九）pandas 汇总统计和计算【图】

pandas 对象拥有一些常用的数学和统计方法。例如，sum() 方法，进行列小计： sum() 方法传入 axis=1 指定为横向汇总，即行小计： idxmax() 获取最大值对应的索引：还有一种汇总是累计型的，cumsum()，比较它和 sum() 的区别：unique() 方法用于返回数据里的唯一值： value_counts() 方法用于统计各值出现的频率： isin() 方法用于判断成员资格：安装步骤已经在首篇随笔里写过了，这里不在赘述。利用 Python 进行数据分析（一）简...

Python Numpy,Pandas笔记【代码】

NumpyNumpy是python的一个库。支持维度数组与矩阵计算并提供大量的数学函数库。#浮点数转int arr = np.array([1.2,1.3,1.4],[1.5,1.6,1.7])#创建ndarray时候也可以指定dtype arr.astype(dtype = np.int) #对数组批量运算,作用在每个元素上 arr = np.array([1,2,3],[4,5,6]) print arr**5 #索引和切片 arr = np.array([1,2,3,4,5,6]) print arr[:2]#arr[0]和arr[1] arr = np.array([1,2,3],[4,5,6]) print arr[:2] #打印第1，2行#布...

利用Python进行数据分析-Pandas(第二部分)【代码】

上一个章节中我们主要是介绍了pandas两种数据类型的具体属性，这个章节主要介绍操作Series和DataFrame中的数据的基本手段。重新索引　　pandas对象的一个重要方法是reindex，其作用是创建一个新对象，它的数据符合新的索引：import pandas as pdobj = pd.Series([4.5, 7.2, -5.3, 3.6], index=[‘d‘, ‘b‘, ‘a‘, ‘c‘]) print(obj)d 4.5 b 7.2 a -5.3 c 3.6 dtype: float64 用该Series的reindex将会根据新索引进行...

2018.03.26 Python-Pandas 字符串常用方法【代码】

import numpy as np　　import pandas as pd 1#字符串常用方法 - strip 2 s = pd.Series([‘ jack ‘,‘jill‘,‘ jease ‘,‘feank‘])3 df = pd.DataFrame(np.random.randn(3,2),columns=[‘ Column A‘,‘ Column B‘],index=range(3))4print(s)5print(df.columns)6 7print(‘----‘)8print(s.str.lstrip().values)#去掉左边的空格 9print(s.str.rstrip().values)#去掉右边的空格10 df.columns = df.columns.str.strip() 11pri...

Python数据分析--Pandas知识点(三)【代码】【图】

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘.Python数据分析--Pandas知识点(一)Python数据分析--Pandas知识点(二)下面将是在知识点一, 二的基础上继续总结. 前面所介绍的都是以表格的形式中展现数据, 下面将介绍Pandas与Matplotlib配合绘制出折线图, 散点图, 饼图, 柱形图, 直方图等五大基本图形.Matplotlib是python中的一个2D图形库, 它能以各种硬拷贝的格式和跨平台的交互式环境生成高质量的图形, 比如...

python中安装pandas【代码】【图】

在运行网上找的代码时，报错：ImportError: No module named ‘pandas‘，解决：安装pandas安装过程：（因为网上教程有的说用pip命令行安装；有的直接下载安装包，然后复制到Python的安装目录中，就对比了一下有没有区别，发现并没有什么区别。而且pip命令行安装会把pandas需要的其他安装包自动安装，而手动安装的话，需要再一个一个安装依赖包）w+r打开命令行，直接在c:\user\admin下用pip命令安装，安装后，pandas就是在"python的...

python+matplotlib制作雷达图3例分析和pandas读取csv操作【代码】【图】

1.例一图1代码1#第1步：导出模块import numpy as np import matplotlib.pyplot as plt from matplotlib import font_manager # 中文字体设置第1步，导出模块#中文字体设置第2步：引出字体模块和位置 my_font = font_manager.FontProperties(fname="/usr/share/fonts/truetype/noto/simsun.ttf")#数据来源，单独设定，非文件来源 #dataLenth = 8 #数据个数，8组数据 #标签 labels = np.array([‘3℃‘,‘5℃‘,‘6℃‘,‘3℃‘,‘1...

Python，使用pandas保存数据为csv格式的文件【代码】

使用pandas对数据进行保存时，可以有两种形式进行保存　　一、对于数据量不是很大的文件，可以放到列表中，进行一次性存储。　　二、对于大量的数据，可以考虑一边生成，一边存储，可以避免开辟大量内存空间，去往列表中存储数据。本人才疏学浅，只懂一些表面的东西，如有错误，望请指正！下面通过代码进行说明 1import pandas as pd2 3 4class SaveCsv:5 6def__init__(self):7 self.clist = [[1,2,3], [4,5,6], [7,8,9...

Python - pandas 数据分析【代码】

pandas: powerful Python data analysis toolkit官方文档： http://pandas.pydata.org/pandas-docs/stable/ 1. 导入包pandasimport pandas as pd 2. 获取文件夹下文件名称import os filenames=[]path="C:/Users/Forrest/PycharmProjects/test" for file in os.listdir(path):filenames.append(file) 3. 读前几行文件(.csv文件)# -*- coding: utf-8 -*- ##读前几行文件 f= open("C:/Users/Forrest/PycharmProjects/test/train.csv")...

Python数据分析库pandas ------ merge、concatenation 、pd.concat合并与拼接【代码】【图】

对于合并操作，熟悉SQL的读者可以将其理解为JOIN操作，它使用一个或多个键把多行数据结合在一起.事实上，跟关系型数据库打交道的开发人员通常使用SQL的JOIN查询，用几个表共有的引用值（键）从不同的表获取数据。以这些键为基础，我们能够获取到列表形式的新数据，这些数据是对几个表中的数据进行组合得到的。pandas库中这类操作叫作合并，执行合并操作的函数为 merge(). 1import pandas as pd2import numpy as np3 4 frame1 = p...

Python数据分析(二): Pandas技巧 (2)【图】

Pandas的第一部分: http://www.cnblogs.com/cgzl/p/7681974.htmlgithub地址: https://github.com/solenovex/My-Machine-Learning-Notebook很抱歉, 因为工作繁忙, 更新的比较慢.数据的选取和索引 Pandas对数据的基本操作原文：http://www.cnblogs.com/cgzl/p/7908420.html

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现

python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 用于在pandas数据帧中从单个行创建多个行的矢量化实现】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

Python Pandas库的学习（三）【代码】【图】

【转载】python安装numpy和pandas【代码】

Python3快速入门（十五）——Pandas数据处理【代码】

利用 Python 进行数据分析（九）pandas 汇总统计和计算【图】

Python Numpy,Pandas笔记【代码】

利用Python进行数据分析-Pandas(第二部分)【代码】

2018.03.26 Python-Pandas 字符串常用方法【代码】

Python数据分析--Pandas知识点(三)【代码】【图】

python中安装pandas【代码】【图】

python+matplotlib制作雷达图3例分析和pandas读取csv操作【代码】【图】

Python，使用pandas保存数据为csv格式的文件【代码】

Python - pandas 数据分析【代码】

Python数据分析库pandas ------ merge、concatenation 、pd.concat合并与拼接【代码】【图】

Python数据分析(二): Pandas技巧 (2)【图】

PYTHON - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程