首页 / PYTHON / python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量？

python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5742字，纯文字阅读大概需要9分钟。

内容图文

python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量？

我有一个数据矩阵29523行x 503 cols,其中3 cols是索引(下面是例如子集).

IDX1|  IDX2  | IDX3 | 1983 Q4   |  X  | Y |  Z  |1984 Q1 |   X  | Y | Z 
---------------------------------------------------------------------------
A   |   A1   |  Q   |   10      |  A  | F | NaN | 110    |   A  | F | NaN
A   |   A2   |  Q   |   20      |  B  | C | 40  | 120    |   B  | C | 240
A   |   A3   |  Q   |   30      |  A  | F | NaN | 130    |   A  | F | NaN
A   |   A4   |  Q   |   40      |  B  | C | 80  | 140    |   B  | C | 280
A   |   A5   |  Q   |   50      |  A  | F | NaN | 150    |   A  | F | NaN
A   |   A6   |  Q   |   60      |  B  | F | 120 | 160    |   B  | F | 320

我将其读入DataFrame,其中包含：

>>> df = pd.read_csv(C:\filename.csv, low_memory=False, mangle_dupe_cols=False)

然后使用pandas.melt()来旋转数据：

df1 = pd.melt(df, id_vars=['IDX1', 'IDX2', 'IDX3'], var_name='ValueType',
              value_name = 'Value')

我也尝试过stack()但是这里说得更好().

IDX1    |   IDX2    |   IDX3    |   ValueType   |   Value
---------------------------------------------------------------
A       |   A1      |   Q       |   1983 Q4     |   10
A       |   A1      |   Q       |   X           |   A
A       |   A1      |   Q       |   Y           |   F
A       |   A1      |   Q       |   Z           |   NaN
A       |   A1      |   Q       |   1984 Q1     |   110
A       |   A1      |   Q       |   X           |   A
A       |   A1      |   Q       |   Y           |   F
A       |   A1      |   Q       |   Z           |   NaN
A       |   A2      |   Q       |   1983 Q4     |   20
A       |   A2      |   Q       |   X           |   B
A       |   A2      |   Q       |   Y           |   C
A       |   A2      |   Q       |   Z           |   40

read_csv上的选项mangle_dupe_cols如果为True,则会对所有重复的ValueType放置.int后缀.这并不理想,但如果没有它,就无法将变量的值链接到正确的时间段.

我更愿意做的是将Period(1984 Q1)作为ValueType,给Periods对应的Value赋一个变量’W’,并让每个句点构成IDX的一部分,如下所示：

IDX1    |   IDX2    |   IDX3 | IDX4    |    ValueType   |   Value
---------------------------------------------------------------
A       |   A1      |   Q    |  1983 Q4|    W           |   10
A       |   A1      |   Q    |  1983 Q4|    X           |   A
A       |   A1      |   Q    |  1983 Q4|    Y           |   F
A       |   A1      |   Q    |  1983 Q4|    Z           |   NaN
A       |   A1      |   Q    |  1984 Q1|    W           |   110
A       |   A1      |   Q    |  1984 Q1|    X           |   A
A       |   A1      |   Q    |  1984 Q1|    Y           |   F
A       |   A1      |   Q    |  1984 Q1|    Z           |   NaN
A       |   A2      |   Q    |  1983 Q4|    W           |   20
A       |   A2      |   Q    |  1983 Q4|    X           |   B
A       |   A2      |   Q    |  1983 Q4|    Y           |   C
A       |   A2      |   Q    |  1983 Q4|    Z           |   40

以上是否可能与熊猫或numpy？

我的最终DataFrame将是14,761,500行x 6 cols.

解决方法:

特定

In [189]: df
Out[189]: 
  IDX1 IDX2 IDX3  1983 Q4  X  Y    Z  1984 Q1 X.1 Y.1  Z.1
0    A   A1    Q       10  A  F  NaN      110   A   F  NaN
1    A   A2    Q       20  B  C   40      120   B   C  240
2    A   A3    Q       30  A  F  NaN      130   A   F  NaN
3    A   A4    Q       40  B  C   80      140   B   C  280
4    A   A5    Q       50  A  F  NaN      150   A   F  NaN
5    A   A6    Q       60  B  F  120      160   B   F  320

我们先设置[‘IDX1′,’IDX2′,’IDX3’]作为索引.

df = df.set_index(['IDX1', 'IDX2', 'IDX3'])

其他列具有周期性质量;我们想要每4个处理一次
列作为一个组.这种“作为一个群体处理”的想法自然会导致
为列索引分配新的索引级别;一些值是相同的
每4列.这将是理想的：

               1983 Q4            1984 Q1           
                     W  X  Y    Z       W  X  Y    Z
IDX1 IDX2 IDX3                                      
A    A1   Q         10  A  F  NaN     110  A  F  NaN
     A2   Q         20  B  C  240     120  B  C  240
     A3   Q         30  A  F  NaN     130  A  F  NaN
     A4   Q         40  B  C  280     140  B  C  280
     A5   Q         50  A  F  NaN     150  A  F  NaN
     A6   Q         60  B  F  320     160  B  F  320

我们可以通过构建MultiIndex并将其分配给df.columns来实现：

columns = [col for col in df.columns if col[0] not in set(list('XYZ'))]
df.columns = pd.MultiIndex.from_product([columns, list('WXYZ')])

现在可以通过调用df.stack来获得所需的长格式DataFrame
将列级别移动到行索引中：

df.columns.names = ['IDX4', 'ValueType']
series = df.stack(['IDX4', 'ValueType'], dropna=False)

另请注意,当mangle_dupe_cols = False时,重复列X,Y,
Z,被覆盖.所以你使用mangle_dupe_cols = False丢失了数据.对于
例如,当你使用mangle_dupe_cols = False时,最后一行的Z值得到
无论周期如何,都会分配给每个Z列.

所以我们必须使用mangle_dupe_cols = True,(或者只是将它留出来,因为那是
默认)并相应地调整代码.幸运的是,这并不难
因为我们无论如何都要将df.columns重新分配给自定义构建的MultiIndex.

把它们放在一起：

import numpy as np
import pandas as pd
df = pd.read_table('data', sep=r'\s*[|]\s*')
df = df.set_index(['IDX1', 'IDX2', 'IDX3'])
columns = [col for col in df.columns if col[0] not in set(list('XYZ'))]
df.columns = pd.MultiIndex.from_product([columns, list('WXYZ')])
df.columns.names = ['IDX4', 'ValueType']
series = df.stack(['IDX4', 'ValueType'], dropna=False)
print(series.head())

产量

IDX1  IDX2  IDX3  IDX4     ValueType
A     A1    Q     1983 Q4  W             10
                           X              A
                           Y              F
                           Z            NaN
                  1984 Q1  W            110
dtype: object

请注意,由于我们删除了所有列级别,因此结果是一个系列.
如果您想要一个包含6列的DataFrame,那么我们应该跟进：

series.name = 'Value'
df = series.reset_index()
print(df.head())

产量

  IDX1 IDX2 IDX3     IDX4 ValueType Value
0    A   A1    Q  1983 Q4         W    10
1    A   A1    Q  1983 Q4         X     A
2    A   A1    Q  1983 Q4         Y     F
3    A   A1    Q  1983 Q4         Z   NaN
4    A   A1    Q  1984 Q1         W   110
...

内容总结

以上是互联网集市为您收集整理的python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量？全部内容，希望文章能够帮你解决python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/778856.html

来源：【匿名】

【上一篇】python – msg：ConnectionError(ProtocolError(‘Connection aborted.’,error(2,’No such file or director 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量？】教程文章相关的互联网学习教程文章

<Python>判断变量是否是DataFrame 或者 Series【代码】

https://stackoverflow.com/questions/14808945/check-if-variable-is-dataframe Use the built-in isinstance() function.1import pandas as pd 23def f(var): 4if isinstance(var, pd.DataFrame): 5print"do stuff" 判断变量是否是DataFrame 或者 Series' ref='nofollow'>判断变量是否是DataFrame 或者 Series原文：https://www.cnblogs.com/focus-z/p/10134539.html

Python 学习第十三篇：数据的读写-文件、DataFrame、json和pymssql【代码】

Python的文件是一个重要的对象，使用open()函数来打开文件，创建文件对象，进行文件的读写操作。当数据用于交换信息时，通常需要把数据保存为有格式的文本数据，可以保存为有特定的行分隔符和列分隔符的数据，这可以使用pandas模块中的函数来读写；也可以保存为json结构的数据，这可以使用json模块中的函数来实现；对于大型的数据交互，通常使用数据库。一，Python的open函数open()函数用于打开文件，创建文件对象：open(name, mod...

python数据分析之pandas库的DataFrame应用【代码】【图】

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔型）。DateFrame既有行索引也有列索引，可以被看作为由Series组成的字典。构建DataFrame：1.1、直接传入一个由等长列表或numpy数组组成的字典‘‘‘ Created on 2016-8-10 @author: xuzhengzhu ‘‘‘from pandas import *data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,20...

python 修改dataframe的列名【代码】

1. 修改全部列名 df.columnsbase_data_model.columns = [u‘有效率‘,u‘提交率‘,u‘参与度‘,u‘回放占比‘,u‘主好评率‘,u‘辅好评率‘,u‘是否付费‘] 2. 修改指定列名 df.renamedf.rename(columns={‘a‘:‘A‘}) #把原来的 a 命名为 A 原文：https://www.cnblogs.com/skyEva/p/9672777.html

python—dataframe用法【代码】

#行处理#df.iloc[1] 行索引号——获取行#df.iloc[0,1] 行列索引号——获取一个元素#df.iloc[[0,1]] 双括号默认都是行索引号——获取n行#df.iloc[0:2,1:3] 行列索引号——获取区域元素#df.loc["A"] 行名称——获取行#df.loc["A","c1"] 行列名称——获取一个元素#df.loc[["A","B"]] 双括号默认都是行名称号——获取n行#df.loc["A":"B","c1":"c2"] 行列名称——获取区域元素#列处理#df["c2"] 列名称——获取列#df[[...

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。3、pandas的主要功能　　--具备对其功能的数据结构DataFrame、Series 　　--集成时间序列功能　　--提供丰富的数学运算和操作　　--灵活处理缺失数据4、安装方法：pip install pandas5、引用方法：import pandas as pd二、Series Series是一种类似于一位数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。创建方式：...

Python中从SQL型数据库读写dataframe型数据【代码】

Python的pandas包对表格化的数据处理能力很强，而SQL数据库的数据就是以表格的形式储存，因此经常将sql数据库里的数据直接读取为dataframe，分析操作以后再将dataframe存到sql数据库中。而pandas中的read_sql和to_sql函数就可以很方便得从sql数据库中读写数据。read_sql参见pandas.read_sql的文档，read_sql主要有如下几个参数：sql:SQL命令字符串con：连接sql数据库的engine，一般可以用SQLalchemy或者pymysql之类的包建立index_c...

Python介绍嵌套 JSON 秒变 Dataframe！【代码】【图】

Python教程栏目介绍如何嵌套JSON推荐（免费）：Python教程调用API和文档数据库会返回嵌套的JSON对象，当我们使用Python尝试将嵌套结构中的键转换为列时，数据加载到pandas中往往会得到如下结果：df = pd.DataFrame.from_records（results [“ issues”]，columns = [“ key”，“ fields”]）说明：这里results是一个大的字典，issues是results其中的一个键，issues的值为一个嵌套JSON对象字典的列表，后面会看到JSON嵌套结构。问题...

pandas技巧之详解DataFrame中的apply与applymap方法【图】

相关学习推荐：python视频教程今天是pandas数据处理专题的第5篇文章，我们来聊聊pandas的一些高级运算。在上一篇文章当中，我们介绍了panads的一些计算方法，比如两个dataframe的四则运算，以及dataframe填充Null的方法。今天这篇文章我们来聊聊dataframe中的广播机制，以及apply函数的使用方法。 dataframe广播广播机制我们其实并不陌生，我们在之前介绍numpy的专题文章当中曾经介绍过广播。当我们对两个尺寸不一致的数组进行运...

pandas技巧之 DataFrame中的排序与汇总方法【图】

相关学习推荐：python教程今天是pandas数据处理专题的第六篇文章，我们来聊聊DataFrame的排序与汇总运算。在上一篇文章当中我们主要介绍了DataFrame当中的apply方法，如何在一个DataFrame对每一行或者是每一列进行广播运算，使得我们可以在很短的时间内处理整份数据。今天我们来聊聊如何对一个DataFrame根据我们的需要进行排序以及一些汇总运算的使用方法。排序排序是我们一个非常基本的需求，在pandas当中将这个需求进一步细分，...

pandas妙招之在DataFrame中通过索引高效获取数据【代码】【图】

相关学习推荐：python教程今天是pandas数据处理专题的第三篇文章，我们一起来聊聊DataFrame中的索引。上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法，比如iloc、loc以及逻辑索引等等。今天的文章我们来看看DataFrame的一些基本运算。数据对齐我们可以计算两个DataFrame的加和，pandas会自动将这两个DataFrame进行数据对齐，如果对不上的数据会被置为Nan（not a number）。首先我们来创建两个DataFrame：...

pandas妙招之 DataFrame基础运算以及空值填充【代码】【图】

相关学习推荐：python教程今天是pandas数据处理专题的第四篇文章，我们一起来聊聊DataFrame中的索引。上一篇文章当中我们介绍了DataFrame数据结构当中一些常用的索引的使用方法，比如iloc、loc以及逻辑索引等等。今天的文章我们来看看DataFrame的一些基本运算。数据对齐我们可以计算两个DataFrame的加和，pandas会自动将这两个DataFrame进行数据对齐，如果对不上的数据会被置为Nan（not a number）。首先我们来创建两个DataFrame：...

使用pandas进行数据处理之 DataFrame篇【图】

相关学习推荐：python教程这是pandas数据处理专题的第二篇文章，我们一起来聊聊pandas当中最重要的数据结构——DataFrame。上一篇文章当中我们介绍了Series的用法，也提到了Series相当于一个一维的数组，只是pandas为我们封装了许多方便好用的api。而DataFrame可以简单了理解成Series构成的dict，这样就将数据拼接成了二维的表格。并且为我们提供了许多表级别数据处理以及批量数据处理的接口，大大降低了数据处理的难度。创建DataF...

pandas.DataFrame中pivot()如何实现行转列的问题（代码）【图】

本篇文章给大家带来的内容是关于pandas.DataFrame中pivot()如何实现行转列的问题（代码），有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。示例：有如下表需要进行行转列：代码如下：# -*- coding:utf-8 -*- import pandas as pd import MySQLdb from warnings import filterwarnings # 由于create table if not exists总会抛出warning，因此使用filterwarnings消除 filterwarnings(ignore, category = MySQLdb.W...

python读取文本中数据并转化为DataFrame的实例_python【图】

这篇文章给大家分享的是python读取文本中数据并转化为DataFrame的实例，具有一定的参考价值，希望可以帮助到有需要的人在技术问答中看到一个这样的问题，感觉相对比较常见，就单开一篇文章写下来。从纯文本格式文件 “file_in”中读取数据，格式如下：需要输出成“file_out”，格式如下：数据的原格式是“类别：内容”，以空行“\n”为分条目，转换后变成一个条目一行，按照类别顺序依次写出内容。建议读取后，使用pandas，把数据建...

首页 / PYTHON / python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量？

python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量？

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 如何使用melt()将pandas DataFrame重新整形为列表,从交叉表列创建索引并在其位置创建新变量？】教程文章相关的互联网学习教程文章

<Python>判断变量是否是DataFrame 或者 Series【代码】

Python 学习第十三篇：数据的读写-文件、DataFrame、json和pymssql【代码】

python数据分析之pandas库的DataFrame应用【代码】【图】

python 修改dataframe的列名【代码】

python—dataframe用法【代码】

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

Python中从SQL型数据库读写dataframe型数据【代码】

Python介绍嵌套 JSON 秒变 Dataframe！【代码】【图】

pandas技巧之详解DataFrame中的apply与applymap方法【图】

pandas技巧之 DataFrame中的排序与汇总方法【图】

pandas妙招之在DataFrame中通过索引高效获取数据【代码】【图】

pandas妙招之 DataFrame基础运算以及空值填充【代码】【图】

使用pandas进行数据处理之 DataFrame篇【图】

pandas.DataFrame中pivot()如何实现行转列的问题（代码）【图】

python读取文本中数据并转化为DataFrame的实例_python【图】

PYTHON - 相关标签

变量 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程