首页 / PYTHON / python – Pandas中数组的多索引,具有非唯一数据

python – Pandas中数组的多索引,具有非唯一数据

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – Pandas中数组的多索引,具有非唯一数据，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3704字，纯文字阅读大概需要6分钟。

内容图文

我有以下数据框架

In[45]: data[:10]  
Out[45]:
   Z    A    beta2    M      shell
0  100  200  0.3112   197.2 -4.213
1  100  200 -0.4197   202   -1.143
2  100  200  0.03205  203    0    
3  100  201  0.2967   191   -4.434
4  100  201 -0.4893   196.1 -4.691
5  100  202  0.3084   183.4 -4.134
6  100  202 -0.4873   188.2 -4.75 
7  100  202 -0.2483   188.4 -1.106
8  100  203  0.3069   177.1 -4.355
9  101  203 -0.4956   182.5 -5.217

我的问题是,我如何以这样的方式对数据进行分组/转换：我有一个带有(Z,A)的MultiIndex作为索引(或MultiIndexes),考虑到数据不是唯一的？为了明确我的目标,这是我期望实现的目标：

             beta2[1] beta2[2]  beta2[3]   M[1]   M[2]   M[3]   shell[1]   shell[2]  shell[3]
   Z    A 
0  100  200  0.3112   -0.4197   0.03205    197.2  202    203    -4.213     -1.143    0
1  100  201  0.2967   0.4893    NaN        191    196.1  NaN    -4.434     -4.691    NaN
2  100  202  0.3084   -0.4873   NaN        183.4  188.2  NaN    -4.134     -4.75     NaN
3  100  203  0.3069   NaN       NaN        177.1  NaN    NaN    -4.355     NaN       NaN 
4  101  203  -0.4956  NaN       NaN        182.5  NaN    NaN    -5.217     NaN       NaN

据我所知,这涉及至少两个步骤,一个用于唯一性,另一个用于Z,A中的索引,因此对其中一个步骤中的任何帮助都表示赞赏,还有一些数据结构可能更适合这个问题吗？

编辑：我发现了这一行：

data=data.set_index((‘Z’,’A’))

解决了Z,A中索引的问题.不幸的是,只有当(Z,A)对是唯一的时,这才有效.

解决方法:

我有一个未解决的问题来解决这些问题：

https://github.com/pydata/pandas/issues/388

这是一个解决方案.首先是一个简单(而且效率不高)的函数来获取组序数：

def group_position(*args):
    """
    Get group position
    """
    from collections import defaultdict
    table = defaultdict(int)

    result = []
    for tup in zip(*args):
        result.append(table[tup])
        table[tup] += 1

    return np.array(result)

即

In [49]: group_position(df['Z'], df['A'])
Out[49]: array([0, 1, 2, 0, 1, 0, 1, 2, 0, 0])

现在使用它作为辅助索引变量并取消堆栈：

In [52]: df
Out[52]: 
     Z    A    beta2      M  shell
0  100  200  0.31120  197.2 -4.213
1  100  200 -0.41970  202.0 -1.143
2  100  200  0.03205  203.0  0.000
3  100  201  0.29670  191.0 -4.434
4  100  201 -0.48930  196.1 -4.691
5  100  202  0.30840  183.4 -4.134
6  100  202 -0.48730  188.2 -4.750
7  100  202 -0.24830  188.4 -1.106
8  100  203  0.30690  177.1 -4.355
9  101  203 -0.49560  182.5 -5.217

In [53]: df['pos'] = group_position(df['Z'], df['A'])

In [54]: df.set_index(['Z', 'A', 'pos']).unstack('pos')
Out[54]: 
          beta2                       M                shell              
pos           0       1        2      0      1      2      0      1      2
Z   A                                                                     
100 200  0.3112 -0.4197  0.03205  197.2  202.0  203.0 -4.213 -1.143  0.000
    201  0.2967 -0.4893      NaN  191.0  196.1    NaN -4.434 -4.691    NaN
    202  0.3084 -0.4873 -0.24830  183.4  188.2  188.4 -4.134 -4.750 -1.106
    203  0.3069     NaN      NaN  177.1    NaN    NaN -4.355    NaN    NaN
101 203 -0.4956     NaN      NaN  182.5    NaN    NaN -5.217    NaN    NaN

最后调整得到它完全像你所示：

In [61]: result = df.set_index(['Z', 'A', 'pos']).unstack('pos')

In [62]: result.rename(columns=lambda x: '%s[%d]' % (x[0], x[1]+1)).reset_index()
Out[62]: 
     Z    A  beta2[1]  beta2[2]  beta2[3]   M[1]   M[2]   M[3]  shell[1]  shell[2]  shell[3]
0  100  200    0.3112   -0.4197   0.03205  197.2  202.0  203.0    -4.213    -1.143     0.000
1  100  201    0.2967   -0.4893       NaN  191.0  196.1    NaN    -4.434    -4.691       NaN
2  100  202    0.3084   -0.4873  -0.24830  183.4  188.2  188.4    -4.134    -4.750    -1.106
3  100  203    0.3069       NaN       NaN  177.1    NaN    NaN    -4.355       NaN       NaN
4  101  203   -0.4956       NaN       NaN  182.5    NaN    NaN    -5.217       NaN       NaN

内容总结

以上是互联网集市为您收集整理的python – Pandas中数组的多索引,具有非唯一数据全部内容，希望文章能够帮你解决python – Pandas中数组的多索引,具有非唯一数据所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/814760.html

来源：【匿名】

【上一篇】python – GAE：点击“Exceeded soft private memory limit”后执行是否继续？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – Pandas中数组的多索引,具有非唯一数据】教程文章相关的互联网学习教程文章

Python——pandas数据处理（python programming）【图】

原文：https://www.cnblogs.com/caiyishuai/p/10685128.html

用Python的pandas框架操作Excel文件中的数据教程【代码】

引言本文的目的，是向您展示如何使用pandas 来执行一些常见的Excel任务。有些例子比较琐碎，但我觉得展示这些简单的东西与那些你可以在其他地方找到的复杂功能同等重要。作为额外的福利，我将会进行一些模糊字符串匹配，以此来展示一些小花样，以及展示pandas是如何利用完整的Python模块系统去做一些在Python中是简单，但在Excel中却很复杂的事情的。有道理吧？让我们开始吧。为某行添加求和项我要介绍的第一项任务是把某几列相加...

Python pandas Date【代码】【图】

Pandas主要有4中与时间相关的类型。Timestamp, Period, DatetimeIndex,PeriodIndex.import pandas as pd import numpy as np # #Timestamp pd.Timestamp(‘9/1/2016 10:05AM‘) #output: Timestamp(‘2016-09-01 10:05:00‘) # #Period pd.Period(‘1/2016‘) #output: Period(‘2016-01‘, ‘M‘) pd.Period(‘3/5/2016‘) #output: Period(‘2016-03-05‘, ‘D‘) # #DatetimeIndex t1 = pd.Series(list(‘abc‘), [pd.Timestamp...

Python 2.7_pandas连接MySQL数据处理_20161229【代码】【图】

在我本地Mysql_local_db数据库建立了一个pandas数据表用来对pandas模块的学习1、创建表CREATE TABLE pandastest( 城市 VARCHAR(255), 用户ID INT(19), 订单日期 DATE, 金额 DECIMAL(19,4), 金额区间 VARCHAR(255), 订单数 INT(19), 上次订单日期 DATE, 距上次订单天数 INT(19), 上次金额 DECIMAL(19,4), 距上次订单间隔区间 VARCHAR(255), 品类数 INT(19), KEY city (城市), KEY res_id(用户ID) )ENGINE=INNODB DEFAULT CHARSET=ut...

python pandas stack和unstack函数【代码】【图】

在用pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即“不要堆叠”，我对两个函数是这样理解和区分的。　　常见的数据的层次化结构有两种，一种是表格，一种是“花括号”，即下面这样的l两种形式： store1store2store3street1123street2456 　　表格在行列方向上均有索引（类似于DataFrame），花括号结构只有“列方向”上的索引（类似于层次化的Seri...

python 计算均值、方差、标准差 Numpy，Pandas【代码】

Python 中的 numpy 包和 pandas 包都能够计算均值、方差等，本文总结一下它们的用法。1. Numpy 计算均值、方差、标准差一般的均值可以用 numpy 中的 mean 方法求得：>>> import numpy as np >>> a = [5, 6, 16, 9] >>> np.mean(a) 9.0numpy 中的 average 方法不仅能求得简单平均数，也可以求出加权平均数。average 里面可以跟一个 weights 参数，里面是一个权数的数组，例如：>>> np.average(a) >>> 9.0 >>> np.average(a, weight...

python学习-使用pandas 按照行数分割表格【代码】【图】

问题一张excel表格，大概1万行，需要录入系统系统每次最多只能录入500行表格数据，一旦超过500行，就会录入失败需要把1万行的数据按照500行分割，形成20个表格，这样才能录入系统思路使用pandas得到总行数，比如10002行，分割表格的时候，要保留一行表头第一张表，是1-500行，第二张表是 501-1000，以此类推最后一张表应该是1000-10002行，生成的表格数量是10000/500+1,21张生成的表格按照顺序保存到一个目录中写一个函数，可以按照...

python学习笔记（四）：pandas基础【代码】

pandas 基础seriseimport pandas as pd from pandas import Series, DataFrame obj = Series([4, -7, 5, 3]) obj0 4 1 -7 2 5 3 3 dtype: int64obj.valuesarray([ 4, -7, 5, 3], dtype=int64)obj.indexRangeIndex(start=0, stop=4, step=1)obj[[1,3]] # 跳着选取数据1 -7 3 3 dtype: int64obj[1:3]1 -7 2 5 dtype: int64pd.isnull(obj)0 False 1 False 2 False 3 False dtype: boolreindex可以...

python数据分析之pandas库的DataFrame应用【代码】【图】

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔型）。DateFrame既有行索引也有列索引，可以被看作为由Series组成的字典。构建DataFrame：1.1、直接传入一个由等长列表或numpy数组组成的字典‘‘‘ Created on 2016-8-10 @author: xuzhengzhu ‘‘‘from pandas import *data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,20...

python_执行报错_No module named 'pandas'【图】

程序中代码如下：报错：根据链接（ http://www.pianshen.com/article/6871295514/ ）中指导，解决过程如下：File --> Settings --> Project （ Project Interpreter ） --> 点击其中加号 --> 搜索 pandas ，然后点击安装。 '' ref='nofollow'>python_执行报错_No module named 'pandas'原文：https://www.cnblogs.com/lyj0123/p/11773733.html

python—pandas读取excel与写入excel【代码】

import pandas as pdimport openpyxl#将excel数据读取，输出格式为dataframe格式path = r‘/Users/**/PycharmProjects/class/pyclass1/others/file/学生信息表.xlsx‘#sheet_name可填写1）excel中表单序号从0开始2）表单名data = pd.read_excel(path,sheet_name=‘基础信息‘)#data.head()print(data)#将dataframe格式数据写入excel表path=r‘/Users/**/PycharmProjects/class/pyclass1/others/file/学生信息表2.xlsx‘data.to_exc...

Python数据分析与机器学习-Pandas_1【代码】

import pandas food_info = pandas.read_csv("food_info.csv") print(type(food_info)) print (food_info.dtypes)<class 'pandas.core.frame.DataFrame'> NDB_No int64 Shrt_Desc object Water_(g) float64 Energ_Kcal int64 Protein_(g) float64 Lipid_Tot_(g) float64 Ash_(g) float64 Carbohydrt_(g) float64 Fiber_TD_(g) float64 Sugar_Tot_(g)...

Python 使用Pandas读取Excel的学习笔记【代码】【图】

这里介绍Python中使用Pandas读取Excel的方法一、软件环境： OS：Win7 64位 Python 3.7二、文件准备 1、项目结构： 2、在当前实验文件夹下建立一个Source文件夹，里面放待读取的Excel文件 3、待读取的Excel文件名：Book1.xlsx，Sheet Name:Sheet1 内容示例：三、代码参考代码中已进行了注释说明，这里就不重复说明了。1、第一行作为列名处理，数据的第1行实际是从Excel的第2行开始，数据的最大行数...

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。3、pandas的主要功能　　--具备对其功能的数据结构DataFrame、Series 　　--集成时间序列功能　　--提供丰富的数学运算和操作　　--灵活处理缺失数据4、安装方法：pip install pandas5、引用方法：import pandas as pd二、Series Series是一种类似于一位数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。创建方式：...

小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择【代码】

人生苦短，我用 Python前文传送门：小白学 Python 数据分析（1）：数据分析基础小白学 Python 数据分析（2）：Pandas （一）概述小白学 Python 数据分析（3）：Pandas （二）数据结构 Series小白学 Python 数据分析（4）：Pandas （三）数据结构 DataFrame小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据引言上一篇文章我们介绍如何在 Pandas 一些基础的查看数据的操作，但是官方更推荐我们使用 .at、.iat、.loc...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – Pandas中数组的多索引,具有非唯一数据

python – Pandas中数组的多索引,具有非唯一数据

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – Pandas中数组的多索引,具有非唯一数据】教程文章相关的互联网学习教程文章

Python——pandas数据处理（python programming）【图】

用Python的pandas框架操作Excel文件中的数据教程【代码】

Python pandas Date【代码】【图】

Python 2.7_pandas连接MySQL数据处理_20161229【代码】【图】

python pandas stack和unstack函数【代码】【图】

python 计算均值、方差、标准差 Numpy，Pandas【代码】

python学习-使用pandas 按照行数分割表格【代码】【图】

python学习笔记（四）：pandas基础【代码】

python数据分析之pandas库的DataFrame应用【代码】【图】

python_执行报错_No module named 'pandas'【图】

python—pandas读取excel与写入excel【代码】

Python数据分析与机器学习-Pandas_1【代码】

Python 使用Pandas读取Excel的学习笔记【代码】【图】

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择【代码】

PYTHON - 相关标签

数据 - 相关标签

数组 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程