首页 / PYTHON / 根据多行在python中修改pandas数据框

根据多行在python中修改pandas数据框

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了根据多行在python中修改pandas数据框，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5950字，纯文字阅读大概需要9分钟。

内容图文

我正在Pandas / Python中使用DataFrame,每一行都有一个ID(不是唯一的),我想修改数据框,为具有多个匹配ID的每一行添加一个具有第二名称的列.

Starting with:

   ID Name  Rate
0   1    A  65.5
1   2    B  67.3
2   2    C  78.8
3   3    D  65.0
4   4    E  45.3
5   5    F  52.0
6   5    G  66.0
7   6    H  34.0
8   7    I   2.0

Trying to get to:

   ID Name  Rate Secondname
0   1    A  65.5       None
1   2    B  67.3       C
2   2    C  78.8       B
3   3    D  65.0       None
4   4    E  45.3       None
5   5    F  52.0       G
6   5    G  66.0       F
7   6    H  34.0       None
8   7    I   2.0       None

我的代码：

import numpy as np
import pandas as pd


mydict = {'ID':[1,2,2,3,4,5,5,6,7],
             'Name':['A','B','C','D','E','F','G','H','I'],
             'Rate':[65.5,67.3,78.8,65,45.3,52,66,34,2]}

df=pd.DataFrame(mydict)

df['Newname']='None'

for i in range(0, df.shape[0]-1):
    if df.irow(i)['ID']==df.irow(i+1)['ID']:       
        df.irow(i)['Newname']=df.irow(i+1)['Name']

导致以下错误：

A value is trying to be set on a copy of a slice from a DataFrame

See the the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
df.irow(i)['Newname']=df.irow(i+1)['Secondname']
C:\Users\L\Anaconda3\lib\site-packages\pandas\core\series.py:664:     SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the the caveats in the documentation: http://pandas.pydata.org/pandas- docs/stable/indexing.html#indexing-view-versus-copy
self.loc[key] = value

任何帮助将非常感激.

解决方法:

可以将groupby与自定义函数f一起使用,该函数使用shift和combine_first：

def f(x):
    #print x
    x['Secondname'] = x['Name'].shift(1).combine_first(x['Name'].shift(-1))
    return x

print df.groupby('ID').apply(f)
   ID Name  Rate Secondname
0   1    A  65.5        NaN
1   2    B  67.3          C
2   2    C  78.8          B
3   3    D  65.0        NaN
4   4    E  45.3        NaN
5   5    F  52.0          G
6   5    G  66.0          F
7   6    H  34.0        NaN
8   7    I   2.0        NaN

您可以避免groupby并找到duplicated,然后在loc的帮助器列中填充名称列,然后在shift和combine_first以及最后的drop辅助器列中填充：

print df.duplicated('ID', keep='first')
0    False
1    False
2     True
3    False
4    False
5    False
6     True
7    False
8    False
dtype: bool   
print df.duplicated('ID', keep='last')
0    False
1     True
2    False
3    False
4    False
5     True
6    False
7    False
8    False
dtype: bool  
df.loc[ df.duplicated('ID', keep='first'), 'first'] = df['Name']
df.loc[ df.duplicated('ID', keep='last'), 'last'] = df['Name']
print df
   ID Name  Rate   first   last
0   1    A  65.5  NaN  NaN
1   2    B  67.3  NaN    B
2   2    C  78.8    C  NaN
3   3    D  65.0  NaN  NaN
4   4    E  45.3  NaN  NaN
5   5    F  52.0  NaN    F
6   5    G  66.0    G  NaN
7   6    H  34.0  NaN  NaN
8   7    I   2.0  NaN  NaN

df['SecondName'] = df['first'].shift(-1).combine_first(df['last'].shift(1))
df = df.drop(['first', 'l1'], axis=1)

print df
   ID Name  Rate SecondName
0   1    A  65.5        NaN
1   2    B  67.3          C
2   2    C  78.8          B
3   3    D  65.0        NaN
4   4    E  45.3        NaN
5   5    F  52.0          G
6   5    G  66.0          F
7   6    H  34.0        NaN
8   7    I   2.0        NaN

测试：(在Roman Kh的测试解决方案中有错误的输出)

len(df)= 9：

In [154]: %timeit jez(df1)
100 loops, best of 3: 15 ms per loop

In [155]: %timeit jez2(df2)
100 loops, best of 3: 3.45 ms per loop

In [156]: %timeit rom(df)
100 loops, best of 3: 3.55 ms per loop

len(df)= 90k：

In [158]: %timeit jez(df1)
10 loops, best of 3: 57.1 ms per loop

In [159]: %timeit jez2(df2)
10 loops, best of 3: 36.4 ms per loop

In [160]: %timeit rom(df)
10 loops, best of 3: 40.4 ms per loop

import pandas as pd

mydict = {'ID':[1,2,2,3,4,5,5,6,7],
             'Name':['A','B','C','D','E','F','G','H','I'],
             'Rate':[65.5,67.3,78.8,65,45.3,52,66,34,2]}

df=pd.DataFrame(mydict)
print df


df =  pd.concat([df]*10000).reset_index(drop=True)

df1 = df.copy()
df2 = df.copy()

def jez(df):
    def f(x):
        #print x
        x['Secondname'] = x['Name'].shift(1).combine_first(x['Name'].shift(-1))
        return x

    return df.groupby('ID').apply(f)


def jez2(df): 
    #print df.duplicated('ID', keep='first')
    #print df.duplicated('ID', keep='last')
    df.loc[ df.duplicated('ID', keep='first'), 'first'] = df['Name']
    df.loc[ df.duplicated('ID', keep='last'), 'last'] = df['Name']
    #print df

    df['SecondName'] = df['first'].shift(-1).combine_first(df['last'].shift(1))
    df = df.drop(['first', 'last'], axis=1)
    return df



def rom(df):

    # cpIDs = True if the next row has the same ID
    df['cpIDs'] = df['ID'][:-1] == df['ID'][1:]
    # fill in the last row (get rid of NaN)
    df.iloc[-1,df.columns.get_loc('cpIDs')] = False
    # ShiftName == Name of the next row
    df['ShiftName'] = df['Name'].shift(-1)
    # fill in SecondName
    df.loc[df['cpIDs'], 'SecondName'] = df.loc[df['cpIDs'], 'ShiftName']
    # remove columns
    del df['cpIDs']
    del df['ShiftName']
    return df


print jez(df1)  
print jez2(df2)
print rom(df)

print jez(df1)  
   ID Name  Rate Secondname
0   1    A  65.5        NaN
1   2    B  67.3          C
2   2    C  78.8          B
3   3    D  65.0        NaN
4   4    E  45.3        NaN
5   5    F  52.0          G
6   5    G  66.0          F
7   6    H  34.0        NaN
8   7    I   2.0        NaN
print jez2(df2)
   ID Name  Rate SecondName
0   1    A  65.5        NaN
1   2    B  67.3          C
2   2    C  78.8          B
3   3    D  65.0        NaN
4   4    E  45.3        NaN
5   5    F  52.0          G
6   5    G  66.0          F
7   6    H  34.0        NaN
8   7    I   2.0        NaN
print rom(df) 
   ID Name  Rate SecondName
0   1    A  65.5        NaN
1   2    B  67.3          C
2   2    C  78.8        NaN
3   3    D  65.0        NaN
4   4    E  45.3        NaN
5   5    F  52.0          G
6   5    G  66.0        NaN
7   6    H  34.0        NaN
8   7    I   2.0        NaN

编辑：

如果存在更多具有相同名称的重复对,请使用shift创建第一列和最后一列：

df.loc[ df['ID'] == df['ID'].shift(), 'first'] = df['Name']
df.loc[ df['ID'] == df['ID'].shift(-1), 'last'] = df['Name']

内容总结

以上是互联网集市为您收集整理的根据多行在python中修改pandas数据框全部内容，希望文章能够帮你解决根据多行在python中修改pandas数据框所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/682149.html

来源：【匿名】

【上一篇】Python 编程入门（2）：复杂数据类型（列表，字典）【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【根据多行在python中修改pandas数据框】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

Python Pandas库的学习（三）【代码】【图】

今天我们来继续讲解Python中的Pandas库的基本用法那么我们如何使用pandas对数据进行排序操作呢？food.sort_values("Sodium_(mg)",inplace= True) print(food["Sodium_(mg)"]) food.sort_values("Sodium_(mg)",inplace=True,ascending= False) print(food["Sodium_(mg)"])我们对food，进行sort_values方法，会自动帮我们排序，第一个参数"Sodium_(mg)"是我们数据中的列名意思是说，你要对哪一列数据进行排序，inplace 参数的意思是，...

【转载】python安装numpy和pandas【代码】

转载：原文地址 http://www.cnblogs.com/lxmhhy/p/6029465.html 最近要对一系列数据做同比比较，需要用到numpy和pandas来计算，不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了。首要条件，python版本必须是2.7以上。linux首先安装依赖包yum -y install blas blas-devel lapack-devel lapack yum -y install seaborn scipy yum -y install freetype freetype-devel libpng libpng-devel yum -y ins...

Python3快速入门（十五）——Pandas数据处理【代码】

Python3快速入门（十五）——Pandas数据处理一、函数应用1、函数应用简介如果要将自定义函数或其它库函数应用于Pandas对象，有三种使用方式。pipe()将函数用于表格，apply()将函数用于行或列，applymap()将函数用于元素。2、表格函数应用可以通过将函数对象和参数作为pipe函数的参数来执行自定义操作，会对整个DataFrame执行操作。# -*- coding=utf-8 -*- import pandas as pd import numpy as npdef adder(x, y):return x + yif ...

利用 Python 进行数据分析（九）pandas 汇总统计和计算【图】

pandas 对象拥有一些常用的数学和统计方法。例如，sum() 方法，进行列小计： sum() 方法传入 axis=1 指定为横向汇总，即行小计： idxmax() 获取最大值对应的索引：还有一种汇总是累计型的，cumsum()，比较它和 sum() 的区别：unique() 方法用于返回数据里的唯一值： value_counts() 方法用于统计各值出现的频率： isin() 方法用于判断成员资格：安装步骤已经在首篇随笔里写过了，这里不在赘述。利用 Python 进行数据分析（一）简...

Python Numpy,Pandas笔记【代码】

NumpyNumpy是python的一个库。支持维度数组与矩阵计算并提供大量的数学函数库。#浮点数转int arr = np.array([1.2,1.3,1.4],[1.5,1.6,1.7])#创建ndarray时候也可以指定dtype arr.astype(dtype = np.int) #对数组批量运算,作用在每个元素上 arr = np.array([1,2,3],[4,5,6]) print arr**5 #索引和切片 arr = np.array([1,2,3,4,5,6]) print arr[:2]#arr[0]和arr[1] arr = np.array([1,2,3],[4,5,6]) print arr[:2] #打印第1，2行#布...

利用Python进行数据分析-Pandas(第二部分)【代码】

上一个章节中我们主要是介绍了pandas两种数据类型的具体属性，这个章节主要介绍操作Series和DataFrame中的数据的基本手段。重新索引　　pandas对象的一个重要方法是reindex，其作用是创建一个新对象，它的数据符合新的索引：import pandas as pdobj = pd.Series([4.5, 7.2, -5.3, 3.6], index=[‘d‘, ‘b‘, ‘a‘, ‘c‘]) print(obj)d 4.5 b 7.2 a -5.3 c 3.6 dtype: float64 用该Series的reindex将会根据新索引进行...

2018.03.26 Python-Pandas 字符串常用方法【代码】

import numpy as np　　import pandas as pd 1#字符串常用方法 - strip 2 s = pd.Series([‘ jack ‘,‘jill‘,‘ jease ‘,‘feank‘])3 df = pd.DataFrame(np.random.randn(3,2),columns=[‘ Column A‘,‘ Column B‘],index=range(3))4print(s)5print(df.columns)6 7print(‘----‘)8print(s.str.lstrip().values)#去掉左边的空格 9print(s.str.rstrip().values)#去掉右边的空格10 df.columns = df.columns.str.strip() 11pri...

Python数据分析--Pandas知识点(三)【代码】【图】

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘.Python数据分析--Pandas知识点(一)Python数据分析--Pandas知识点(二)下面将是在知识点一, 二的基础上继续总结. 前面所介绍的都是以表格的形式中展现数据, 下面将介绍Pandas与Matplotlib配合绘制出折线图, 散点图, 饼图, 柱形图, 直方图等五大基本图形.Matplotlib是python中的一个2D图形库, 它能以各种硬拷贝的格式和跨平台的交互式环境生成高质量的图形, 比如...

python中安装pandas【代码】【图】

在运行网上找的代码时，报错：ImportError: No module named ‘pandas‘，解决：安装pandas安装过程：（因为网上教程有的说用pip命令行安装；有的直接下载安装包，然后复制到Python的安装目录中，就对比了一下有没有区别，发现并没有什么区别。而且pip命令行安装会把pandas需要的其他安装包自动安装，而手动安装的话，需要再一个一个安装依赖包）w+r打开命令行，直接在c:\user\admin下用pip命令安装，安装后，pandas就是在"python的...

python+matplotlib制作雷达图3例分析和pandas读取csv操作【代码】【图】

1.例一图1代码1#第1步：导出模块import numpy as np import matplotlib.pyplot as plt from matplotlib import font_manager # 中文字体设置第1步，导出模块#中文字体设置第2步：引出字体模块和位置 my_font = font_manager.FontProperties(fname="/usr/share/fonts/truetype/noto/simsun.ttf")#数据来源，单独设定，非文件来源 #dataLenth = 8 #数据个数，8组数据 #标签 labels = np.array([‘3℃‘,‘5℃‘,‘6℃‘,‘3℃‘,‘1...

Python，使用pandas保存数据为csv格式的文件【代码】

使用pandas对数据进行保存时，可以有两种形式进行保存　　一、对于数据量不是很大的文件，可以放到列表中，进行一次性存储。　　二、对于大量的数据，可以考虑一边生成，一边存储，可以避免开辟大量内存空间，去往列表中存储数据。本人才疏学浅，只懂一些表面的东西，如有错误，望请指正！下面通过代码进行说明 1import pandas as pd2 3 4class SaveCsv:5 6def__init__(self):7 self.clist = [[1,2,3], [4,5,6], [7,8,9...

Python - pandas 数据分析【代码】

pandas: powerful Python data analysis toolkit官方文档： http://pandas.pydata.org/pandas-docs/stable/ 1. 导入包pandasimport pandas as pd 2. 获取文件夹下文件名称import os filenames=[]path="C:/Users/Forrest/PycharmProjects/test" for file in os.listdir(path):filenames.append(file) 3. 读前几行文件(.csv文件)# -*- coding: utf-8 -*- ##读前几行文件 f= open("C:/Users/Forrest/PycharmProjects/test/train.csv")...

Python数据分析库pandas ------ merge、concatenation 、pd.concat合并与拼接【代码】【图】

对于合并操作，熟悉SQL的读者可以将其理解为JOIN操作，它使用一个或多个键把多行数据结合在一起.事实上，跟关系型数据库打交道的开发人员通常使用SQL的JOIN查询，用几个表共有的引用值（键）从不同的表获取数据。以这些键为基础，我们能够获取到列表形式的新数据，这些数据是对几个表中的数据进行组合得到的。pandas库中这类操作叫作合并，执行合并操作的函数为 merge(). 1import pandas as pd2import numpy as np3 4 frame1 = p...

Python数据分析(二): Pandas技巧 (2)【图】

Pandas的第一部分: http://www.cnblogs.com/cgzl/p/7681974.htmlgithub地址: https://github.com/solenovex/My-Machine-Learning-Notebook很抱歉, 因为工作繁忙, 更新的比较慢.数据的选取和索引 Pandas对数据的基本操作原文：http://www.cnblogs.com/cgzl/p/7908420.html

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 根据多行在python中修改pandas数据框

根据多行在python中修改pandas数据框

内容导读

内容图文

内容总结

内容备注

内容手机端

【根据多行在python中修改pandas数据框】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

Python Pandas库的学习（三）【代码】【图】

【转载】python安装numpy和pandas【代码】

Python3快速入门（十五）——Pandas数据处理【代码】

利用 Python 进行数据分析（九）pandas 汇总统计和计算【图】

Python Numpy,Pandas笔记【代码】

利用Python进行数据分析-Pandas(第二部分)【代码】

2018.03.26 Python-Pandas 字符串常用方法【代码】

Python数据分析--Pandas知识点(三)【代码】【图】

python中安装pandas【代码】【图】

python+matplotlib制作雷达图3例分析和pandas读取csv操作【代码】【图】

Python，使用pandas保存数据为csv格式的文件【代码】

Python - pandas 数据分析【代码】

Python数据分析库pandas ------ merge、concatenation 、pd.concat合并与拼接【代码】【图】

Python数据分析(二): Pandas技巧 (2)【图】

PYTHON - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程