首页 / PYTHON / python – 在pandas中使用iterrows的for循环

python – 在pandas中使用iterrows的for循环

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 在pandas中使用iterrows的for循环，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4449字，纯文字阅读大概需要7分钟。

内容图文

我有2个数据帧如下：

data1看起来像这样：

id          address       
1          11123451
2          78947591

data2如下所示：

lowerbound_address   upperbound_address    place
78392888                 89000000            X
10000000                 20000000            Y

我想在data1中创建另一个名为“place”的列,其中包含id所在的位置.
例如,在上述情况下,
对于id 1,我希望place列包含Y,对于id 2,我希望place列包含X.
会有很多ID来自同一个地方.有些ID没有匹配.

我试图使用以下代码来完成它.

places = []
    for index, row in data1.iterrows():
        for idx, r in data2.iterrows():
            if r['lowerbound_address'] <= row['address'] <= r['upperbound_address']:
                places.append(r['place'])

这里的地址是浮点值.

运行这段代码需要永远.它让我想知道我的代码是否正确或是否有更快的执行方式.

任何帮助都感激不尽.
谢谢！

解决方法:

您可以使用merge的第一次交叉连接,然后按boolean indexing过滤值.最后在drop之前删除不必要的列：

data1['tmp'] = 1
data2['tmp'] = 1
df = pd.merge(data1, data2, on='tmp', how='outer')
df = df[(df.lowerbound_address <= df.address) & (df.upperbound_address >= df.address)]
df = df.drop(['lowerbound_address','upperbound_address', 'tmp'], axis=1)
print (df)
   id   address place
1   1  11123451     Y
2   2  78947591     X

itertuples的另一个解决方案,最后创建DataFrame.from_records：

places = []
for row1 in data1.itertuples():
    for row2 in data2.itertuples():
        #print (row1.address)
        if (row2.lowerbound_address <= row1.address <= row2.upperbound_address):
            places.append((row1.id, row1.address, row2.place))    
print (places)
[(1, 11123451, 'Y'), (2, 78947591, 'X')]

df = pd.DataFrame.from_records(places)
df.columns=['id','address','place']
print (df)
   id   address place
0   1  11123451     Y
1   2  78947591     X

apply的另一个解决方案：

def f(x):
    for row2 in data2.itertuples():
        if (row2.lowerbound_address <= x <= row2.upperbound_address):
            return pd.Series([x, row2.place], index=['address','place'])

df = data1.set_index('id')['address'].apply(f).reset_index()
print (df)
   id   address place
0   1  11123451     Y
1   2  78947591     X

编辑：

时序：

N = 1000：

如果saome值不在范围内,则在解b和c中省略.检查df1的最后一行.

In [73]: %timeit (data1.set_index('id')['address'].apply(f).reset_index())
1 loop, best of 3: 2.06 s per loop

In [74]: %timeit (a(df1a, df2a))
1 loop, best of 3: 82.2 ms per loop

In [75]: %timeit (b(df1b, df2b))
1 loop, best of 3: 3.17 s per loop

In [76]: %timeit (c(df1c, df2c))
100 loops, best of 3: 2.71 ms per loop

时间代码：

np.random.seed(123)
N = 1000
data1 = pd.DataFrame({'id':np.arange(1,N+1), 
                   'address': np.random.randint(N*10, size=N)}, columns=['id','address'])

#add last row with value out of range
data1.loc[data1.index[-1]+1, ['id','address']] = [data1.index[-1]+1, -1]
data1 = data1.astype(int)
print (data1.tail())

data2 = pd.DataFrame({'lowerbound_address':np.arange(1, N*10,10), 
                      'upperbound_address':np.arange(10,N*10+10, 10),
                      'place': np.random.randint(40, size=N)})

print (data2.tail())
df1a, df1b, df1c = data1.copy(),data1.copy(),data1.copy()
df2a, df2b ,df2c = data2.copy(),data2.copy(),data2.copy()

def a(data1, data2):
    data1['tmp'] = 1
    data2['tmp'] = 1
    df = pd.merge(data1, data2, on='tmp', how='outer')
    df = df[(df.lowerbound_address <= df.address) & (df.upperbound_address >= df.address)]
    df = df.drop(['lowerbound_address','upperbound_address', 'tmp'], axis=1)
    return (df)

def b(data1, data2):
    places = []
    for row1 in data1.itertuples():
        for row2 in data2.itertuples():
            #print (row1.address)
            if (row2.lowerbound_address <= row1.address <= row2.upperbound_address):
                places.append((row1.id, row1.address, row2.place))    

        df = pd.DataFrame.from_records(places)
        df.columns=['id','address','place']

    return (df)

def f(x):
    #use for ... else for add NaN to values out of range
    #https://stackoverflow.com/q/9979970/2901002
    for row2 in data2.itertuples():
        if (row2.lowerbound_address <= x <= row2.upperbound_address):
             return pd.Series([x, row2.place], index=['address','place'])
    else:
        return pd.Series([x, np.nan], index=['address','place'])

def c(data1,data2):
    data1 = data1.sort_values('address')
    data2 = data2.sort_values('lowerbound_address')
    df = pd.merge_asof(data1, data2, left_on='address', right_on='lowerbound_address')
    df = df.drop(['lowerbound_address','upperbound_address'], axis=1)
    return df.sort_values('id')


print (data1.set_index('id')['address'].apply(f).reset_index())
print (a(df1a, df2a))
print (b(df1b, df2b))
print (c(df1c, df2c))

只有带有merge_asof的解决方案c对于大型DataFrame非常好用：

N = 1M：

In [84]: %timeit (c(df1c, df2c))
1 loop, best of 3: 525 ms per loop

更多关于merge asof in docs.

内容总结

以上是互联网集市为您收集整理的python – 在pandas中使用iterrows的for循环全部内容，希望文章能够帮你解决python – 在pandas中使用iterrows的for循环所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/696128.html

来源：【匿名】

【上一篇】python – odoo中many2one字段的域名过滤器？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 在pandas中使用iterrows的for循环】教程文章相关的互联网学习教程文章

Python——pandas数据处理（python programming）【图】

原文：https://www.cnblogs.com/caiyishuai/p/10685128.html

用Python的pandas框架操作Excel文件中的数据教程【代码】

引言本文的目的，是向您展示如何使用pandas 来执行一些常见的Excel任务。有些例子比较琐碎，但我觉得展示这些简单的东西与那些你可以在其他地方找到的复杂功能同等重要。作为额外的福利，我将会进行一些模糊字符串匹配，以此来展示一些小花样，以及展示pandas是如何利用完整的Python模块系统去做一些在Python中是简单，但在Excel中却很复杂的事情的。有道理吧？让我们开始吧。为某行添加求和项我要介绍的第一项任务是把某几列相加...

Python pandas Date【代码】【图】

Pandas主要有4中与时间相关的类型。Timestamp, Period, DatetimeIndex,PeriodIndex.import pandas as pd import numpy as np # #Timestamp pd.Timestamp(‘9/1/2016 10:05AM‘) #output: Timestamp(‘2016-09-01 10:05:00‘) # #Period pd.Period(‘1/2016‘) #output: Period(‘2016-01‘, ‘M‘) pd.Period(‘3/5/2016‘) #output: Period(‘2016-03-05‘, ‘D‘) # #DatetimeIndex t1 = pd.Series(list(‘abc‘), [pd.Timestamp...

Python 2.7_pandas连接MySQL数据处理_20161229【代码】【图】

在我本地Mysql_local_db数据库建立了一个pandas数据表用来对pandas模块的学习1、创建表CREATE TABLE pandastest( 城市 VARCHAR(255), 用户ID INT(19), 订单日期 DATE, 金额 DECIMAL(19,4), 金额区间 VARCHAR(255), 订单数 INT(19), 上次订单日期 DATE, 距上次订单天数 INT(19), 上次金额 DECIMAL(19,4), 距上次订单间隔区间 VARCHAR(255), 品类数 INT(19), KEY city (城市), KEY res_id(用户ID) )ENGINE=INNODB DEFAULT CHARSET=ut...

python pandas stack和unstack函数【代码】【图】

在用pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即“不要堆叠”，我对两个函数是这样理解和区分的。　　常见的数据的层次化结构有两种，一种是表格，一种是“花括号”，即下面这样的l两种形式： store1store2store3street1123street2456 　　表格在行列方向上均有索引（类似于DataFrame），花括号结构只有“列方向”上的索引（类似于层次化的Seri...

python 计算均值、方差、标准差 Numpy，Pandas【代码】

Python 中的 numpy 包和 pandas 包都能够计算均值、方差等，本文总结一下它们的用法。1. Numpy 计算均值、方差、标准差一般的均值可以用 numpy 中的 mean 方法求得：>>> import numpy as np >>> a = [5, 6, 16, 9] >>> np.mean(a) 9.0numpy 中的 average 方法不仅能求得简单平均数，也可以求出加权平均数。average 里面可以跟一个 weights 参数，里面是一个权数的数组，例如：>>> np.average(a) >>> 9.0 >>> np.average(a, weight...

python学习-使用pandas 按照行数分割表格【代码】【图】

问题一张excel表格，大概1万行，需要录入系统系统每次最多只能录入500行表格数据，一旦超过500行，就会录入失败需要把1万行的数据按照500行分割，形成20个表格，这样才能录入系统思路使用pandas得到总行数，比如10002行，分割表格的时候，要保留一行表头第一张表，是1-500行，第二张表是 501-1000，以此类推最后一张表应该是1000-10002行，生成的表格数量是10000/500+1,21张生成的表格按照顺序保存到一个目录中写一个函数，可以按照...

python学习笔记（四）：pandas基础【代码】

pandas 基础seriseimport pandas as pd from pandas import Series, DataFrame obj = Series([4, -7, 5, 3]) obj0 4 1 -7 2 5 3 3 dtype: int64obj.valuesarray([ 4, -7, 5, 3], dtype=int64)obj.indexRangeIndex(start=0, stop=4, step=1)obj[[1,3]] # 跳着选取数据1 -7 3 3 dtype: int64obj[1:3]1 -7 2 5 dtype: int64pd.isnull(obj)0 False 1 False 2 False 3 False dtype: boolreindex可以...

python数据分析之pandas库的DataFrame应用【代码】【图】

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔型）。DateFrame既有行索引也有列索引，可以被看作为由Series组成的字典。构建DataFrame：1.1、直接传入一个由等长列表或numpy数组组成的字典‘‘‘ Created on 2016-8-10 @author: xuzhengzhu ‘‘‘from pandas import *data={‘state‘:[‘ohio‘,‘ohio‘,‘ohio‘,‘nevada‘,‘nevada‘],‘year‘:[2000,2001,2002,2001,20...

python_执行报错_No module named 'pandas'【图】

程序中代码如下：报错：根据链接（ http://www.pianshen.com/article/6871295514/ ）中指导，解决过程如下：File --> Settings --> Project （ Project Interpreter ） --> 点击其中加号 --> 搜索 pandas ，然后点击安装。 '' ref='nofollow'>python_执行报错_No module named 'pandas'原文：https://www.cnblogs.com/lyj0123/p/11773733.html

python—pandas读取excel与写入excel【代码】

import pandas as pdimport openpyxl#将excel数据读取，输出格式为dataframe格式path = r‘/Users/**/PycharmProjects/class/pyclass1/others/file/学生信息表.xlsx‘#sheet_name可填写1）excel中表单序号从0开始2）表单名data = pd.read_excel(path,sheet_name=‘基础信息‘)#data.head()print(data)#将dataframe格式数据写入excel表path=r‘/Users/**/PycharmProjects/class/pyclass1/others/file/学生信息表2.xlsx‘data.to_exc...

Python数据分析与机器学习-Pandas_1【代码】

import pandas food_info = pandas.read_csv("food_info.csv") print(type(food_info)) print (food_info.dtypes)<class 'pandas.core.frame.DataFrame'> NDB_No int64 Shrt_Desc object Water_(g) float64 Energ_Kcal int64 Protein_(g) float64 Lipid_Tot_(g) float64 Ash_(g) float64 Carbohydrt_(g) float64 Fiber_TD_(g) float64 Sugar_Tot_(g)...

Python 使用Pandas读取Excel的学习笔记【代码】【图】

这里介绍Python中使用Pandas读取Excel的方法一、软件环境： OS：Win7 64位 Python 3.7二、文件准备 1、项目结构： 2、在当前实验文件夹下建立一个Source文件夹，里面放待读取的Excel文件 3、待读取的Excel文件名：Book1.xlsx，Sheet Name:Sheet1 内容示例：三、代码参考代码中已进行了注释说明，这里就不重复说明了。1、第一行作为列名处理，数据的第1行实际是从Excel的第2行开始，数据的最大行数...

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。3、pandas的主要功能　　--具备对其功能的数据结构DataFrame、Series 　　--集成时间序列功能　　--提供丰富的数学运算和操作　　--灵活处理缺失数据4、安装方法：pip install pandas5、引用方法：import pandas as pd二、Series Series是一种类似于一位数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。创建方式：...

小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择【代码】

人生苦短，我用 Python前文传送门：小白学 Python 数据分析（1）：数据分析基础小白学 Python 数据分析（2）：Pandas （一）概述小白学 Python 数据分析（3）：Pandas （二）数据结构 Series小白学 Python 数据分析（4）：Pandas （三）数据结构 DataFrame小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据引言上一篇文章我们介绍如何在 Pandas 一些基础的查看数据的操作，但是官方更推荐我们使用 .at、.iat、.loc...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 在pandas中使用iterrows的for循环

python – 在pandas中使用iterrows的for循环

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 在pandas中使用iterrows的for循环】教程文章相关的互联网学习教程文章

Python——pandas数据处理（python programming）【图】

用Python的pandas框架操作Excel文件中的数据教程【代码】

Python pandas Date【代码】【图】

Python 2.7_pandas连接MySQL数据处理_20161229【代码】【图】

python pandas stack和unstack函数【代码】【图】

python 计算均值、方差、标准差 Numpy，Pandas【代码】

python学习-使用pandas 按照行数分割表格【代码】【图】

python学习笔记（四）：pandas基础【代码】

python数据分析之pandas库的DataFrame应用【代码】【图】

python_执行报错_No module named 'pandas'【图】

python—pandas读取excel与写入excel【代码】

Python数据分析与机器学习-Pandas_1【代码】

Python 使用Pandas读取Excel的学习笔记【代码】【图】

利用Python进行数据分析：【Pandas】（Series+DataFrame）【代码】【图】

小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择【代码】

PYTHON - 相关标签

循环 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程