首页 / PYTHON / python – 使用相邻日期的平均数据填充数据空白

python – 使用相邻日期的平均数据填充数据空白

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 使用相邻日期的平均数据填充数据空白，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4026字，纯文字阅读大概需要6分钟。

内容图文

想象一下,每30分钟测量一次多个变量的数据框.每个数据框内的系列在可能的不同位置都有间隙.这些差距将由某种运行方式取代,比方说/ – 2天.例如,如果在第4天07:30我缺少数据,我想在第2,3,5和6天的07:30用平均测量值替换NaN条目.注意,也有可能,例如,第5天,07：30也是NaN – 在这种情况下,这应该从在第4天替换丢失的测量的平均值中排除(应该可以使用np.nanmean吗？)

我不知道该怎么做.现在,我可能会循环遍历数据框中的每一行和一行,并在np.mean(df.ix [[i-48,i,i 48],“A”]的行中编写一个非常糟糕的黑客行为. ),但我觉得必须有更多的pythonic / pandas-y方式？

样本数据集：

import numpy as np
import pandas as pd

# generate a 1-week time series
dates = pd.date_range(start="2014-01-01 00:00", end="2014-01-07 00:00", freq="30min")
df = pd.DataFrame(np.random.randn(len(dates),3), index=dates, columns=("A", "B", "C"))

# generate some artificial gaps
df.ix["2014-01-04 10:00":"2014-01-04 11:00", "A"] = np.nan
df.ix["2014-01-04 12:30":"2014-01-04 14:00", "B"] = np.nan
df.ix["2014-01-04 09:30":"2014-01-04 15:00", "C"] = np.nan

print df["2014-01-04 08:00":"2014-01-04 16:00"]

                            A         B         C
2014-01-04 08:00:00  0.675720  2.186484 -0.033969
2014-01-04 08:30:00 -0.897217  1.332437 -2.618197
2014-01-04 09:00:00  0.299395  0.837023  1.346117
2014-01-04 09:30:00  0.223051  0.913047       NaN
2014-01-04 10:00:00       NaN  1.395480       NaN
2014-01-04 10:30:00       NaN -0.800921       NaN
2014-01-04 11:00:00       NaN -0.932760       NaN
2014-01-04 11:30:00  0.057219 -0.071280       NaN
2014-01-04 12:00:00  0.215810 -1.099531       NaN
2014-01-04 12:30:00 -0.532563       NaN       NaN
2014-01-04 13:00:00 -0.697872       NaN       NaN
2014-01-04 13:30:00 -0.028541       NaN       NaN
2014-01-04 14:00:00 -0.073426       NaN       NaN
2014-01-04 14:30:00 -1.187419  0.221636       NaN
2014-01-04 15:00:00  1.802449  0.144715       NaN
2014-01-04 15:30:00  0.446615  1.013915 -1.813272
2014-01-04 16:00:00 -0.410670  1.265309 -0.198607

[17 rows x 3 columns]

(一个更复杂的工具也会排除平均过程中的测量值,这些测量值本身是通过平均值创建的,但这并不一定要包含在答案中,因为我认为这可能会使现在的事情变得太复杂.)

/ edit：我不满意的示例解决方案：

# specify the columns of df where gaps should be filled
cols = ["A", "B", "C"]
for col in cols:
    for idx, rows in df.iterrows():
        if np.isnan(df.ix[idx, col]):
            # replace with mean of adjacent days
            df.ix[idx, col] = np.nanmean(df.ix[[idx-48, idx+48], col])

我不喜欢这个解决方案有两件事：

>如果在任何地方丢失或重复单行,则会失败.在最后一行,我想一直减去“一天”,无论是47,48或49行.此外,如果不手动编写索引列表,我可以扩展范围(例如-3天到3天).
>如果可能的话,我想摆脱循环.

解决方法:

这应该是一种更快,更简洁的方法.主要是使用shift()函数而不是循环.简单的版本是这样的：

df[ df.isnull() ] = np.nanmean( [ df.shift(-48), df.shift(48) ] )

事实证明这很难概括,但这似乎有效：

df[ df.isnull() ] = np.nanmean( [ df.shift(x).values for x in 
                                     range(-48*window,48*(window+1),48) ], axis=0 )

我不确定,但怀疑可能存在nanmean的错误,这也是你自己错过价值的原因.在我看来,如果你用数据帧喂它,nanmean就无法处理nans.但是,如果我转换为数组(使用.values)并使用axis = 0,那么它似乎工作.

检查window = 1的结果：

print df.ix["2014-01-04 12:30":"2014-01-04 14:00", "B"]
print df.ix["2014-01-03 12:30":"2014-01-03 14:00", "B"]
print df.ix["2014-01-05 12:30":"2014-01-05 14:00", "B"]    

2014-01-04 12:30:00    0.940193     # was nan, now filled
2014-01-04 13:00:00    0.078160
2014-01-04 13:30:00   -0.662918
2014-01-04 14:00:00   -0.967121

2014-01-03 12:30:00    0.947915     # day before
2014-01-03 13:00:00    0.167218
2014-01-03 13:30:00   -0.391444
2014-01-03 14:00:00   -1.157040

2014-01-05 12:30:00    0.932471     # day after
2014-01-05 13:00:00   -0.010899
2014-01-05 13:30:00   -0.934391
2014-01-05 14:00:00   -0.777203

关于问题#2,它将取决于您的数据,但如果您在上面的数据之前

df = df.resample(’30min’)

这将为所有缺失的行提供一行nans,然后你可以像所有其他nans一样填充它们.如果有效的话,这可能是最简单,最快捷的方式.

或者,您可以使用groupby执行某些操作.我的groupby-fu很弱但是给你的味道,比如：

df.groupby(df.index.hour).fillna(method =’pad’)

会正确处理丢失行的问题,但不能解决其他问题.

内容总结

以上是互联网集市为您收集整理的python – 使用相邻日期的平均数据填充数据空白全部内容，希望文章能够帮你解决python – 使用相邻日期的平均数据填充数据空白所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/786073.html

来源：【匿名】

【上一篇】python – 用于图像处理的Numpy操作【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 使用相邻日期的平均数据填充数据空白】教程文章相关的互联网学习教程文章

【Python数据分析】时间模块datetime【代码】

目录1.时间模块datetime1.1 date1.2 datetime1.3 timedelta2.日期解析方法dateutil.parser.parse时间模块主要有：datetime.date(),datetime.datetime(),datetime.timedelta()1.时间模块datetime1.1 datedate主要用于获取日期，例如获取当前日期或者特定日期,获取的日期可以由str方法直接转化为字符串格式from datetime import date today = date.today() # 获取当天日期 print(today,type(today)) # 打印结果：2020-02-08 ...

python(三)数据类型：字符串和元组

1.字符串：用单引号，双引号，三引号括起来的，字符串是不能修改的。2. 字符串的方法：定义一个字符串s=‘hdjsdsjssk‘2.1 s.strip()：去掉字符串两边的空格。2.2 s.lstrip()：去掉字符串左边的空格。2.3 s.rsrtip()：去掉字符串右边的空格。2.4 s.count(‘s‘)：统计字符串中有多少个相同的字符2.5.1 s.index()：查找字符在字符串的索引，如果没有这个字符，就会报错2.5.2 s.find()：查找字符在字符串的索引，如果没有这个字符，...

python实现连接MySQL并获取数据【代码】

最近在弄zabbix监控MySQL事宜，发现shell脚本无法解决字符串转换为整数操作，于是想到了Python，这里就用Python3环境首先安装pymysqlpip install pymysql 1#!/usr/bin/env python 2# -*- coding: utf8 -*- 3import pymysql4 mysql_connect = pymysql.connect(host=‘192.168.3.5‘,user=‘root‘,passwd=‘123456‘,port=3306,db=‘mysql‘,charset = ‘utf8‘)5 cur = mysql_connect.cursor()6 cur.execute("show global status")...

Python3之数据库编程【代码】

使用pymysql模块,主要用于Python3.x 连接 Mysql 数据库请使用pip3 install pymysql安装模块一、数据库连接对象pymysql.connect(host=‘‘, user=‘‘, password=‘‘, database=‘‘, port=0, db=‘‘, charset=‘‘) 连接数据库db连接.begin 开启事务db连接.close() 关闭连接db连接.commit() 提交事务到数据库,不提交事务所有操作都不会生效db连接.cursor() 得到一个可以执行SQL语句并且将结果作为字典返回的游标对象db连接.rollb...

python数据类型

数据类型分为：一、基本类型 1、数字（整数int ,长整型long(3版本没有)，浮点型float） 2、字符串（文本str，字节bytes） 3、布尔(true/false)二、数据集 1、列表list 2、元组 tuuple 3、字典dict(有序字典、无序字典) 4、集合set(有序集合，无序集合) 原文：https://www.cnblogs.com/memoryoffish/p/8783386.html

在Linux下使用Python的matplotlib绘制数据图的教程【代码】

如果你想要在Linxu中获得一个高效、自动化、高质量的科学画图的解决方案，应该考虑尝试下matplotlib库。Matplotlib是基于python的开源科学测绘包，基于python软件基金会许可证发布。大量的文档和例子、集成了Python和Numpy科学计算包、以及自动化能力，是作为Linux环境中进行科学画图的可靠选择的几个原因。这个教程将提供几个用matplotlib画图的例子。特性支持众多的图表类型，如：bar,box,contour,histogram,scatter,line p...

大数据处理之道（十分钟学会Python）【图】

一：python 简介（1）Python的由来Python（英语发音：/?pa?θ?n/）, 是一种面向对象、解释型计算机程序设计语言，由Guido van Rossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块（尤其是C/C++）很轻松地联结在一起。常见的一种应用情形是，使用Python快速生成程序的原型（有时甚至是程序的最终界面），然后对其中有特别要...

Python文件数据分割

我说：老师你好，你是教音乐的么？他说：是的。教音乐修养的我说：老师，你们的音乐课太无聊了，怎么不多欣赏现代流行音乐呢，非得枯燥的古典乐器？他说：你安心学吧！==============================================================================================她说：快递号？我说：xxxx她说：没有！我说：咋会啊？明明给我发了短信的。她说：明明发给你的，你去找明明要，别挡着，下一位！5，与以为同学对话我说：同学，能...

python用K近邻（KNN）算法分类MNIST数据集和Fashion MNIST数据集【代码】

一、KNN算法的介绍　　K最近邻（k-Nearest Neighbor，KNN）分类算法是最简单的机器学习算法之一，理论上比较成熟。KNN算法首先将待分类样本表达成和训练样本一致的特征向量；然后根据距离计算待测试样本和每个训练样本的距离，选择距离最小的K个样本作为近邻样本；最后根据K个近邻样本判断待分类样本的类别。KNN算法的正确选取是分类正确的关键因素之一，而近邻样本是通过计算测试样本与每个训练集样本的距离来选定的，故定义合适的...

【草稿】简单python脚本监控ORACle 数据

1、打包成。exe2、定时执行3、python中通过定时任务如何将 Python 程序打包成 .exe 文件？https://blog.csdn.net/bruce_6/article/details/82837088 Python3.x：定时任务实现方式https://www.cnblogs.com/lizm166/p/8169028.html原文：https://www.cnblogs.com/NigelLay/p/10665595.html

python3数据分析与挖掘建模

import pandas as pdimport numpy as np#df=pd.read_csv("HR.csv")print(df)原文：https://www.cnblogs.com/mylinpython/p/9073882.html

python 数据可视化【代码】【图】

1、散点图plot(x, y, ‘.‘, color = (r,g,b)) plt.xlable(‘x轴标签‘)plt.ylable(‘y轴标签‘)x,y x轴和y 轴的序列； ‘.‘, ‘。‘小点还是大点 color, 散点图的颜色，可以用rgb定义，也可以用英文字母定义 plt.grid(True, linestyle = "-.", color = "r", linewidth = "3")# True 显示网格 # linestyle 设置线显示的类型(一共四种)# color 设置网格的颜色# linewidth 设置网格的宽度 #散点图import matplotlib#%%...

吴裕雄 python 机器学习——数据预处理字典学习模型【代码】【图】

from sklearn.decomposition import DictionaryLearning#数据预处理字典学习DictionaryLearning模型def test_DictionaryLearning():X=[[1,2,3,4,5],[6,7,8,9,10],[10,9,8,7,6,],[5,4,3,2,1]]print("before transform:",X)dct=DictionaryLearning(n_components=3)dct.fit(X)print("components is :",dct.components_)print("after transform:",dct.transform(X))# 调用 test_DictionaryLearning test_DictionaryLearning() from skl...

python数据分析基础【图】

---恢复内容开始---Python数据分析基础（1）//2019.07.09python数据分析基础总结1、python数据分析主要使用IDE是Pycharm和Anaconda，最为常用和方便的是Anaconda.2、python字符串常用操作：（1）用三引号实现字符串的多行输入；（2）字符串的特征分割：可以利用split函数来进行实现，例如s是定义的字符串，那么s.split("分割特征q")则可以实现字符串s以分割特征q为隔离点分成几块；（3）字符串的长度可以用len函数，len(s)可以输出...

像Excel一样使用python进行数据分析（2）【代码】【图】

摘要：本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作。Excel是数据分析中最常用的工具，本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作。在Python中pandas库用于数据处理，我们从1787页的pandas官网文档中总结出最常用的36个函数，通过这些函数介绍如何通过python完成数据生成和导入，数据清洗，预处理，以及最常见...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 使用相邻日期的平均数据填充数据空白

python – 使用相邻日期的平均数据填充数据空白

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 使用相邻日期的平均数据填充数据空白】教程文章相关的互联网学习教程文章

【Python数据分析】时间模块datetime【代码】

python(三)数据类型：字符串和元组

python实现连接MySQL并获取数据【代码】

Python3之数据库编程【代码】

python数据类型

在Linux下使用Python的matplotlib绘制数据图的教程【代码】

大数据处理之道（十分钟学会Python）【图】

Python文件数据分割

python用K近邻（KNN）算法分类MNIST数据集和Fashion MNIST数据集【代码】

【草稿】简单python脚本监控ORACle 数据

python3数据分析与挖掘建模

python 数据可视化【代码】【图】

吴裕雄 python 机器学习——数据预处理字典学习模型【代码】【图】

python数据分析基础【图】

像Excel一样使用python进行数据分析（2）【代码】【图】

PYTHON - 相关标签

数据 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程