首页 / PYTHON / python – pandas range_date极其缓慢地降低了功能

python – pandas range_date极其缓慢地降低了功能

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – pandas range_date极其缓慢地降低了功能，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3744字，纯文字阅读大概需要6分钟。

内容图文

我给出了一个样本数据集,并希望从原始样本数据集中选择多个样本,例如1000个样本块,每个样本块包含来自原始样本数据的500个数据点.我在python中写了这个小函数：

import timeit
import pandas as pd
import numpy as np
sample_data = np.random.randn(10000, 15)
index = pd.date_range("20000101", periods=10000, freq='B')
sample_data_df = pd.DataFrame(sample_data, index=index)
def f(n, sample_data_df, f):
    s = (1+sample_data_df).resample(f, axis=0)
    r = s.prod()-1
    out = r.sample(n, replace=True)
    # out_index = pd.date_range(start=sample_data_df.index[0],
    #                              periods=len(out.index),
    #                              freq=f)
    # out.index = output_index
    return out


start_time = timeit.default_timer()
N = 1000
a = [f(500, sample_data_df, 'BM') for i in range(N)]
elapsed = timeit.default_timer() - start_time
print(elapsed)

如果我运行此代码,则需要35.8964748383秒.但是,我想在每个块上附加一个索引,我将取消注释函数中的行,即

def f(n, sample_data_df, f):
        s = (1+sample_data_df).resample(f, axis=0)
        r = s.prod()-1
        out = r.sample(n, replace=True)
        out_index = pd.date_range(start=sample_data_df.index[0],
                                  periods=len(out.index),
                                  freq=f)
        out.index = output_index
        return out

现在该功能需要72.2418179512.疯了吧.如果需要在每个输出中都有这样的索引,我怎样才能加快这个速度？我知道生成一次索引并将其随后附加到每个输出.但是,我想在其他情况下使用该函数,以便在索引的分配在函数内完成时将非常感激.

此外,除了索引还有其他来源可以提高速度吗？因为即使没有索引35.8964748383也是很长时间.

解决方法:

编辑：

>添加了创建新日期索引的时间
>添加了缓存函数以创建新索引

问题不在于重新采样或索引的速度,如果我们看一下时间：

%timeit (1+sample_data_df).resample('BM', axis=0).prod()-1
21.7 ms ± 170 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit pd.date_range(start="20000101", periods=500, freq='BM')
21.4 ms ± 272 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)

考虑到我们正在对150’000元素进行重新采样和减少,22 ms对我来说似乎并不坏.

你的问题来自1000,这在你的情况下是没有必要的(因为你做的完全相同).
如果要在函数中保留重新采样,可以执行的操作是缓存重新采样的结果.不幸的是,缓存函数结果(lru_cache)的标准方法是无法处理可变对象(如dfs,lists ……).所以我的解决方案是将重新采样包装在一个创建哈希的函数中,并以哈希作为参数调用实际函数：

from functools import lru_cache
class Sampler():
  def __init__(self, df):
    self.df = df

  def get_resampled_sample(self, n, freq):
    resampled = self._wraper_resample_prod(freq)
    return resampled.sample(n, replace=True)

  def _wraper_resample_prod(self, freq):
    hash_df = hash(self.df.values.tobytes())
    return self._resample_prod(hash_df, freq)

  @lru_cache(maxsize=1)  
  def _resample_prod(self, hash_df, freq):
    return (self.df+1).resample(freq, axis=0).prod()-1

现在,只要不更改df值的哈希值,就会缓存重新采样的结果.这意味着我们可以更快地采样.

%timeit [sampler.get_resampled_sample(500, 'BM') for i in range(1000)]
881 ms ± 10.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

您可以对索引执行相同的操作,但是在这里您不需要创建自定义哈希,因为pd.date_range的所有参数都是不可变对象.

class Sampler():
  def __init__(self, df):
    self.df = df

  def update_df(self, df):
    self.df = df

  def get_resampled_sample(self, n, freq):
    resampled = self._wraper_resample_prod(freq)
    df = resampled.sample(n, replace=True)
    df.index = self._create_date_range(self.df.index[0], n, freq)
    return df

  def _wraper_resample_prod(self, freq):
    hash_df = hash(self.df.values.tobytes())
    return self._resample_prod(hash_df, freq)

  @lru_cache(maxsize=1)  
  def _resample_prod(self, hash_df, freq):
    return (self.df+1).resample(freq, axis=0).prod()-1

  @lru_cache(maxsize=1)
  def _create_date_range(self, start, periods, freq):
    return pd.date_range(start=start, periods=periods, freq=freq)

时序：

%timeit [sampler.get_resampled_sample(500, 'BM') for i in range(1000)]
1.11 s ± 43.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

内容总结

以上是互联网集市为您收集整理的python – pandas range_date极其缓慢地降低了功能全部内容，希望文章能够帮你解决python – pandas range_date极其缓慢地降低了功能所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/788630.html

来源：【匿名】

【上一篇】Python 3：验证/解析** kwargs的最佳实践方法？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – pandas range_date极其缓慢地降低了功能】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

import lxml import requests from lxml import etreeurl = ‘https://datachart.500.com/ssq/history/newinc/history.php?limit=5000&sort=0‘ resp = requests.get(url) hm = etree.HTML(resp.text) # 在返回页面内容的任意位置查找id=tdata的tbody标签，并取其下所有的tr标签内容，赋给trs列表 trs = hm.xpath("//tbody[@id=‘tdata‘]/tr")f = open(‘data.csv‘, ‘w‘) # 将攫取的数据存到data.csv文件 for tr in trs:data_l...

Python Pandas库的学习（三）【代码】【图】

今天我们来继续讲解Python中的Pandas库的基本用法那么我们如何使用pandas对数据进行排序操作呢？food.sort_values("Sodium_(mg)",inplace= True) print(food["Sodium_(mg)"]) food.sort_values("Sodium_(mg)",inplace=True,ascending= False) print(food["Sodium_(mg)"])我们对food，进行sort_values方法，会自动帮我们排序，第一个参数"Sodium_(mg)"是我们数据中的列名意思是说，你要对哪一列数据进行排序，inplace 参数的意思是，...

【转载】python安装numpy和pandas【代码】

转载：原文地址 http://www.cnblogs.com/lxmhhy/p/6029465.html 最近要对一系列数据做同比比较，需要用到numpy和pandas来计算，不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了。首要条件，python版本必须是2.7以上。linux首先安装依赖包yum -y install blas blas-devel lapack-devel lapack yum -y install seaborn scipy yum -y install freetype freetype-devel libpng libpng-devel yum -y ins...

Python3快速入门（十五）——Pandas数据处理【代码】

Python3快速入门（十五）——Pandas数据处理一、函数应用1、函数应用简介如果要将自定义函数或其它库函数应用于Pandas对象，有三种使用方式。pipe()将函数用于表格，apply()将函数用于行或列，applymap()将函数用于元素。2、表格函数应用可以通过将函数对象和参数作为pipe函数的参数来执行自定义操作，会对整个DataFrame执行操作。# -*- coding=utf-8 -*- import pandas as pd import numpy as npdef adder(x, y):return x + yif ...

利用 Python 进行数据分析（九）pandas 汇总统计和计算【图】

pandas 对象拥有一些常用的数学和统计方法。例如，sum() 方法，进行列小计： sum() 方法传入 axis=1 指定为横向汇总，即行小计： idxmax() 获取最大值对应的索引：还有一种汇总是累计型的，cumsum()，比较它和 sum() 的区别：unique() 方法用于返回数据里的唯一值： value_counts() 方法用于统计各值出现的频率： isin() 方法用于判断成员资格：安装步骤已经在首篇随笔里写过了，这里不在赘述。利用 Python 进行数据分析（一）简...

Python Numpy,Pandas笔记【代码】

NumpyNumpy是python的一个库。支持维度数组与矩阵计算并提供大量的数学函数库。#浮点数转int arr = np.array([1.2,1.3,1.4],[1.5,1.6,1.7])#创建ndarray时候也可以指定dtype arr.astype(dtype = np.int) #对数组批量运算,作用在每个元素上 arr = np.array([1,2,3],[4,5,6]) print arr**5 #索引和切片 arr = np.array([1,2,3,4,5,6]) print arr[:2]#arr[0]和arr[1] arr = np.array([1,2,3],[4,5,6]) print arr[:2] #打印第1，2行#布...

利用Python进行数据分析-Pandas(第二部分)【代码】

上一个章节中我们主要是介绍了pandas两种数据类型的具体属性，这个章节主要介绍操作Series和DataFrame中的数据的基本手段。重新索引　　pandas对象的一个重要方法是reindex，其作用是创建一个新对象，它的数据符合新的索引：import pandas as pdobj = pd.Series([4.5, 7.2, -5.3, 3.6], index=[‘d‘, ‘b‘, ‘a‘, ‘c‘]) print(obj)d 4.5 b 7.2 a -5.3 c 3.6 dtype: float64 用该Series的reindex将会根据新索引进行...

2018.03.26 Python-Pandas 字符串常用方法【代码】

import numpy as np　　import pandas as pd 1#字符串常用方法 - strip 2 s = pd.Series([‘ jack ‘,‘jill‘,‘ jease ‘,‘feank‘])3 df = pd.DataFrame(np.random.randn(3,2),columns=[‘ Column A‘,‘ Column B‘],index=range(3))4print(s)5print(df.columns)6 7print(‘----‘)8print(s.str.lstrip().values)#去掉左边的空格 9print(s.str.rstrip().values)#去掉右边的空格10 df.columns = df.columns.str.strip() 11pri...

Python数据分析--Pandas知识点(三)【代码】【图】

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘.Python数据分析--Pandas知识点(一)Python数据分析--Pandas知识点(二)下面将是在知识点一, 二的基础上继续总结. 前面所介绍的都是以表格的形式中展现数据, 下面将介绍Pandas与Matplotlib配合绘制出折线图, 散点图, 饼图, 柱形图, 直方图等五大基本图形.Matplotlib是python中的一个2D图形库, 它能以各种硬拷贝的格式和跨平台的交互式环境生成高质量的图形, 比如...

python中安装pandas【代码】【图】

在运行网上找的代码时，报错：ImportError: No module named ‘pandas‘，解决：安装pandas安装过程：（因为网上教程有的说用pip命令行安装；有的直接下载安装包，然后复制到Python的安装目录中，就对比了一下有没有区别，发现并没有什么区别。而且pip命令行安装会把pandas需要的其他安装包自动安装，而手动安装的话，需要再一个一个安装依赖包）w+r打开命令行，直接在c:\user\admin下用pip命令安装，安装后，pandas就是在"python的...

python+matplotlib制作雷达图3例分析和pandas读取csv操作【代码】【图】

1.例一图1代码1#第1步：导出模块import numpy as np import matplotlib.pyplot as plt from matplotlib import font_manager # 中文字体设置第1步，导出模块#中文字体设置第2步：引出字体模块和位置 my_font = font_manager.FontProperties(fname="/usr/share/fonts/truetype/noto/simsun.ttf")#数据来源，单独设定，非文件来源 #dataLenth = 8 #数据个数，8组数据 #标签 labels = np.array([‘3℃‘,‘5℃‘,‘6℃‘,‘3℃‘,‘1...

Python，使用pandas保存数据为csv格式的文件【代码】

使用pandas对数据进行保存时，可以有两种形式进行保存　　一、对于数据量不是很大的文件，可以放到列表中，进行一次性存储。　　二、对于大量的数据，可以考虑一边生成，一边存储，可以避免开辟大量内存空间，去往列表中存储数据。本人才疏学浅，只懂一些表面的东西，如有错误，望请指正！下面通过代码进行说明 1import pandas as pd2 3 4class SaveCsv:5 6def__init__(self):7 self.clist = [[1,2,3], [4,5,6], [7,8,9...

Python - pandas 数据分析【代码】

pandas: powerful Python data analysis toolkit官方文档： http://pandas.pydata.org/pandas-docs/stable/ 1. 导入包pandasimport pandas as pd 2. 获取文件夹下文件名称import os filenames=[]path="C:/Users/Forrest/PycharmProjects/test" for file in os.listdir(path):filenames.append(file) 3. 读前几行文件(.csv文件)# -*- coding: utf-8 -*- ##读前几行文件 f= open("C:/Users/Forrest/PycharmProjects/test/train.csv")...

Python数据分析库pandas ------ merge、concatenation 、pd.concat合并与拼接【代码】【图】

对于合并操作，熟悉SQL的读者可以将其理解为JOIN操作，它使用一个或多个键把多行数据结合在一起.事实上，跟关系型数据库打交道的开发人员通常使用SQL的JOIN查询，用几个表共有的引用值（键）从不同的表获取数据。以这些键为基础，我们能够获取到列表形式的新数据，这些数据是对几个表中的数据进行组合得到的。pandas库中这类操作叫作合并，执行合并操作的函数为 merge(). 1import pandas as pd2import numpy as np3 4 frame1 = p...

Python数据分析(二): Pandas技巧 (2)【图】

Pandas的第一部分: http://www.cnblogs.com/cgzl/p/7681974.htmlgithub地址: https://github.com/solenovex/My-Machine-Learning-Notebook很抱歉, 因为工作繁忙, 更新的比较慢.数据的选取和索引 Pandas对数据的基本操作原文：http://www.cnblogs.com/cgzl/p/7908420.html

首页 / PYTHON / python – pandas range_date极其缓慢地降低了功能

python – pandas range_date极其缓慢地降低了功能

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – pandas range_date极其缓慢地降低了功能】教程文章相关的互联网学习教程文章

python, 爬虫爬取彩票网数据，pandas分析数据并实现可视化饼图【代码】【图】

Python Pandas库的学习（三）【代码】【图】

【转载】python安装numpy和pandas【代码】

Python3快速入门（十五）——Pandas数据处理【代码】

利用 Python 进行数据分析（九）pandas 汇总统计和计算【图】

Python Numpy,Pandas笔记【代码】

利用Python进行数据分析-Pandas(第二部分)【代码】

2018.03.26 Python-Pandas 字符串常用方法【代码】

Python数据分析--Pandas知识点(三)【代码】【图】

python中安装pandas【代码】【图】

python+matplotlib制作雷达图3例分析和pandas读取csv操作【代码】【图】

Python，使用pandas保存数据为csv格式的文件【代码】

Python - pandas 数据分析【代码】

Python数据分析库pandas ------ merge、concatenation 、pd.concat合并与拼接【代码】【图】

Python数据分析(二): Pandas技巧 (2)【图】

PYTHON - 相关标签

DATE - 相关标签

功能 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程