首页 / PYTHON / python – 计算相关矩阵子集的最快方法

python – 计算相关矩阵子集的最快方法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 计算相关矩阵子集的最快方法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3446字，纯文字阅读大概需要5分钟。

内容图文

我偏爱使用pandas内置corr方法来处理数据帧.但是,我试图计算具有45,000列的数据帧的相关矩阵.然后重复这250次.计算正在粉碎我的公羊(16 GB,mac book pro).我正在抓取结果相关矩阵的列的统计数据.所以我需要一列与其他列的相关性来计算这些统计数据.我的解决方案是计算列的子集与每个其他列的相关性,但我需要一种有效的方法来执行此操作.

考虑：

import pandas as pd
import numpy as np

np.random.seed([3,1415])

df = pd.DataFrame(np.random.rand(6, 4), columns=list('ABCD'))
df

我想计算[‘A’,’B’]的相关性

corrs = df.corr()[['A', 'B']]
corrs

我将通过计算平均值或其他一些统计数据来完成它.

我不能使用我用来创建示例的代码,因为当我扩展时,我没有内存.在执行计算时,它必须使用与所选列数成比例的内存量来计算相对于其他所有内容的相关性.

我正在寻找大规模最高性能的解决方案.我有一个解决方案,但我正在寻找其他想法,以确保我得到最好的.提供的任何答案都会返回正确的答案,如演示中所示,并且满足记忆约束将由我推翻(我鼓励彼此之间相互推销).

以下是我的代码：

def corr(df, k=0, l=10):
    d = df.values - df.values.mean(0)
    d_ = d[:, k:l]
    s = d.std(0, keepdims=True)
    return pd.DataFrame(d.T.dot(d[:, k:l]) / s.T.dot(s[:, k:l]) / d.shape[0],
                        df.columns, df.columns[k:l])

解决方法:

使用点积计算相关性(如在您的示例中)似乎是一种好方法.我将描述两个改进,然后代码实现它们.

改进1：拉出意味着点积

我们可以将这些方法从点积中拉出来,以避免从每个值中减去它们(类似于你从点积中拉出标准偏差的方式,我们也会这样做).

设x,y为具有n个元素的向量.让a,b成为标量.设< x,y>表示x和y之间的点积.

x和y之间的相关性可以使用点积表示

<(x-mean(x))/std(x), (y-mean(y))/std(y)> / n

为了从点积中拉出标准偏差,我们可以使用以下标识(如上所述)：

<ax, by> = a*b*<x, y>

为了从dot产品中取出手段,我们可以获得另一个身份：

<x+a, y+b> = <x,y> + a*sum(y) + b*sum(x) + a*b*n

在a = -mean(x),b = -mean(y)的情况下,这简化为：

<x-mean(x), y-mean(y)> = <x, y> - sum(x)*sum(y)/n

使用这些身份,x和y之间的相关性相当于：

(<x, y> - sum(x)*sum(y)/n) / (std(x)*std(y)*n)

在下面的函数中,这将使用矩阵乘法和外部乘积来表示,以同时处理多个变量(如您的示例中所示).

改进2：预计算总和和标准偏差

我们可以预先计算总和和标准偏差,以避免每次调用函数时为所有列重新计算它们.

码

把这两个改进放在一起,我们有以下(我不会说熊猫,所以它是numpy)：

def corr_cols(x, xsum, xstd, lo, hi):
    n = x.shape[0]

    return (
        (np.dot(x.T, x[:, lo:hi]) - np.outer(xsum, xsum[lo:hi])/n)
        / (np.outer(xstd, xstd[lo:hi])*n)
    )

# fake data w/ 10 points, 5 dimensions
x = np.random.rand(10, 5)

# precompute sums and standard deviations along each dimension
xsum = np.sum(x, 0)
xstd = np.std(x, 0)

# calculate columns of correlation matrix for dimensions 1 thru 3
r = corr_cols(x, xsum, xstd, 1, 4)

更好的代码

预先计算和存储总和和标准差可以隐藏在闭包内,以提供更好的界面并使主代码更清晰.在功能上,操作等同于先前的代码.

def col_correlator(x):
    n = x.shape[0]
    xsum = np.sum(x, 0)
    xstd = np.std(x, 0)

    return lambda lo, hi: (
        (np.dot(x.T, x[:, lo:hi]) - np.outer(xsum, xsum[lo:hi])/n)
        / (np.outer(xstd, xstd[lo:hi])*n)
    )

# construct function to compute columns of correlation matrix
cc = col_correlator(x)

# compute columns of correlation matrix for dimensions 1 thru 3
r = cc(1, 4)

编辑:( piRSquared)

我想把我的编辑放在这篇文章中,以进一步鼓励提出这个答案.

这是我使用这个建议实现的代码.这个解决方案在大熊猫和numpy之间来回转换.

def corr_closure(df):
    d = df.values
    sums = d.sum(0, keepdims=True)
    stds = d.std(0, keepdims=True)
    n = d.shape[0]

    def corr(k=0, l=10):
        d2 = d.T.dot(d[:, k:l])
        sums2 = sums.T.dot(sums[:, k:l])
        stds2 = stds.T.dot(stds[:, k:l])

        return pd.DataFrame((d2 - sums2 / n) / stds2 / n,
                            df.columns, df.columns[k:l])

    return corr

使用案例：

corr = corr_closure(df)

corr(0, 2)

内容总结

以上是互联网集市为您收集整理的python – 计算相关矩阵子集的最快方法全部内容，希望文章能够帮你解决python – 计算相关矩阵子集的最快方法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/700403.html

来源：【匿名】

【上一篇】在Python中查找两个列表/数组中最近的项目【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 计算相关矩阵子集的最快方法】教程文章相关的互联网学习教程文章

Python的Bottle框架中实现最基本的get和post的方法的教程【代码】

1、GET方式： # -*- coding: utf-8 -*- #!/usr/bin/python # filename: GETPOST_test.py # codedtime: 2014-9-20 19:07:04import bottledef check_login(username, password):if username == ‘123‘ and password == ‘234‘:return Trueelse:return False@bottle.route(‘/login‘) def login():if bottle.request.GET.get(‘do_submit‘,‘‘).strip(): #点击登录按钮# 第一种方式(latin1编码) ## username = bottle.requ...

Python “ValueError: incomplete format” upon print(“stuff %” % “thingy”) 解决方法【图】

直接贴代码这里我是想匹配length i 的值并且要打印出data里面%23也就是#的url编码，但是发现这样报错了，这时候我们在%23前面多加一个%号就能够成功执行我这里测试的2.7环境，3.x以上没有测试。。原文：http://www.cnblogs.com/Mrsm1th/p/6684626.html

python标准日志模块logging的使用方法

最近写一个爬虫系统，需要用到python的日志记录模块，于是便学习了一下。python的标准库里的日志系统从Python2.3开始支持。只要import logging这个模块即可使用。如果你想开发一个日志系统，既要把日志输出到控制台，还要写入日志文件，只要这样使用：复制代码代码如下:import logging# 创建一个loggerlogger = logging.getLogger(‘mylogger‘)logger.setLevel(logging.DEBUG)# 创建一个handler，用于写入日志文件fh = logging....

关于python中魔术方法和getter与setter的简记【代码】

python中一切皆对象，即我们定义的类本身也是对象　　　那么要注意每个类中可以写一些通用的方法，而且一般对外不可访问，即标识符首尾都有双下划线（没错__init__就是魔术方法之一），这些方法涉及到一些所有类可能都需要的属性，比如__len__可以返回长度，__repr__（）直接返回调用这个对象的返回值，（感觉类似c++中的函数对象的处理）。还有__new__()等在init之前创建对象时最先调用的方法，在对象使用结束之后还有一个__del__...

Python网络爬虫神器PyQuery的使用方法【代码】

#!/usr/bin/env python # -*- coding: utf-8 -*-import requests from pyquery import PyQuery as pqurl = ‘http://www.136book.com/huaqiangu/‘ headers = {‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36‘‘ (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36‘ }# 请求网页链接获取页面源码 r = requests.get(url, headers=headers).text doc = pq(r) # 获取网页的全部章节...

Python基础（数字,字符串方法）【代码】

数字:1#二进制转十进制2 a=‘100‘3 v=int(a,base=2) 4print(v)进制转换1#当前数字的二进制至少有多少位2 b=2 3 v2=b.bit_length() 4print(v2)数值二进制表示位数字符串:1#首字母大写2 a="kelvin"3 v=a.capitalize() 4print(v)首字母大写1#终极无敌‘大写‘变‘小写‘---->casefold2 b="KELVIN"3 v1=b.casefold() 4 v2=b.lower() 5print(v1) 6print(v2)大写转小写1#居中显示字符串2 c="kelvin"3 v3=c.center(50,"-") #第二个参数不...

Python3.x List方法集合

Python中的一个内置的基础类型叫List，类比于OC中的Array..他是有序的，那么下面写一些基础的方法，以备需要时候查阅：1>获取List的长度　　len(List)2> 索引访问元素　　List[0 ...N]3> 要取最后一个元素，除了计算索引位置外，还可以使用-1索引，如　　List[-1] 可以拿到最后一个位置的元素4> List是一个可变的有序表，所以可以追加元素到末尾　　List.append("XXX")5> 也可插入到指定位置　　List.insert(1,"XXX") 1是代表了...

（一）Python入门-6面向对象编程：03类对象-类属性-类方法-静态方法【代码】【图】

一：类对象　　前面讲的类定义格式中，“class 类名：”。实际上，当解释器执行class 语句时，就会创建一个类对象。【操作】#测试类对象的生成class Student:pass#空语句print(type(Student)) print(id(Student)) print(Student)s1 = Student() print(s1) Stu2 = Student s2 = Stu2() print(Stu2) print(s2)运行结果：　　<class ‘type‘>　　2220691901896　　<class ‘__main__.Student‘>　　<__main__.Student object at 0x0...

python列表的方法【代码】

1、append字列表末尾追加新的对象>>>lst=[1,2,3] >>>lst.append(4) >>>lst [1,2,3,4]2、count用于计算某个元素在列表中出现的次数>>>[‘to‘,‘be‘,‘or‘,‘not‘,‘to‘,‘be‘,‘this‘,‘is‘,‘a‘,‘question‘].count(‘to‘) 23、extend即使用一个b列表，来扩展a列表，注意，a列表会被改变。>>>a = [1,2,3] >>>b = [4,5,6] >>>a.extend(b) >>>a [1,2,3,4,5,6]同样的我们可以使用分片赋值4、indexindex方法用于从列表中找出...

关于python中strip方法的理解

1.strip方法并不是去除对称字符串的。比如a="123abcd321"a.strip()方法的结果是abcd有人可能就把strip方法理解成了“可以去除字符串两端对称字符”的一种方法。这么理解是错误的。2.strip方法既可以去除字符串左侧的字符也可以去除字符串右侧的字符，也可以两端同时去除。a="123abcd"a.strip(“123”)的结果是abcdb="abcd123"b.strip("123")的结果是abcdstrip方法的结果其实是先执行lstrip方法再执行rstrip方法，为了语义清楚，你如...

Python调用系统命令的6种方法

Python调用系统命令的6种方法在Python中调用系统命令一般使用os或者subprocess模块，下面介绍Python中最常用的6种调用系统命令的方法。1、os.system()该函数返回命令执行结果的返回值，system()函数在执行过程中进行了以下三步操作：1、fork一个子进程；2、在子进程中调用exec函数去执行命令；3、在父进程中调用wait（阻塞）去等待子进程结束。返回0表示命令执行成功，其他表示失败。用法：os.system("command")2、os.popen()这种调...

Learning-Python【26】：反射及内置方法【代码】

反射的概念可以用字符串的方式去访问对象的属性，调用对象的方法（但是不能去访问方法），Python 中一切皆对象，都可以使用反射。反射有四种方法：hasattr：hasattr（object, name）判断一个对象是否有 name 属性或者 name 方法。有就返回 True，没有就返回 Falsegetattr：获取对象的属性或者方法，如果存在则打印出来。hasattr 和 getattr 配套使用　　需要注意的是，如果返回的是对象的方法，返回出来的是对象的内存地址，如果需...

python tips:类的绑定方法（bound）和非绑定方法（unbound）【代码】

类属性只有类及其实例能够访问，可以理解为一个独立的命名空间。Python中类属性的引用方式有两种：1. 通过类的实例进行属性引用，称为绑定方法（bound method），可以理解为方法与实例绑定在一起。2. 通过类进行属性引用，称为非绑定方法（unbound method），方法没有与实例绑定。在绑定方法中，为了与实例绑定，Python自动将实例作为方法的第一个参数，而非绑定方法则表现的像普通函数，和普通函数的区别在于它只能通过类来访问。...

Python3+Selenium Web自动化测试案例分享⑷——页面基础类方法【代码】

本章节主要是封装selenium库的一些基础操作方法，如：打开网页、定位元素、截图等，这里是最基本最底层操作浏览器的方法，详情如下：一、basePage.py# _*_ coding:utf-8 _*_import time,os from selenium.webdriver.support.ui import WebDriverWait #导入显示等待等待from selenium.webdriver.support import expected_conditions as EC #导入判断方法from Public import getPathInfo,loglog_info =log.logger ...

python内置方法

1. 简介　　本指南归纳于我的几个月的博客，主题是魔法方法。　　什么是魔法方法呢？它们在面向对象的Python的处处皆是。它们是一些可以让你对类添加“魔法”的特殊方法。它们经常是两个下划线包围来命名的（比如 __init__ ， __lt__ ）。但是现在没有很好的文档来解释它们。所有的魔法方法都会在Python的官方文档中找到，但是它们组织松散。而且很少会有示例（有的是无聊的语法描述，语言参考）。　　所以，为了修复我感知的...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python – 计算相关矩阵子集的最快方法

python – 计算相关矩阵子集的最快方法

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 计算相关矩阵子集的最快方法】教程文章相关的互联网学习教程文章

Python的Bottle框架中实现最基本的get和post的方法的教程【代码】

Python “ValueError: incomplete format” upon print(“stuff %” % “thingy”) 解决方法【图】

python标准日志模块logging的使用方法

关于python中魔术方法和getter与setter的简记【代码】

Python网络爬虫神器PyQuery的使用方法【代码】

Python基础（数字,字符串方法）【代码】

Python3.x List方法集合

（一）Python入门-6面向对象编程：03类对象-类属性-类方法-静态方法【代码】【图】

python列表的方法【代码】

关于python中strip方法的理解

Python调用系统命令的6种方法

Learning-Python【26】：反射及内置方法【代码】

python tips:类的绑定方法（bound）和非绑定方法（unbound）【代码】

Python3+Selenium Web自动化测试案例分享⑷——页面基础类方法【代码】

python内置方法

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程