首页 / PYTHON / python – 在Cython与NumPy中汇总int和float时的大性能差异

python – 在Cython与NumPy中汇总int和float时的大性能差异

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – 在Cython与NumPy中汇总int和float时的大性能差异，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5732字，纯文字阅读大概需要9分钟。

内容图文

python – 在Cython与NumPy中汇总int和float时的大性能差异

我使用Cython或NumPy对一维数组中的每个元素求和.当求和整数时,Cython的速度提高了约20％.总结浮点数时,Cython慢??约2.5倍.以下是使用的两个简单函数.

#cython: boundscheck=False
#cython: wraparound=False

def sum_int(ndarray[np.int64_t] a):
    cdef:
        Py_ssize_t i, n = len(a)
        np.int64_t total = 0

    for i in range(n):
        total += a[i]
    return total 

def sum_float(ndarray[np.float64_t] a):
    cdef:
        Py_ssize_t i, n = len(a)
        np.float64_t total = 0

    for i in range(n):
        total += a[i]
    return total

计时

创建两个每个包含100万个元素的数组：

a_int = np.random.randint(0, 100, 10**6)
a_float = np.random.rand(10**6)

%timeit sum_int(a_int)
394 μs ± 30 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit a_int.sum()
490 μs ± 34.2 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit sum_float(a_float)
982 μs ± 10.8 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit a_float.sum()
383 μs ± 4.42 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

附加要点

> NumPy表现优于(通过相当大的幅度)浮动,甚至超过自己的整数和.
> sum_float的性能差异与缺少的boundscheck和wraparound指令相同.为什么？
>将sum_int中的整数numpy数组转换为C指针(np.int64_t * arr =< np.int64_t *> a.data)可将性能提高25％.对浮子这样做什么也没做

主要问题

我怎样才能在Cython中使用整数浮点数获得相同的性能？

编辑 – 只是计数很慢？！？

我写了一个更简单的函数,它只计算迭代次数.第一个将计数存储为int,后者为double.

def count_int():
    cdef:
        Py_ssize_t i, n = 1000000
        int ct=0

    for i in range(n):
        ct += 1
    return ct

def count_double():
    cdef:
        Py_ssize_t i, n = 1000000
        double ct=0

    for i in range(n):
        ct += 1
    return ct

计数的时间

我只跑了一次(害怕缓存).不知道循环是否实际上正在为整数执行,但count_double与上面的sum_float具有相同的性能.这太疯狂了…

%timeit -n 1 -r 1 count_int()
1.1 μs ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

%timeit -n 1 -r 1 count_double()
971 μs ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

解决方法:

我不会回答你所有的问题,但只是(在我看来)最有趣的问题.

让我们从您的计数示例开始：

>编译器能够在整数情况下优化for循环 – 得到的二进制文件不会计算任何东西 – 它只能返回编译阶段预先计算的值.
>对于双重情况??不是这种情况,因为由于舍入错误,结果将不是1.0 * 10 ** 6并且因为cython在默认情况下在IEEE 754(非-ffast-math)模式下编译.

在查看你的cython代码时你必须记住这一点：不允许编译器重新排列求和(IEEE 754),并且因为下一个需要第一个求和的结果,所有操作只有一个长行等待.

但最关键的见解是：numpy与你的cython代码不一样：

>>> sum_float(a_float)-a_float.sum()
2.9103830456733704e-08

是的,没有人告诉numpy(与你的cython代码不同),总和必须像这样计算

((((a_1+a2)+a3)+a4)+...

numpy以两种方式利用它：

>它执行pairwise summation(种类),这导致较小的舍入误差.
>它以块的形式计算总和(python的代码有点难以理解,这里是corresponding template并且在使用的函数pairwise_sum_DOUBLE列表的下方)

第二点是您观察加速的原因,计算类似于以下模式(至少我从下面的源代码中理解)：

a1  + a9 + .....  = r1 
a2  + a10 + ..... = r2
..
a8  + a16 +       = r8

----> sum=r1+....+r8

这种求和的优点：a2 a10的结果不依赖于a1 a9,这两个值可以在现代CPU上同时计算(例如pipelining),这会导致你观察到的加速.

对于它的价值,在我的机器上,cython-integer-sum比numpy慢.

需要考虑numpy-array的步幅(仅在运行时已知,参见this question关于矢量化)会阻止一些优化.解决方法是使用内存视图,您可以明确表示数据是连续的,即：

def sum_int_cont(np.int64_t[::1] a):

这导致我的机器显着加速(因子2)：

%timeit sum_int(a_int)
2.64 ms ± 46.8 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit sum_int_cont(a_int)
1.31 ms ± 19 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit a_int.sum()
2.1 ms ± 105 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)

确实,在这种情况下,使用双精度的内存视图不会带来任何加速(不知道为什么),但一般来说它简化了优化器的使用寿命.例如,将memory-view-variant与-ffast-math编译选项结合起来,这将允许关联性,从而产生与numpy相当的性能：

%%cython -c=-ffast-math
cimport numpy as np
def sum_float_cont(np.float64_t[::1] a):
    cdef:
        Py_ssize_t i, n = len(a)
        np.float64_t total = 0

    for i in range(n):
        total += a[i]
    return total

现在：

>>> %timeit sum_float(a_float)
3.46 ms ± 226 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
>>> %timeit sum_float_cont(a_float)
1.87 ms ± 44 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
>>> %timeit a_float.sum()
1.41 ms ± 88.5 μs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

pairwise_sum_DOUBLE列表：

/*
 * Pairwise summation, rounding error O(lg n) instead of O(n).
 * The recursion depth is O(lg n) as well.
 * when updating also update similar complex floats summation
 */
static npy_double
pairwise_sum_DOUBLE(npy_double *a, npy_uintp n, npy_intp stride)
{
    if (n < 8) {
        npy_intp i;
        npy_double res = 0.;
        for (i = 0; i < n; i++) {
            res += (a[i * stride]);
        }
        return res;
    }
    else if (n <= PW_BLOCKSIZE) {
        npy_intp i;
        npy_double r[8], res;

        /*
         * sum a block with 8 accumulators
         * 8 times unroll reduces blocksize to 16 and allows vectorization with
         * avx without changing summation ordering
         */
        r[0] = (a[0 * stride]);
        r[1] = (a[1 * stride]);
        r[2] = (a[2 * stride]);
        r[3] = (a[3 * stride]);
        r[4] = (a[4 * stride]);
        r[5] = (a[5 * stride]);
        r[6] = (a[6 * stride]);
        r[7] = (a[7 * stride]);

        for (i = 8; i < n - (n % 8); i += 8) {
            r[0] += (a[(i + 0) * stride]);
            r[1] += (a[(i + 1) * stride]);
            r[2] += (a[(i + 2) * stride]);
            r[3] += (a[(i + 3) * stride]);
            r[4] += (a[(i + 4) * stride]);
            r[5] += (a[(i + 5) * stride]);
            r[6] += (a[(i + 6) * stride]);
            r[7] += (a[(i + 7) * stride]);
        }

        /* accumulate now to avoid stack spills for single peel loop */
        res = ((r[0] + r[1]) + (r[2] + r[3])) +
              ((r[4] + r[5]) + (r[6] + r[7]));

        /* do non multiple of 8 rest */
        for (; i < n; i++) {
            res += (a[i * stride]);
        }
        return res;
    }
    else {
        /* divide by two but avoid non-multiples of unroll factor */
        npy_uintp n2 = n / 2;
        n2 -= n2 % 8;
        return pairwise_sum_DOUBLE(a, n2, stride) +
               pairwise_sum_DOUBLE(a + n2 * stride, n - n2, stride);
    }
}

内容总结

以上是互联网集市为您收集整理的python – 在Cython与NumPy中汇总int和float时的大性能差异全部内容，希望文章能够帮你解决python – 在Cython与NumPy中汇总int和float时的大性能差异所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/704238.html

来源：【匿名】

【上一篇】在python中获取.gz文件的未压缩大小【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – 在Cython与NumPy中汇总int和float时的大性能差异】教程文章相关的互联网学习教程文章

Faster-RCNN-TensorFlow-Python3版本关于ImportError: No module named 'lib.utils.cython_bbox'【图】

首先用的源代码是：https://github.com/dBeker/Faster-RCNN-TensorFlow-Python3 下载之后按照里面的要求来但Go to ./data/coco/PythonAPI这一步，要先激活faster的环境，再生成对应的配置文件，不然生成文件就很坑如图，你看对应的红框里面都是cp35，一定要是35，（是不是35是根据你python版本来定的，例如python3.5生成cp35的文件，当然也许和cython版本有关，我的是0.29.1）不然就会有bbox_xxx找不到之类的，这个坑了我很久

分享Cython安装与使用入门经验

一、Cython是什么?它是一个用来快速生成http://www.gxlcms.com/wiki/1514.html" target="_blank">Python扩展模块(extention module)的工具它的语法是python语言语法和c语言语法的混血他比swig更容易编写python的扩展模块也许你会说swig可以直接通过c的头文件生成扩展模块，但是swig对回调函数的支持不是很好，另外，如果用swig，很多情况下，你要写额外的代码将输入的参数转换成python对象以及将输出转成python对象，例如如果封装的...

Cython三分钟入门教程

作者：perrygeo译者：赖勇浩（http://laiyonghao.com）原文：http://www.perrygeo.net/wordpress/?p=116 我最喜欢的是Python，它的代码优雅而实用，可惜纯粹从速度上来看它比大多数语言都要慢。大多数人也认为的速度和易于使用是两极对立的——编写C代码的确非常痛苦。而 Cython 试图消除这种两重性，并让你同时拥有 Python 的语法和 C 数据类型和函数——它们两个都是世界上最好的。请记住，我绝不是我在这方面的专家，这是我的第...

如何将Python自然语言处理速度提升100倍：用spaCy/Cython加速NLP【图】

所以我决定好好处理这个问题，最后开发出了比之前版本（每秒几千单词）性能提升百倍的 NeuralCoref v3.0（https://github.com/huggingface/neuralcoref），同时还保持了同样水准的准确性和易用性。本文中，我会分享在这个项目上总结的一些经验，重点包括：怎样在 Python 中设计一个高效率的模块。怎样充分利用 spaCy 的内部数据结构来快速设计极高性能的 NLP函数。**这里我耍了点小花招，因为我们既要谈论 Python，同时还会涉及...

使用Cython加密Python代码【代码】

比较好的参考资料Cython 官方文档中文版点击查看Python生成 .pyd 文件点击查看.py文件打包编译成 .pyd 或者 .so ，保护代码点击查看使用setup.py打包成库供别的模块调用点击查看Python 库打包分发(setup.py 编写)简易指南点击查看Python 包管理工具解惑点击查看也可以使用easycython，安装easycythonpip install easycython -i https://pypi.tuna.tsinghua.edu.cn/simple # 这个模块也会自动安装依赖的cython点赞收藏...

在Python脚本中调用Cython函数时出现意外的性能损失？【代码】

因此,我在Python脚本中有一段对时间要求严格的代码,因此我决定编写一个Cython模块(具有一个功能-我需要的全部)来替换它.不幸的是,我从Cython模块(在Python脚本中调用的)调用的函数的执行速度几乎不像我在各种其他情况下测试的那样快.请注意,由于合同法的限制,我无法共享代码！请参阅以下情况,并将其作为对我的问题的初步描述： (1)使用Python解释器执行Cython函数,以导入模块并运行该函数.运行速度相对较快(在约100个单独的测试中约...

python-无法在OS X Lion中构建Cython / distutils.【代码】

我在互联网上到处都在寻找解决方案,但没有发现任何帮助. 我正在尝试使用Cython将C代码嵌入到我的python程序中.python setup.py build_ext --inplace当我运行上面的代码时,它抱怨编译器,而不是gcc-4.0.我现在知道Lion上仅安装了gcc-4.2(python 2.7 32位).反正有没有得到4.0,我试过芬克,但它没有. (我已经在Windows和我的带有雪豹的朋友笔记本电脑上运行了此程序,并且运行良好). 如果我尝试指定已安装的gcc,我会得到error: don't kno...

使用Cython和distutilis方法从Python调用C代码【代码】

我正在尝试使用cython从python脚本调用c代码.我已经设法使用here的示例了,但问题是：我的c代码包括来自opencv的非标准库.我相信我没有正确链接它们,因此我需要有人来查看我的setup.py以及cpp_rect.h和cpp_rect.cpp文件. 我遇到的错误与* .cpp文件中的粗体行yn有关：cv :: Mat img1(7,7,CV_32FC2,Scalar(1,3));当我尝试测试库时,在执行$python userect.py时收到包含错误：Traceback (most recent call last):File "userect.py", lin...

python-Cython的C API声明失败【代码】

我有两个文件module.pyx和foo.cpp.我希望能够调用在cython模块module.pyx中声明的foo.cpp中的函数.此函数返回指向矢量的指针： module.pyx：#distuils: language = c++from libcpp.vector cimport vector from cython.operator cimport dereference as derefcdef api vector[int] *func():cdef vector[int] *v = new vector[int]()deref(v).push_back(3)return vfoo.cpp：#include "module_api.h" #include <vector> #include <ios...

python-Cython直接访问全局变量【代码】

如何在不使用访问器函数的情况下访问用Cython声明的全局变量？我尝试了以下示例： pyfunktionen_a.pyximport numpy as npcdef extern from "funktionen_a.h":cdef void setValue(int value_to_set)cdef int readValue()cdef int valuedef pysetValue (_value):setValue(_value)def pyreadValue():print readValue()def manipulateValue(value_to_set):value = value_to_setfunktionen_a.c#include "funktionen_a.h"void setValue(...

Cython调用lapack,错误：“无法获取Python变量的地址”【代码】

我的问题与here所提出的问题非常相似,因此我尝试根据example调用与python捆绑在一起的blas来实现答案中提出的内容.我的代码只是example.pyx的略微修改版本,这是我的相关代码(文件f2pyptr.h不变)：#example.pyx (single precision linear system solver via lapack) import numpy as np import scipy.linalg.lapack import cython cimport numpy as npcdef extern from "/(pwd)/f2pyptr.h": void *f2py_pointer(object) except NULL...

python-基于`setuptools`给出的外部值的Cython条件编译【代码】

我尝试有条件地从Cython pyx文件生成C代码.我在Cython文档中发现,可以使用DEF定义值,并且可以使用IF根据定义的值有条件地生成代码,但是如何通过setuptools的Extension通过setup.py设置值. 谢谢解决方法:谢谢你的链接. setup.py中有趣的标志是cython_compile_time_env.并从Cython导入扩展.from setuptools import setup from Cython.Distutils.extension import Extensionext = Extension(name,include_dirs=include_dirs,cython_co...

python-如何在cython中编译多个文件【代码】

Cybie的新手.我在名为setup.py的文件中使用以下代码段将另一个文件编译为Cython(SO用户在here上向我建议)from distutils.core import setup from distutils.extension import Extension from Cython.Distutils import build_extext_modules = [Extension('func1', ['util/func1_pc.py'],)]setup(name="Set 1 of Functions",cmdclass={'build_ext': build_ext},ext_modules=ext_modules )我将其编译为python setup.py build_ext –i...

python-cx_freeze无法包含Cython .pyx模块【代码】

我有一个Python应用程序,最近在其中添加了Cython模块.使用pyximport从脚本运行它可以正常工作,但我还需要使用cx_freeze构建的可执行版本. 麻烦的是,尝试构建它会给我一个可执行文件,该可执行文件会引发ImportError并试图导入.pyx模块. 我这样修改了setup.py,以查看是否可以先编译.pyx以便cx_freeze可以成功打包它：from cx_Freeze import setup, Executable from Cython.Build import cythonizesetup(name='projectname',version='...

python-Cython字典/地图【代码】

我有一个元素列表,像这样的标签对：[[e1,l1),(e2,l2),(e3,l1)] 我必须计算两个元素共有多少个标签-即.在上面的e1和e3列表中,共有标签l1,因此共有1个标签. 我有这个Python实现：def common_count(e_l_list):count = defaultdict(int)l_list = defaultdict(set)for e1, l in e_l_list:for e2 in l_list[l]:if e1 == e2:continueelif e1 > e2:count[e1,e2] += 1else:count[e2,e1] += 1l_list[l].add(e1)return count它需要一个类似于上...

首页 / PYTHON / python – 在Cython与NumPy中汇总int和float时的大性能差异

python – 在Cython与NumPy中汇总int和float时的大性能差异

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – 在Cython与NumPy中汇总int和float时的大性能差异】教程文章相关的互联网学习教程文章

Faster-RCNN-TensorFlow-Python3版本关于ImportError: No module named 'lib.utils.cython_bbox'【图】

分享Cython安装与使用入门经验

Cython三分钟入门教程

如何将Python自然语言处理速度提升100倍：用spaCy/Cython加速NLP【图】

使用Cython加密Python代码【代码】

在Python脚本中调用Cython函数时出现意外的性能损失？【代码】

python-无法在OS X Lion中构建Cython / distutils.【代码】

使用Cython和distutilis方法从Python调用C代码【代码】

python-Cython的C API声明失败【代码】

python-Cython直接访问全局变量【代码】

Cython调用lapack,错误：“无法获取Python变量的地址”【代码】

python-基于`setuptools`给出的外部值的Cython条件编译【代码】

python-如何在cython中编译多个文件【代码】

python-cx_freeze无法包含Cython .pyx模块【代码】

python-Cython字典/地图【代码】

PYTHON - 相关标签

INT - 相关标签

性能 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程