首页 / PYTHON / python – Anaconda的NumbaPro CUDA断言错误

python – Anaconda的NumbaPro CUDA断言错误

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python – Anaconda的NumbaPro CUDA断言错误，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4262字，纯文字阅读大概需要7分钟。

内容图文

我正在尝试使用NumbaPro的cuda扩展来增加大型阵列矩阵.我最终想要的是将大小为NxN的矩阵乘以一个对角矩阵,该矩阵将作为一维矩阵输入(因此,a.dot(numpy.diagflat(b))我发现它是一个同义词* b).但是,我收到的断言错误没有提供任何信息.

如果我将两个1D阵列矩阵相乘,我只能避免这个断言错误,但这不是我想要做的.

from numbapro import vectorize, cuda
from numba import f4,f8
import numpy as np

def generate_input(n):
    import numpy as np
    A = np.array(np.random.sample((n,n)))
    B = np.array(np.random.sample(n) + 10)
    return A, B

def product(a, b):
    return a * b

def main():
    cu_product = vectorize([f4(f4, f4), f8(f8, f8)], target='gpu')(product)

    N = 1000

    A, B = generate_input(N)
    D = np.empty(A.shape)

    stream = cuda.stream()

    with stream.auto_synchronize():
        dA = cuda.to_device(A, stream)
        dB = cuda.to_device(B, stream)
        dD = cuda.to_device(D, stream, copy=False)
        cu_product(dA, dB, out=dD, stream=stream)
        dD.to_host(stream)

if __name__ == '__main__':
    main()

这是我的终端吐出来的：

Traceback (most recent call last):
  File "cuda_vectorize.py", line 32, in <module>
    main()
  File "cuda_vectorize.py", line 28, in main
    cu_product(dA, dB, out=dD, stream=stream)
  File "/opt/anaconda1anaconda2anaconda3/lib/python2.7/site-packages/numbapro/_cudadispatch.py", line 109, in __call__
  File "/opt/anaconda1anaconda2anaconda3/lib/python2.7/site-packages/numbapro/_cudadispatch.py", line 191, in _arguments_requirement
AssertionError

解决方法:

问题是你在一个带有非标量参数的函数上使用了vectorize.使用NumbaPro的矢量化的想法是它将标量函数作为输入,并生成一个函数,将标量运算并行应用于矢量的所有元素.见NumbaPro documentation.

你的函数采用矩阵和向量,它们绝对不是标量. [编辑]您可以使用NumbaPro的cuBLAS包装器或编写自己的简单内核函数,在GPU上执行您想要的操作.这是一个演示两者的例子.注意将需要NumbaPro 0.12.2或更高版本(刚刚在此编辑时发布).

from numbapro import jit, cuda
from numba import float32
import numbapro.cudalib.cublas as cublas
import numpy as np
from timeit import default_timer as timer

def generate_input(n):
    A = np.array(np.random.sample((n,n)), dtype=np.float32)
    B = np.array(np.random.sample(n), dtype=A.dtype)
    return A, B

@cuda.jit(argtypes=[float32[:,:], float32[:,:], float32[:]])
def diagproduct(c, a, b):
  startX, startY = cuda.grid(2)
  gridX = cuda.gridDim.x * cuda.blockDim.x;
  gridY = cuda.gridDim.y * cuda.blockDim.y;
  height, width = c.shape

  for y in range(startY, height, gridY):
    for x in range(startX, width, gridX):       
      c[y, x] = a[y, x] * b[x]

def main():

    N = 1000

    A, B = generate_input(N)
    D = np.empty(A.shape, dtype=A.dtype)
    E = np.zeros(A.shape, dtype=A.dtype)
    F = np.empty(A.shape, dtype=A.dtype)

    start = timer()
    E = np.dot(A, np.diag(B))
    numpy_time = timer() - start

    blas = cublas.api.Blas()

    start = timer()
    blas.gemm('N', 'N', N, N, N, 1.0, np.diag(B), A, 0.0, D)
    cublas_time = timer() - start

    diff = np.abs(D-E)
    print("Maximum CUBLAS error %f" % np.max(diff))

    blockdim = (32, 8)
    griddim  = (16, 16)

    start = timer()
    dA = cuda.to_device(A)
    dB = cuda.to_device(B)
    dF = cuda.to_device(F, copy=False)
    diagproduct[griddim, blockdim](dF, dA, dB)
    dF.to_host()
    cuda_time = timer() - start   

    diff = np.abs(F-E)
    print("Maximum CUDA error %f" % np.max(diff))

    print("Numpy took    %f seconds" % numpy_time)
    print("CUBLAS took   %f seconds, %0.2fx speedup" % (cublas_time, numpy_time / cublas_time)) 
    print("CUDA JIT took %f seconds, %0.2fx speedup" % (cuda_time, numpy_time / cuda_time))

if __name__ == '__main__':
    main()

内核明显更快,因为SGEMM执行完整的矩阵 – 矩阵乘法(O(n ^ 3)),并将对角线扩展为完整矩阵. diagproduct功能更智能.它只是对每个矩阵元素进行单次乘法运算,并且从不将对角线扩展为完整矩阵.以下是我的NVIDIA Tesla K20c GPU上N = 1000的结果：

Maximum CUBLAS error 0.000000
Maximum CUDA error 0.000000
Numpy took    0.024535 seconds
CUBLAS took   0.010345 seconds, 2.37x speedup
CUDA JIT took 0.004857 seconds, 5.05x speedup

时序包括GPU的所有副本,这是小型矩阵的一个重要瓶颈.如果我们将N设置为10,000并再次运行,我们将获得更大的加速：

Maximum CUBLAS error 0.000000
Maximum CUDA error 0.000000
Numpy took    7.245677 seconds
CUBLAS took   1.371524 seconds, 5.28x speedup
CUDA JIT took 0.264598 seconds, 27.38x speedup

但是,对于非常小的矩阵,CUBLAS SGEMM具有优化的路径,因此它更接近CUDA性能.这里,N = 100

Maximum CUBLAS error 0.000000
Maximum CUDA error 0.000000
Numpy took    0.006876 seconds
CUBLAS took   0.001425 seconds, 4.83x speedup
CUDA JIT took 0.001313 seconds, 5.24x speedup

内容总结

以上是互联网集市为您收集整理的python – Anaconda的NumbaPro CUDA断言错误全部内容，希望文章能够帮你解决python – Anaconda的NumbaPro CUDA断言错误所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/799942.html

来源：【匿名】

【上一篇】python – ipdb中的后续“list”命令【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python – Anaconda的NumbaPro CUDA断言错误】教程文章相关的互联网学习教程文章

anaconda虚拟环境管理，从此Python版本不用愁【代码】

1 引言在前几篇博文中介绍过virtualenv、virtualenvwrapper等几个虚拟环境管理工具，本篇要介绍的anaconda也有很强大的虚拟环境管理功能，甚至相比virtualenv、virtualenvwrapper等工具，更加强大。Anaconda是专注于数据分析的Python发行版本，包含了conda、Python等190多个科学包及其依赖项。我们本篇要介绍的anaconda虚拟环境管理就是使用其中的conda。conda是一款极为特殊的环境管理工具，之所以说它特殊，conda的设计思想——c...

python、anaconda、jupyter notebook、pycharm、spyder【图】

说明：1.anaconda把任何东西都当做包来管理。2.anaconda本省集成了python和conda、spyder、numpy等。3.pip只用于python，conda可用于多种语言。参考资料：https://blog.csdn.net/Daliuvid/article/details/90640686原文：https://www.cnblogs.com/ironan-liu/p/11625420.html

安装完Anaconda python 3.7，想使用python3.6方法【代码】

cmd使用命令：conda create -n py36 python=3.6 anaconda安装好后，会有提示：To activate this environment, use:# > activate py36## To deactivate an active environment, use:# > deactivate## * for power-users using bash, you must source即想激活python3.6版本，使用命令：activate py36退出python3.6，使用命令：deactivate 原文：https://www.cnblogs.com/xiaodai0/p/9780101.html

Python - Anaconda使用

一、配置Jupyter的工作目录1）在命令行中输入jupyter notebook --generate-config，会产生一个配置文件　　我的会显示Writing default config to: C:\Users\allen\.jupyter\jupyter_notebook_config.py这样的提示。 2）找到对应的文件，搜索c.NotebookApp.notebook_dir　　将前面的#注释去掉，在后面填上自己想要设置的初始化目录。比如我设置成c.NotebookApp.notebook_dir = u‘D:\chengxu\ML‘　　以后就会将‘D:\chengxu\ML‘...

通过Anaconda安装Python3.7【图】

python安装有两种方式使用python安装包安装；1.去python官网：https://www.python.org/，下载安装包安装，安装完成后配置python环境，在dos窗口下输入命令python回车，查看是否安装成功，这样安装以后，如果需要使用第三方库得自己手动安装，遇到版本不兼容的问题经常被会被折磨的头疼成功示例截图备注说明一下：在使用Anaconda套件安装之前，电脑已经通过安装包成功装了python3.6.7(win7+64位系统)使用Anaconda套件安装:通过Anac...

环境配置 python 3.6+Anaconda+cuda9.0+cudNN7.1+Tensorflow

最近在摸deepface代码，一堆环境要配置，过程记录一下吧。安装顺序：Python-> Tensorflow -> Nvidia GPU Driver -> CUDA -> CUDNN一、安装Python3.6Ubuntu16.04系统下默认是python2.7.网上说一般不建议卸载系统自带的python，所以保留。 1. 配置软件仓库sudo add-apt-repository ppa:jonathonf/python-3.6 2. 检查系统软件包，安装Python3.6sudo apt-get update sudo apt-get update sudo apt-get install python3.6 3. 修改pyth...

安装了Anaconda之后,Maya运行报错，Python 找不到 Maya 的 Python 模块【图】

以前Maya用的好好地，结果安装了Anaconda之后，maya启动以后，日志就会报错（如下），只能自主建模，不能打开以前创建的模型，也不能导入fbx，错误提示就是Maya找不到Python模块，在网上查询有关资料，最后通过如下方式解决问题：第一步：找到 "E:\AutoDesk\maya2018\install\Maya2018\plug-ins\xgen\scripts\xgenm"目录下的xgGlobal.py文件（注意，对应到您自己的安装目录），打开文件，在文件头部添加如下代码（大概在42行，含注...

【吴恩达课程使用】anaconda (python 3.7) win10安装 tensorflow 1.8【代码】【图】

【吴恩达课程使用】anaconda (python 3.7) win10安装 tensorflow 1.8目前tensorflow是只支持到python3.6的，anaconda最新版本已经到python3.7。因为吴恩达课程比较旧一些，这里就配置更加稳定的win10+python3.5+tensorflow1.8版本。一、国内镜像源配置https://mirror.tuna.tsinghua.edu.cn/help/anaconda/各系统都可以通过修改用户目录下的 .condarc 文件:channels:- defaults show_channel_urls: true default_channels:- https:/...

Python | 安装和配置智能提示插件Anaconda （转）【图】

作为Python开发环境的Sublime Text 3，有了Anaconda就会如虎添翼。Anaconda是目前最流行也是最有威力的Python代码提示插件。工具/原料 Sublime Text 3 build3103插件安装 1我们使用Sublime Text插件安装工具package control来安装，怎么安装package control这个插件大家参考下面的应用文章 4Sublime Text 3 怎么安装插件 2好，现在打开package control菜单，输入install或者直接点击install package命令菜单3在新窗口输入Anaconda并...

6、Windows下Anaconda2(Python2)和Anaconda3(Python3)的共存【图】

前言Anaconda是一个Python的科学计算发行版，包含了超过300个流行的用于科学、数学、工程和数据分析的python Packages。由于Python有2和3两个版本，因此Anaconda也在Python2和Python3的基础上推出了两个发行版，即Anaconda2和Anaconda3。有时候我们会在电脑上同时使用Anaconda2和Anaconda3两个版本，因此有必要考虑它们的共存问题。一般的使用场景是以其中一个版本为主，另外一个版本为辅，因此只需要达到能方便的切换到备用版本，...

linux anaconda 管理 python 包

1.下载 anaconda https://www.continuum.io/downloads2.安装anaconda3.conda install package-name //利用anaconda安装各种库4.发现python import package-name 找不到解决 $ export PYTHONPATH=$PATHONPATH:/home/user-name/anaconda2/lib/python2.7/site-packages 将anaconda安装的各种包的路径包含到系统python里。之后python就可以import package-name 了。原文：http://www.cnblogs.com/pandaroll/p/6525015.html

Anaconda多环境多版本python配置指导【代码】

Anaconda多环境多版本python配置指导来自：http://www.jianshu.com/p/d2e15200ee9b原文地址：http://conda.pydata.org/docs/test-drive.htmlconda测试指南在开始这个conda测试之前，你应该已经下载并安装好了Anaconda或者Miniconda注意：在安装之后，你应该关闭并重新打开windows命令行。一、Conda测试过程：使用conda。首先我们将要确认你已经安装好了conda配置环境。下一步我们将通过创建几个环境来展示conda的环境管理功能。使你...

首页 / PYTHON / python – Anaconda的NumbaPro CUDA断言错误

python – Anaconda的NumbaPro CUDA断言错误

内容导读

内容图文

内容总结

内容备注

内容手机端

【python – Anaconda的NumbaPro CUDA断言错误】教程文章相关的互联网学习教程文章

anaconda虚拟环境管理，从此Python版本不用愁【代码】

python、anaconda、jupyter notebook、pycharm、spyder【图】

安装完Anaconda python 3.7，想使用python3.6方法【代码】

Python - Anaconda使用

通过Anaconda安装Python3.7【图】

环境配置 python 3.6+Anaconda+cuda9.0+cudNN7.1+Tensorflow

安装了Anaconda之后,Maya运行报错，Python 找不到 Maya 的 Python 模块【图】

【吴恩达课程使用】anaconda (python 3.7) win10安装 tensorflow 1.8【代码】【图】

Python | 安装和配置智能提示插件Anaconda （转）【图】

6、Windows下Anaconda2(Python2)和Anaconda3(Python3)的共存【图】

linux anaconda 管理 python 包

Anaconda多环境多版本python配置指导【代码】

Python + Anaconda + vscode环境重装（2019.4.20）【代码】【图】

python安装（利用anaconda ）【代码】【图】

windows上安装Anaconda和python的教程详解【代码】【图】

PYTHON - 相关标签

错误 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程