首页 文章
  • 2 votes
     answers
     views

    libcublas.so.9.0:无法打开共享对象文件:Ubuntu 18.04中没有这样的文件或目录

    我正在尝试在Ubuntu 18.04中安装tensorflow . CUDA和cudnn测试全部通过 . 测试tensorflow安装时,这个问题的 Headers 是我的错误 . 我看到同样的问题要求Ubuntu 16.04,但答案并没有立即有用 . 一个答案建议使用strace,但我不理解输出 . 这是我的完整错误消息: 回溯(最近一次调用最后一次):文件“/home/dma/tensorf...
  • -2 votes
     answers
     views

    在cuda中计算矩阵A.transpose * A.

    当我在cuda中计算`A.transpose * A'时有一些问题 . 假设A是M * N矩阵并存储在column-major中,我尝试使用此函数 cublasSgemm_v2 这是Cublas中的Matrix-Matrix乘法API 像这样 : cublasSgemm_v2(handle,CUBLAS_OP_T,CUBLAS_OP_N,N,N,M,&al,A,N,A,M,&bet...
  • 3 votes
     answers
     views

    CUBLAS - 矩阵加法......怎么样?

    我正在尝试使用CUBLAS来总结两个未知大小的大矩阵 . 我需要一个完全优化的代码(如果可能的话)所以我选择不重写矩阵加法代码(简单)但是使用CUBLAS,特别是允许对A和C求和的cublasSgemm函数(如果B是单位矩阵):* C = alpha * op(A)* op(B)beta * c * 问题是:C和C以行主格式存储矩阵,而cublasSgemm旨在(以便兼容)以列主格式工作 . 你可...
  • 7 votes
     answers
     views

    如何使CUDA中的矩阵列标准化并获得最大性能?

    如何有效地规范化CUDA中的矩阵列? 我的矩阵存储在column-major中,典型大小为2000x200 . 该操作可以用以下matlab代码表示 . A = rand(2000,200); A = exp(A); A = A./repmat(sum(A,1), [size(A,1) 1]); 这可以通过Thrust,cuBLAS和/或cuNPP有效地完成吗? 包括4个内核的快速实现如下所示...
  • 0 votes
     answers
     views

    如何配置cublas {t} symm()函数参数

    该函数使用CUDA执行对称矩阵 - 矩阵乘法 . 虽然,我成功地使用了非对称版本“cublas gemm()”但我无法正确使用“cublas symm()”函数 . 我知道CUBLAS库使用列主要矩阵存储 . 我正在使用行主C / C矩阵,我知道如何通过替换输入矩阵等来解决“cublas gemm()”这个问题 . 但是,我无法解决对称情况 . 问题是即使我使用列主要矩阵存储我发现了意想不到...
  • 1 votes
     answers
     views

    CUDA / CUBLAS矩阵 - 向量乘法

    我之前发布了一个关于CUDA中矩阵向量乘法的问题以及关于编写自己的内核的问题 . 在这之后,我决定使用CUBLAS按照一些用户(感谢@Robert Crovella)的建议来实现我的问题,希望获得更高的性能(我的项目是性能驱动的) . 只是为了澄清:我想将NxN矩阵与1xN向量相乘 . 我一直在看下面粘贴的代码几天,我无法弄清楚为什么乘法会给我一个不正确的结果 . 我担心使用<vector&...
  • 10 votes
     answers
     views

    CUDA中的矩阵向量乘法:基准测试和性能

    我正在用一些新的基准测试结果更新我的问题(我还重新提出了更具体的问题并更新了代码)... 我使用共享内存在CUDA C Programming Guide之后在CUDA C中实现了用于矩阵向量乘法的内核 . 让我首先介绍一些我在Jetson TK1(GPU:Tegra K1,计算能力3.2)上做的基准测试结果以及与cuBLAS的比较: 在这里,我猜cuBLAS做了一些魔术,因为它的执行似乎不受...
  • 0 votes
     answers
     views

    在CUDA内核中使用cublasStbsv

    我正在尝试用我的CUDA内核中的 cublasStbsv 函数求解一个等式 . 内核代码如下: __global__ void invokeDeviceCublasSgemm(cublasStatus_t *returnValue, int n, ...
  • -2 votes
     answers
     views

    优化具有大量零的cuda中的向量矩阵乘法

    我正在使用以下内核来优化矢量矩阵乘法,以用于矢量和矩阵都具有大量零的情况 . 使用这个内核 may reduce 这是乘以cublasSgemv所用时间 up to half 所花费的时间,对于有超过90%零的情况 . 但是,它仍然是Ubuntu 14.04上的主机调用 vec = 1×m,mat = m×m,prod = 1×m;所有都是按主要顺序排列的 m> = 5000 __globa...
  • 9 votes
     answers
     views

    如何使用blas以最佳方式转置矩阵?

    我正在做一些计算,并对不同BLAS实现的力量和弱点进行一些分析 . 但是我遇到了一个问题 . 我正在测试cuBlas,在GPU上做linAlg似乎是个好主意,但是有一个问题 . 使用列主格式的cuBlas实现,因为这不是我最终需要的,我很好奇是否有一种方法可以让BLAS做矩阵转置?
  • -1 votes
     answers
     views

    CUDA计算机库克罗内克产品[关闭]

    我有一个应用程序,需要我计算一些2D矩阵的大型Kronecker产品,并将结果乘以大型2D矩阵 . 我想在CUDA中的GPU上实现它,并且更愿意为此使用调优的库实现,而不是编写我自己的(当然不是最理想的)Kronecker产品 . 我有使用CUDA,BLAS,LAPACK等的经验,但不幸的是在常见的GPU实现(岩浆,cuBLAS,cula等)中没有kron(A,B)功能 . 我找到了一个适合我需求...
  • 1 votes
     answers
     views

    如何在CUDA中将密集向量转换为稀疏向量?

    我在GPU内存中有一个大的密集向量(不是矩阵): [1,3,0,0,4,0,0] 并希望将其转换为稀疏格式: values = [1,3,4];指数= [0,1,4] 我知道我可以在 cuSPARSE 中调用 cusparse<t>dense2csc() ,但这是为矩阵设计的,对于矢量可能效率不高 . 有没有其他方法可以做到这一点?或者也许是CUDA内核 . 谢谢

热门问题