Java 学习之路

2 votes

answers

views

libcublas.so.9.0：无法打开共享对象文件：Ubuntu 18.04中没有这样的文件或目录

我正在尝试在Ubuntu 18.04中安装tensorflow . CUDA和cudnn测试全部通过 . 测试tensorflow安装时，这个问题的 Headers 是我的错误 . 我看到同样的问题要求Ubuntu 16.04，但答案并没有立即有用 . 一个答案建议使用strace，但我不理解输出 . 这是我的完整错误消息：回溯（最近一次调用最后一次）：文件“/home/dma/tensorf...

tensorflow cublas ubuntu-18.04
-2 votes

answers

views

在cuda中计算矩阵A.transpose * A.

当我在cuda中计算`A.transpose * A'时有一些问题 . 假设A是M * N矩阵并存储在column-major中，我尝试使用此函数 cublasSgemm_v2 这是Cublas中的Matrix-Matrix乘法API 像这样： cublasSgemm_v2(handle,CUBLAS_OP_T,CUBLAS_OP_N,N,N,M,&al,A,N,A,M,&bet...

cuda gpu cublas
3 votes

answers

views

CUBLAS - 矩阵加法......怎么样？

我正在尝试使用CUBLAS来总结两个未知大小的大矩阵 . 我需要一个完全优化的代码（如果可能的话）所以我选择不重写矩阵加法代码（简单）但是使用CUBLAS，特别是允许对A和C求和的cublasSgemm函数（如果B是单位矩阵）：* C = alpha * op（A）* op（B）beta * c * 问题是：C和C以行主格式存储矩阵，而cublasSgemm旨在（以便兼容）以列主格式工作 . 你可...

c++ matrix cuda blas cublas
7 votes

answers

views

如何使CUDA中的矩阵列标准化并获得最大性能？

如何有效地规范化CUDA中的矩阵列？我的矩阵存储在column-major中，典型大小为2000x200 . 该操作可以用以下matlab代码表示 . A = rand(2000,200); A = exp(A); A = A./repmat(sum(A,1), [size(A,1) 1]); 这可以通过Thrust，cuBLAS和/或cuNPP有效地完成吗？包括4个内核的快速实现如下所示...

performance matrix cuda thrust cublas
0 votes

answers

views

如何配置cublas {t} symm（）函数参数

该函数使用CUDA执行对称矩阵 - 矩阵乘法 . 虽然，我成功地使用了非对称版本“cublas gemm（）”但我无法正确使用“cublas symm（）”函数 . 我知道CUBLAS库使用列主要矩阵存储 . 我正在使用行主C / C矩阵，我知道如何通过替换输入矩阵等来解决“cublas gemm（）”这个问题 . 但是，我无法解决对称情况 . 问题是即使我使用列主要矩阵存储我发现了意想不到...

cuda multiplication cublas symmetric
1 votes

answers

views

CUDA / CUBLAS矩阵 - 向量乘法

我之前发布了一个关于CUDA中矩阵向量乘法的问题以及关于编写自己的内核的问题 . 在这之后，我决定使用CUBLAS按照一些用户（感谢@Robert Crovella）的建议来实现我的问题，希望获得更高的性能（我的项目是性能驱动的） . 只是为了澄清：我想将NxN矩阵与1xN向量相乘 . 我一直在看下面粘贴的代码几天，我无法弄清楚为什么乘法会给我一个不正确的结果 . 我担心使用<vector&...

c++ vector matrix cuda cublas
10 votes

answers

views

CUDA中的矩阵向量乘法：基准测试和性能

我正在用一些新的基准测试结果更新我的问题（我还重新提出了更具体的问题并更新了代码）... 我使用共享内存在CUDA C Programming Guide之后在CUDA C中实现了用于矩阵向量乘法的内核 . 让我首先介绍一些我在Jetson TK1（GPU：Tegra K1，计算能力3.2）上做的基准测试结果以及与cuBLAS的比较：在这里，我猜cuBLAS做了一些魔术，因为它的执行似乎不受...

cuda gpu gpgpu nvidia cublas
0 votes

answers

views

在CUDA内核中使用cublasStbsv

我正在尝试用我的CUDA内核中的 cublasStbsv 函数求解一个等式 . 内核代码如下： __global__ void invokeDeviceCublasSgemm(cublasStatus_t *returnValue, int n, ...

cuda cublas
-2 votes

answers

views

优化具有大量零的cuda中的向量矩阵乘法

我正在使用以下内核来优化矢量矩阵乘法，以用于矢量和矩阵都具有大量零的情况 . 使用这个内核 may reduce 这是乘以cublasSgemv所用时间 up to half 所花费的时间，对于有超过90％零的情况 . 但是，它仍然是Ubuntu 14.04上的主机调用 vec = 1×m，mat = m×m，prod = 1×m;所有都是按主要顺序排列的 m> = 5000 __globa...

cuda cublas
9 votes

answers

views

如何使用blas以最佳方式转置矩阵？

我正在做一些计算，并对不同BLAS实现的力量和弱点进行一些分析 . 但是我遇到了一个问题 . 我正在测试cuBlas，在GPU上做linAlg似乎是个好主意，但是有一个问题 . 使用列主格式的cuBlas实现，因为这不是我最终需要的，我很好奇是否有一种方法可以让BLAS做矩阵转置？

c cuda blas cublas
-1 votes

answers

views

CUDA计算机库克罗内克产品[关闭]

我有一个应用程序，需要我计算一些2D矩阵的大型Kronecker产品，并将结果乘以大型2D矩阵 . 我想在CUDA中的GPU上实现它，并且更愿意为此使用调优的库实现，而不是编写我自己的（当然不是最理想的）Kronecker产品 . 我有使用CUDA，BLAS，LAPACK等的经验，但不幸的是在常见的GPU实现（岩浆，cuBLAS，cula等）中没有kron（A，B）功能 . 我找到了一个适合我需求...

cuda blas cublas cula magma
1 votes

answers

views

如何在CUDA中将密集向量转换为稀疏向量？

我在GPU内存中有一个大的密集向量（不是矩阵）： [1,3,0,0,4,0,0] 并希望将其转换为稀疏格式： values = [1,3,4];指数= [0,1,4] 我知道我可以在 cuSPARSE 中调用 cusparse<t>dense2csc() ，但这是为矩阵设计的，对于矢量可能效率不高 . 有没有其他方法可以做到这一点？或者也许是CUDA内核 . 谢谢

c++ cuda gpu sparse-matrix cublas

热门问题