首页 文章

如何使用blas以最佳方式转置矩阵?

提问于
浏览
9

我正在做一些计算,并对不同BLAS实现的力量和弱点进行一些分析 . 但是我遇到了一个问题 .

我正在测试cuBlas,在GPU上做linAlg似乎是个好主意,但是有一个问题 .

使用列主格式的cuBlas实现,因为这不是我最终需要的,我很好奇是否有一种方法可以让BLAS做矩阵转置?

1 回答

  • 10

    BLAS没有内置的矩阵转置例程.CUDA SDK包含一个矩阵转置示例,其中包含一篇论文,讨论了执行转置的最佳策略 . 您最好的策略可能是使用CUBLAS的行主要输入和调用的转置输入版本,然后在列major中执行中间计算,最后使用SDK转置内核执行转置操作 .


    编辑添加CUBLAS在CUBLAS第5版中添加了一个转置例程 geam ,它可以在GPU内存中执行矩阵转置,应该被认为是您正在使用的任何架构的最佳选择 .

相关问题