在CUDA中移动设备上的内存-Java 学习之路

在CUDA中移动设备上的数据的最快方法是什么？

我需要做的是基本上将连续的子行和子列（我在设备上有索引）从行主矩阵复制到新的小矩阵中，但从我观察到的情况来看，CUDA中的内存访问是不是特别有效，因为看起来核心被优化来进行计算而不是内存 .

现在，CPU似乎非常擅长执行顺序操作，例如将对齐内存行从一个地方移动到另一个地方 .
我看到三个选择：

现在我可以在我的特定gpu上测试这个，但考虑到它的规格，我认为它不具有代表性 . 一般来说，推荐什么？

编辑：

我基本上将两个矩阵A，B相乘，但我只对X元素的乘法感兴趣：

A =[[XX      XX]
    [  XX  XX  ]
    [XX  XX    ]]

使用B列中的相应元素.XX总是具有相同的长度，我知道它们的位置（并且每行有固定的数量） .

1 回答