CUDA流不重叠-Java 学习之路

我有一些非常类似的代码：

int k, no_streams = 4;
cudaStream_t stream[no_streams];
for(k = 0; k < no_streams; k++) cudaStreamCreate(&stream[k]);

cudaMalloc(&g_in,  size1*no_streams);
cudaMalloc(&g_out, size2*no_streams);

for (k = 0; k < no_streams; k++)
  cudaMemcpyAsync(g_in+k*size1/sizeof(float), h_ptr_in[k], size1, cudaMemcpyHostToDevice, stream[k]);

for (k = 0; k < no_streams; k++)
  mykernel<<<dimGrid, dimBlock, 0, stream[k]>>>(g_in+k*size1/sizeof(float), g_out+k*size2/sizeof(float));

for (k = 0; k < no_streams; k++)
  cudaMemcpyAsync(h_ptr_out[k], g_out+k*size2/sizeof(float), size2, cudaMemcpyDeviceToHost, stream[k]);

cudaThreadSynchronize();

cudaFree(g_in);
cudaFree(g_out);

'h_ptr_in'和'h_ptr_out'是用cudaMallocHost分配的指针数组（没有标志） .

问题是流不重叠 . 在可视化分析器中，我可以看到第一个流中的内核执行与第二个流中的副本（H2D）重叠，但没有其他重叠 .

我可能没有资源来运行2个内核（我想我这样做）但至少内核执行和副本应该重叠，对吧？如果我把所有3（复制H2D，内核执行，复制D2H）放在同一个for循环中，它们之间没有任何重叠......

请帮忙，这可能导致什么？

我正在跑步：

Ubuntu 10.04 x64

设备：“GeForce GTX 460”（CUDA驱动程序版本：3.20，CUDA运行时版本：3.20，CUDA能力主要/次要版本号：2.1，并发复制和执行：是，并发内核执行：是）

2 回答

7

根据NVIDIA论坛上的this post，探查器将序列化流媒体以获得准确的计时数据 . 如果您认为您的时间关闭，请确保您正在使用CUDA活动......

我最近一直在尝试流式传输，我发现SDK中的 "simpleMultiCopy" 示例非常有用，特别是在适当的逻辑和同步方面 .

回复于 2024-05-06T12:40:10+08:00
3

如果要查看内核与内核（并发内核）重叠，则需要使用CUDA 5.0 Toolkit附带的CUDA Visual Profiler 5.0 . 我不认为以前的分析师能够做到这一点 . 它还应该显示内核和memcpy重叠 .

回复于 2024-05-06T12:40:10+08:00

CUDA流不重叠

2 回答

相关问题