CUDA使用cudaMemcpy复制多个结构数组-Java 学习之路

假设一个带有一些基元和一组Y结构的struct X：

typedef struct 
{ 
   int a;    
   Y** y;
} X;

X的实例X1在主机上初始化，然后通过cudaMemcpy复制到设备内存上的X的实例X2 .

这适用于X中的所有基元（例如int a），但是cudaMemcpy似乎将任何双指针展平为单个指针，因此在X中可以访问结构数组的任何地方都会导致超出范围的异常（例如y） .

在这种情况下，我应该使用另一个memcpy函数，例如cudaMemcpy2D或cudaMemcpyArrayToArray？

建议非常感谢 . 谢谢！

edit

复制结构数组的自然方法（如“我就是这样做，如果它只是C”）将是cudaMalloc数组，然后是cudaMalloc并分别初始化每个元素，例如：

X** h_x;
X** d_x;
int num_x;

cudaMalloc((void**)&d_x, sizeof(X)*num_x);

int i=0;
for(;i<num_x;i++)
{
    cudaMalloc((void**)d_x[i], sizeof(X));
    cudaMemcpy(&d_x[i], &h_x[i], sizeof(X), cudaMemcpyHostToDevice);
}

然而，for的cudaMalloc会导致崩溃 . 我承认我对Cuda函数中指针的使用还不太满意，所以也许我搞砸了cudaMalloc和cudaMemcpy参数？

1 回答

4

cudaMemcpy ，_1711029_和 cudaMemcpyArrayToArray 全部从主机中的连续内存区域复制到设备上的连续内存区域 .

您必须将所有数据复制到发送到设备的中间连续缓冲区中 .

回复于 2024-05-14T23:25:29+08:00

CUDA使用cudaMemcpy复制多个结构数组

1 回答

相关问题