没有调用CUDA内核函数-Java 学习之路

我开始使用CUDA了，我遇到了一些问题 . 我在下面发布的代码基本上是NVIDIA网站上最简单的例子，添加了一些内存副本和一个打印语句，以确保它正常运行 .

代码编译并运行没有抱怨，但是当我打印向量c时它会全部出现零，好像根本没有调用GPU内核函数 .

这与此帖子Basic CUDA - getting kernels to run on the device using C++几乎完全相同 .

症状是一样的，虽然我似乎没有犯这个错误 . 有任何想法吗？

#include <stdio.h>

static const unsigned short N = 3;

// Kernel definition
__global__ void VecAdd(float* A, float* B, float* C)
{
    int i = threadIdx.x;
    C[i] = A[i] + B[i];
} 

int main()
{
  float *A, *B, *C;
  float a[N] = {1,2,3}, b[N] = {4,5,6}, c[N] = {0,0,0};

  cudaMalloc( (void **)&A, sizeof(float)*N );
  cudaMalloc( (void **)&B, sizeof(float)*N );
  cudaMalloc( (void **)&C, sizeof(float)*N );

  cudaMemcpy( A, a, sizeof(float)*N, cudaMemcpyHostToDevice );
  cudaMemcpy( B, b, sizeof(float)*N, cudaMemcpyHostToDevice );

  VecAdd<<<1, N>>>(A, B, C);

  cudaMemcpy( c, C, sizeof(float)*N, cudaMemcpyHostToDevice );

  printf("%f %f %f\n", c[0],c[1],c[2]);

  cudaFree(A);
  cudaFree(B);
  cudaFree(C);

  return 0;
}

1 回答

3
在最后一次 cudaMemcpy 调用中，您正在为内存复制方向传递错误的标志 .
```
cudaMemcpy( c, C, sizeof(float)*N, cudaMemcpyHostToDevice );
```
它应该是：
```
cudaMemcpy( c, C, sizeof(float)*N, cudaMemcpyDeviceToHost );
```
回复于 2024-05-06T02:56:04+08:00

没有调用CUDA内核函数

1 回答

相关问题