我试图找到一个解决方案,使用openmp 4.0将cpu代码卸载到Nvidia GPU,但代码的执行时间没有任何显着的改进,使用普通的openmp指令运行时是什么 .

我正在使用#pragma omp target指令,然后使用普通的#pragma omp parallel并行化代码,但是使用#pragma omp target指令没有改善执行时间 .

请帮忙 .