与GPU相比，协处理器加速器

提问于 2024-04-29T23:23:08+08:00

浏览次

1

像Intel Xeon-Phi这样的协处理器应该像GPU一样使用，因此应该卸载执行 a single kernel 的大量块，这样只有协处理器处理的整体吞吐量才会导致加速，卸载独立的线程（任务））还会提高效率吗？

1 回答

2
Xeon Phi需要很大程度的功能并行（不同线程）和矢量并行（SIMD） . 由于内核基本上是增强型奔腾处理器，因此串行代码运行缓慢 . 这将与下一代有所改变，因为它将使用更快，更现代的核心 . 当前的Xeon Phi也像任何协处理器一样受到I / O瓶颈的影响，必须通过PCIe总线进行通信 .

因此，虽然您可以将内核卸载到每个处理器并利用512位向量化（类似于GPGPU），但您也可以将代码分成许多不同的功能块（即不同的代码/内核），并在不同的Intel集合上运行它们 . Xeon Phi核心 . 同样，不同的代码块也必须利用512位SIMD向量 .

Xeon Phi也作为本机处理器运行，因此您可以通过使用TCP / IP，使用MPI等安装NFS目录树，卡和集群中的其他处理器之间的通信来访问其他资源 . 请注意，这不是“卸载”但是本地执行 . 但PCIe总线仍然是限制I / O的重要瓶颈 .

总结一下，
- 你可以使用类似于GPGPU使用的卸载模型，
- Xeon Phi本身也可以支持功能并行（多个内核），但每个内核也必须利用512位SIMD .
- 您还可以编写本机代码并使用MPI，将Xeon Phi视为传统（非卸载）节点（始终记住PCIe I / O瓶颈）
回复于 2024-04-29T23:23:08+08:00

相关问题