我已经为三维FFT(MKL接口)开发了C代码,可以在Intel MIC平台上本地运行 .
对于复杂到复杂的变换,数据元素是双精度复杂的 . 我使用填充的前导维度,mkl_malloc()64字节对齐,并使用数组的radix-2维度我最终得到的性能约为50 Gflop / s .
对于类似类型的转换,我无法在任何地方进行性能列表 . 任何人都可以告诉我,这对Xeon Phi来说是否合理(满意)?
你的结果看起来不错 .
英特尔提供的FFT tuning guide with 2-D float data on Xeon Phi显示出100Gflops的峰值性能 . 所以关于双数据的50Gflops应该是合理的 .
除了你的问题中提到的因素,其他东西包括领先的尺寸,填充,线程数和亲和力也对性能有很大影响 .
您可以参考这些英特尔文档以获取更多信息 .
xeon phi上的MKL文档列表
http://software.intel.com/en-us/articles/intel-mkl-on-the-intel-xeon-phi-coprocessors
在xeon phi上使用MKL的性能提示
http://software.intel.com/en-us/articles/performance-tips-of-using-intel-mkl-on-intel-xeon-phi-coprocessor
调整xeon phi上的dft函数
http://software.intel.com/en-us/articles/tuning-the-intel-mkl-dft-functions-performance-on-intel-xeon-phi-coprocessors
1 回答
你的结果看起来不错 .
英特尔提供的FFT tuning guide with 2-D float data on Xeon Phi显示出100Gflops的峰值性能 . 所以关于双数据的50Gflops应该是合理的 .
除了你的问题中提到的因素,其他东西包括领先的尺寸,填充,线程数和亲和力也对性能有很大影响 .
您可以参考这些英特尔文档以获取更多信息 .
xeon phi上的MKL文档列表
http://software.intel.com/en-us/articles/intel-mkl-on-the-intel-xeon-phi-coprocessors
在xeon phi上使用MKL的性能提示
http://software.intel.com/en-us/articles/performance-tips-of-using-intel-mkl-on-intel-xeon-phi-coprocessor
调整xeon phi上的dft函数
http://software.intel.com/en-us/articles/tuning-the-intel-mkl-dft-functions-performance-on-intel-xeon-phi-coprocessors