我在xeon phi核心上运行了vtune,并获得了单线程基准测试的CPI为0.777 . 但是,这似乎不太可能是真的,因为单个线程的理论最大CPI为1.0 . (在https://software.intel.com/en-us/articles/optimization-and-performance-tuning-for-intel-xeon-phi-coprocessors-part-2-understanding上搜索"Theoretical CPI")

我通过检查vtune线程信息验证没有其他线程正在运行 .

  • VTune CPI信息:

功能/调用堆栈时钟信号指令退出CPI速率退出错误推测后端绑定前端绑定模块功能(完整)源文件起始地址centered_3d 259,622,095,647 334,057,786,295 0.777 0.316 0.000 0.719 0.004 ef-test centered_3d ef_operator.c 0x420703

根据上述信息,CPI为0.777 .

  • 功能centered_3d的VTune线程信息:

239.616s - 同时使用的逻辑CPU = 0

163.632s - 同时使用的逻辑CPU = 1

上述信息是否意味着vtune正在进行错误的计算?例如:它是否可能无法正确计算循环次数或指令数?