我正在使用Intel Vtune Amplifier XE 2013来分析在多核CPU上运行的并行程序,特别是它是用OpenCL编写的,并在Xeon Phi中执行 . 我想知道如何对Vtune带来的结果的确切解释,即
是单个线程还是整个核心收集的性能计数器的值? (假设CPU中有许多内核,并且可以在内核上同时执行许多线程,例如Xeon Phi) .
Vtune如何在多核CPU上进行采样?它是在单个核心上进行采样并报告,还是在多个核心上进行采样并取平均值?
默认情况下,VTune会在Xeon Phi上对所有核心进行采样,结果可以通过以下任一方式查看:聚合或每核心 . 使用GUI中BottomUp选项卡中的Grouping下拉框来调节数据聚合的方式,使用“change viewpoint”来切换热点,事件计数和其他可用视图 .
有关VTune在Xeon Phi上进行OpenCl分析的更多信息,请参阅以下文章:
http://software.intel.com/en-us/articles/performance-tuning-of-opencl-applications-on-intel-xeon-phi-coprocessor-using-intel-vtune-amplifier-xe-2013
http://software.intel.com/en-us/articles/optimization-and-performance-tuning-for-intel-xeon-phi-coprocessors-part-2-understanding
答案是,这取决于 . 每个线程都有一些计数器,如周期或L1未命中 . 但每个核心还有其他一些 . 所以它取决于你捕获的计数器 .
2 回答
默认情况下,VTune会在Xeon Phi上对所有核心进行采样,结果可以通过以下任一方式查看:聚合或每核心 . 使用GUI中BottomUp选项卡中的Grouping下拉框来调节数据聚合的方式,使用“change viewpoint”来切换热点,事件计数和其他可用视图 .
有关VTune在Xeon Phi上进行OpenCl分析的更多信息,请参阅以下文章:
http://software.intel.com/en-us/articles/performance-tuning-of-opencl-applications-on-intel-xeon-phi-coprocessor-using-intel-vtune-amplifier-xe-2013
http://software.intel.com/en-us/articles/optimization-and-performance-tuning-for-intel-xeon-phi-coprocessors-part-2-understanding
答案是,这取决于 . 每个线程都有一些计数器,如周期或L1未命中 . 但每个核心还有其他一些 . 所以它取决于你捕获的计数器 .