首页 文章
  • 1 votes
     answers
     views

    用于多核的Vtune放大器XE?

    我正在使用Intel Vtune Amplifier XE 2013来分析在多核CPU上运行的并行程序,特别是它是用OpenCL编写的,并在Xeon Phi中执行 . 我想知道如何对Vtune带来的结果的确切解释,即 是单个线程还是整个核心收集的性能计数器的值? (假设CPU中有许多内核,并且可以在内核上同时执行许多线程,例如Xeon Phi) . Vtune如何在多核CPU上进行采样?它...
  • 3 votes
     answers
     views

    VTune分析显示没有关于多态函数的分支预测的度量标准?

    我正在分析处理数百万条消息的两种设计之间的差异 . 一种设计使用多态,而另一种设计不使用 - 每个消息将由多态子类型表示 . 我使用VTune描述了这两种设计 . 高级摘要数据似乎有意义 - 多态设计具有更高的“分支误预测”率,更高的CPI和更高的“ICache未命中率”,而不是使用IF语句实现的非多态版本 . 多态设计有一行源代码,如下所示: object->virtualFunction...
  • 4 votes
     answers
     views

    如何监控Xeon Phi上10Hz的核心利用率?

    我一直试图以相对较高的频率测量/监控Xeon Phi(Knights Corner,有序处理器)上所有这60个核心的利用率,比如至少每0.1秒产生10Hz . 我尝试了最新的PAPI库 . 但它只支持PAPI_TOT_INS,这是已完成指令的计数器 . 这不起作用,因为我实际上需要与每0.1秒发出的指令相关的东西,而不是完成 . 在不同周期发出的几条指令可以在同一周期完成 . 指令的问题受核心是否...
  • 6 votes
     answers
     views

    英特尔Phi上的MKL性能

    我有一个例程,在小矩阵(50-100 x 1000个元素)上执行一些MKL调用以适合模型,然后我调用不同的模型 . 在伪代码中: double doModelFit(int model, ...) { ... while( !done ) { cblas_dgemm(...); cblas_dgemm(...); ... dgesv(...); ...
  • 2 votes
     answers
     views

    什么是_kmp_fork_barrier以及如何查看是否存在负载不 balancer ?

    我正在使用英特尔VTune放大器来查看我的并行应用程序如何扩展 . 注意我不使用任何显式锁机制 它在我的4核笔记本电脑上可以很好地扩展(考虑到有部分算法无法并行化): 但是,当我在Knights Landing(KNL)上进行测试时,它会出现可怕的扩展: Notice that I'm using only 64 cores on purpose (说到这个,如果你're interested...
  • 1 votes
     answers
     views

    在Xeon Phi上的vtune中可能存在的错误

    我在xeon phi核心上运行了vtune,并获得了单线程基准测试的CPI为0.777 . 但是,这似乎不太可能是真的,因为单个线程的理论最大CPI为1.0 . (在https://software.intel.com/en-us/articles/optimization-and-performance-tuning-for-intel-xeon-phi-coprocessors-part-2...

热门问题