Java 学习之路

1 votes

answers

views

用于多核的Vtune放大器XE？

我正在使用Intel Vtune Amplifier XE 2013来分析在多核CPU上运行的并行程序，特别是它是用OpenCL编写的，并在Xeon Phi中执行 . 我想知道如何对Vtune带来的结果的确切解释，即是单个线程还是整个核心收集的性能计数器的值？（假设CPU中有许多内核，并且可以在内核上同时执行许多线程，例如Xeon Phi） . Vtune如何在多核CPU上进行采样？它...

performance parallel-processing cpu intel vtune
3 votes

answers

views

VTune分析显示没有关于多态函数的分支预测的度量标准？

我正在分析处理数百万条消息的两种设计之间的差异 . 一种设计使用多态，而另一种设计不使用 - 每个消息将由多态子类型表示 . 我使用VTune描述了这两种设计 . 高级摘要数据似乎有意义 - 多态设计具有更高的“分支误预测”率，更高的CPI和更高的“ICache未命中率”，而不是使用IF语句实现的非多态版本 . 多态设计有一行源代码，如下所示： object->virtualFunction...

c++ performance polymorphism profiling vtune
4 votes

answers

views

如何监控Xeon Phi上10Hz的核心利用率？

我一直试图以相对较高的频率测量/监控Xeon Phi（Knights Corner，有序处理器）上所有这60个核心的利用率，比如至少每0.1秒产生10Hz . 我尝试了最新的PAPI库 . 但它只支持PAPI_TOT_INS，这是已完成指令的计数器 . 这不起作用，因为我实际上需要与每0.1秒发出的指令相关的东西，而不是完成 . 在不同周期发出的几条指令可以在同一周期完成 . 指令的问题受核心是否...

cpu intel vtune xeon-phi papi
6 votes

answers

views

英特尔Phi上的MKL性能

我有一个例程，在小矩阵（50-100 x 1000个元素）上执行一些MKL调用以适合模型，然后我调用不同的模型 . 在伪代码中： double doModelFit(int model, ...) { ... while( !done ) { cblas_dgemm(...); cblas_dgemm(...); ... dgesv(...); ...

c openmp intel-mkl vtune intel-mic
2 votes

answers

views

什么是_kmp_fork_barrier以及如何查看是否存在负载不 balancer ？

我正在使用英特尔VTune放大器来查看我的并行应用程序如何扩展 . 注意我不使用任何显式锁机制它在我的4核笔记本电脑上可以很好地扩展（考虑到有部分算法无法并行化）：但是，当我在Knights Landing（KNL）上进行测试时，它会出现可怕的扩展： Notice that I'm using only 64 cores on purpose （说到这个，如果你're interested...

parallel-processing intel xeon-phi vtune knights-landing
1 votes

answers

views

在Xeon Phi上的vtune中可能存在的错误

我在xeon phi核心上运行了vtune，并获得了单线程基准测试的CPI为0.777 . 但是，这似乎不太可能是真的，因为单个线程的理论最大CPI为1.0 . （在https://software.intel.com/en-us/articles/optimization-and-performance-tuning-for-intel-xeon-phi-coprocessors-part-2...

architecture performance-testing xeon-phi vtune

用于多核的Vtune放大器XE？

VTune分析显示没有关于多态函数的分支预测的度量标准？

如何监控Xeon Phi上10Hz的核心利用率？

英特尔Phi上的MKL性能

什么是_kmp_fork_barrier以及如何查看是否存在负载不 balancer ？

在Xeon Phi上的vtune中可能存在的错误

热门问题