-
1 votesanswersviews
如何在Intel MIC上原生配置openmp代码?
我有一个用C语言编写的openmp代码 . 我在Stampede上执行了Intel MIC上的代码 . 我想分析代码以找到代码中的热点,这样我将有助于进一步优化代码 . 我试图使用profiler gprof,但我在某处读到gprof不能直接在MIC上使用 . 我试过通过教程使用perf . 我可以直到某个步骤,之后当perf注释步骤到来并执行代码时,它会给出错误“)”意外 . 所以我不知道如何继... -
1 votesanswersviews
用于多核的Vtune放大器XE?
我正在使用Intel Vtune Amplifier XE 2013来分析在多核CPU上运行的并行程序,特别是它是用OpenCL编写的,并在Xeon Phi中执行 . 我想知道如何对Vtune带来的结果的确切解释,即 是单个线程还是整个核心收集的性能计数器的值? (假设CPU中有许多内核,并且可以在内核上同时执行许多线程,例如Xeon Phi) . Vtune如何在多核CPU上进行采样?它... -
2 votesanswersviews
支持分页的Intel 32位保护模式会导致三重故障
我正在开发一个业余爱好者操作系统,我在身份映射和启用分页方面遇到了麻烦 . 我正在使用Bochs模拟器,我有以下错误消息:= 00691299602e [CPU0] interrupt():门描述符无效sys seg(vector = 0x0e) 00691299602e [CPU0] interrupt():门描述符无效sys seg(vector = 0x08) 00691299602i [C... -
18 votesanswersviews
英特尔至强融核是否可以在没有昂贵的英特尔编译器的情况下使用?
Intel Xeon Phi coprocessor可用作并行平台,是否需要Intel Composer XE编译器的许可证,或者是否有其他编译器? -
3 votesanswersviews
我们如何知道英特尔至强融核协处理器是否存在
我想在Intel Xeon Phi协处理器上运行一个程序 . 我怎么知道我的机器是否有Intel Xeon Phi协处理器 . -
3 votesanswersviews
我对英特尔集成GPU的GP开发技术有哪些选择?
我在开发在Intel Ivy Bridge处理器集成GPU上运行的通用软件时,有哪些技术,语言和工具可供选择? OpenCL(如果是这样,Intel驱动程序?谁的编译器?)? CUDA?基于LLVM的东西? 我相信DirectCompute不是我们的选择,因为我们不会运行Windows . Edit :刚刚发现this article表明OpenCL支持即将推出IvyBridge驱动程序 . -
0 votesanswersviews
移动式英特尔(R)965高速芯片组家族中的OpenCL
我的戴尔Inspiron上有一个Mobile Intel(R)965 Express芯片组系列作为我的显卡 . 我想用GPU在GPU上运行OpenCL程序 . 这个显卡支持吗?我在网上看了很多,但我还没有得出结论 . 如果没有,除了更换我的电脑外还有替代解决方案吗? 谢谢 -
5 votesanswersviews
在没有OpenCL的情况下编程Intel IGP(例如Iris Pro 5200)硬件
Desktop i7-4770k @ 4GHz核心的峰值GFLOPS为4GHz * 8(AVX)(4 FMA) 4核= 512 GFLOPS . 但最新的英特尔IGP(Iris Pro 5100/5200)峰值超过800 GFLOPS . 因此,一些算法在IGP上运行得更快 . 将核心与IGP结合在一起甚至会更好 . 此外,IGP不断消耗更多硅 . Iris Pro 5100现在占硅的30%以上... -
8 votesanswersviews
我可以在英特尔处理器显卡I7(第3代或第4代)上运行Cuda或OpenCl
我正在开发SBC(其中有Intel I7 3ed或4ed,并且没有外置GPU)我正在使用linux . 我想利用英特尔处理器显卡的优势 . 我想用Cuda或OpenCl来学习开发 . 我读过一些旧帖子(几年前)(我不确定现在有更好的技术): Can i run CUDA on Intel GPU Programming, CUDA or OpenCL 我可以在英特尔处理器显卡上运行cuda代码... -
2 votesanswersviews
什么是_kmp_fork_barrier以及如何查看是否存在负载不 balancer ?
我正在使用英特尔VTune放大器来查看我的并行应用程序如何扩展 . 注意我不使用任何显式锁机制 它在我的4核笔记本电脑上可以很好地扩展(考虑到有部分算法无法并行化): 但是,当我在Knights Landing(KNL)上进行测试时,它会出现可怕的扩展: Notice that I'm using only 64 cores on purpose (说到这个,如果你're interested... -
5 votesanswersviews
英特尔C编译器了解执行的优化
我有一个代码段,它很简单: for( int i = 0; i < n; ++i) { if( data[i] > c && data[i] < r ) { --data[i]; } } 它是大型功能和项目的一部分 . 这实际上是对不同循环的重写,这被证明是耗时的(长循环),但我对两件事感到惊讶: 当data [i]临时存储时,如下所示: f... -
3 votesanswersviews
如何打开Intel C Compiler 12.1.2的C 0x
我在Arch Linux 3.2.1上安装了最新版本的Intel C Compiler v12.1.2 . 当我用icpc编译我的C文件时 icpc -O3 -DNDEBUG -std=gnu++0x -o obj/main.o src/main.cpp -c 要么 icpc -O3 -DNDEBUG -std=c++0x -o obj/main.o src/main.cpp -c 突然出现警... -
8 votesanswersviews
英特尔C编译器错误? (指针别名)
我正在使用英特尔C编译器12.0,并正在开发类似于以下的程序,这非常简单明了 . while循环应该在第一次运行时停止 . 但是,当我使用英特尔编译器使用/ O2标志构建代码时,while循环永远不会停止 . 如果我禁用优化,或使用visual C,循环将正常退出 . 如果我将pt-> flag更改为p.flag,我认为这是相同的,循环也会正常退出 . 我认为这与英特尔的优化有关 . 这是... -
3 votesanswersviews
intel C编译器是否优化了代码中从未调用过的函数?
只是一些优化考虑因素: 有没有人知道它是否确定intel C编译器(例如ICC 13.0,以及原因,使用某些优化选项编译,如/ O3等)将自动优化代码中的任何未使用/未调用的结构/类/函数/变量,例如examplefun ()如下: //...defining examplefunc()....// const int a=0; if (a>0) ... -
2 votesanswersviews
如何在AMD芯片上使用intel编译器优化C程序
新手在这里 . 我有一个很大的有限分析代码需要运行高性能计算 . 人们一直告诉我英特尔编译器通常会提供更好的速度(我之前使用过gcc) . 我发现在我们的英特尔集群上也是如此 . 但最近我们有一个新的AMD集群 . 我对如何使用 icpc 的编译选项来优化程序感到困惑 . 基本上,我有两个问题: 问题1 以下是采用AMD芯片的集群: processor : 63 vendor_id ... -
1 votesanswersviews
英特尔编译器与GCC代码生成的差异
我正在学习x64编程以及Intel C编译器和GCC之间的差异以及它们如何优化指令 问题: 告诉英特尔编译器转储汇编代码(类似于gcc -S)的最佳方法是什么?现在我在Visual Studio中调试和反汇编以查看说明 . 反汇编的英特尔编译psum1不遵守传递寄存器rdi,rsi,rdx,rcx,r8,r9的参数约定,就像在GCC汇编器输出中看到的那样 . 我在这里错过了什么? 出于... -
1 votesanswersviews
如何将AT&T样式汇编代码移到Visual Studio和Intel样式语法?
我有一个非常专业的文件,用x86-64汇编为Linux编写,在GCC下编译 . 我需要将该代码移动到Visual Studio项目,并且mll64.exe希望程序集文件采用Intel格式 . 我试图构建一个跨平台的DLL,但它不起作用: 15:47:19 cpudiag2> gcc -shared -o my.dll my.o / usr / bin / ld:my.o:在制作共享对象时,... -
2 votesanswersviews
beignet OpenCL xorg连接失败
我找到了这个opencl示例代码: /* * Simple OpenCL demo program * * Copyright (C) 2009 Clifford Wolf <clifford@clifford.at> * * This program is free software; you can redistribute it and/or modify *... -
0 votesanswersviews
英特尔至强处理器如何进行减法?
我可以想到以下方法: 使用加法器 . 对于A-B,首先计算 -B 's two' s补码 . 然后用 -B 's two'补码添加 A 's two' s补码 . 使用像Adder–subtractor这样的减法器 . 英特尔至强采用哪种方法?如果英特尔至强不使用上述任何方法,那么英特尔至强还采用了什么方法? -
12 votesanswersviews
为什么英特尔公布的一些Haswell AVX延迟比Sandy Bridge慢3倍?
在英特尔intrinsics webapp中,有几项行动似乎从桑迪桥变为哈斯威尔 . 例如,许多插入操作(如_mm256_insertf128_si256)显示如下的成本表: Performance Architecture Latency Throughput Haswell 3 - Ivy Bridge 1 - Sandy... -
0 votesanswersviews
Haswell双路径执行CPU?
Haswell现在有 2 Branch Units - 如下所示:http://arstechnica.com/gadgets/2013/05/a-look-at-haswell/2/ 这是否意味着Haswell是双路径执行CPU? 关于:http://ditec.um.es/~jlaragon/papers/aragon_ICS02.pdf 这是否意味着Haswell只能在整数ALU和Sh... -
5 votesanswersviews
与TSX相关的Skylake勘误表SKL-105的状态如何?
众所周知,英特尔不得不通过微代码更新来禁用Haswell系列处理器中的TSX . 这是由于TSX实现中的一个错误,如果使用这些指令可能会产生错误的结果 . 似乎不太为人所知的是,在新的架构Skylake上,显然还有一个影响TSX的勘误表 . 特别是这里提到的勘误表“SKL-105”: http://www.intel.com/content/www/us/en/processors/core/de... -
5 votesanswersviews
L2指令获取错过远高于L1指令获取未命中
我正在生成一个合成C基准测试,旨在通过以下Python脚本导致大量的指令获取错过: #!/usr/bin/env python import tempfile import random import sys if __name__ == '__main__': functions = list() for i in range(10000): func_nam... -
2 votesanswersviews
Intel icc编译器-O标志和-qopt-report
我目前正在研究HPC,我对icc编译器有疑问 . 我想要做的是通过[O0..O3]更改优化级别时查看正在发生的事情 . 我想要的数据,关于矢量化以及代码是否是折叠内联等,似乎是在 -qopt-report 标志生成的报告中 . 我决定对报告使用最高级别的详细程度 -qopt-report5 (I think this is the correct way to use it) 但是,当降低O级... -
1 votesanswersviews
PAPI专柜问题
我编写了以下代码来获取L3缓存未命中信息 . #include <stdlib.h> #include <stdio.h> #include <math.h> #include <papi.h> int main( int argc, char *argv[] ) { int i; long long counters[3]; cou... -
0 votesanswersviews
Intel Threading Building Blocks支持Intel Xeon Phi协处理器
我在英特尔的论坛上问过这个问题,没有运气 . 有谁知道他们开始支持Xeon Phi协处理器的英特尔TBB版本是什么? -
1 votesanswersviews
与GPU相比,协处理器加速器
像Intel Xeon-Phi这样的协处理器应该像GPU一样使用,因此应该卸载执行 a single kernel 的大量块,这样只有协处理器处理的整体吞吐量才会导致加速,卸载独立的线程(任务) )还会提高效率吗? -
0 votesanswersviews
不支持intel xeon硬件缓存事件
我正在尝试使用perf工具来测量某些程序的性能 . 由于某种原因,perf stat不支持硬件缓存事件 . 我正在使用intel xeon e5-2620(haswell)处理器 . 我在一些论坛中读到,这个cpu的事件代码可能已被更改,这就是perf不支持这些事件的原因 . 我尝试使用perfmon2来查找原始事件,但没有运气 . 有谁知道如何为这个cpu找到硬件缓存事件的正确原始事件?我对L1... -
5 votesanswersviews
Haswell微体系结构在perf中没有Stalled-cycles-backend
我在Haswell CPU(Intel Core i7-4790)上安装了perf . 但"perf list"不包括"stalled-cycles-frontend"也不包括"stalled-cycles-backend" . 我检查了http://www.intel.com/content/www/us/en/processors/a... -
9 votesanswersviews
通过降低关联性来增强Skylake L2缓存?
在Intel's optimization guide,第2.1.3节中,他们列出了Skylake中高速缓存和内存子系统的一些增强功能(强调我的): Skylake微体系结构的缓存层次结构具有以下增强功能:与前几代相比,缓存带宽更高 . 通过扩大的缓冲区同时处理更多的装载和存储 . 与Haswell微体系结构和前几代产品相比,处理器可以并行执行两次页面遍历 . 页面拆分负载惩罚从上一代的100个...