首页 文章
  • 1 votes
     answers
     views

    Intel Xeon Phi中的排列

    假设我在Xeon Phi寄存器中有以下4个双精度向量: A-> |a8|a7|a6|a5|a4|a3|a2|a1| B-> |b8|b7|b6|b5|b4|b3|b2|b1| C-> |c8|c7|c6|c5|c4|c3|c2|c1| D-> |d8|d7|d6|d5|d4|d3|d2|d1| 我想将它们置于以下内容中: A_new ->|d2|d1|c2|c1|b...
  • 4 votes
     answers
     views

    在Intel MIC上运行代码时,设备不可用错误

    当我尝试在英特尔MIC上运行我的代码时,它会发出错误,例如“卸载错误:无法卸载到MIC - 设备不可用” 我的示例代码是 #include <stdio.h> #include <omp.h> int main() { int N=10; int i, a[N]; #pragma offload target(mic) #pragma omp para...
  • 18 votes
     answers
     views

    英特尔至强融核是否可以在没有昂贵的英特尔编译器的情况下使用?

    Intel Xeon Phi coprocessor可用作并行平台,是否需要Intel Composer XE编译器的许可证,或者是否有其他编译器?
  • 3 votes
     answers
     views

    我们如何知道英特尔至强融核协处理器是否存在

    我想在Intel Xeon Phi协处理器上运行一个程序 . 我怎么知道我的机器是否有Intel Xeon Phi协处理器 .
  • 1 votes
     answers
     views

    至强phi计时器分辨率

    我的主要目的是在xeon phi协处理器中插入1ms延迟,但我的结果差异大约为9ms . 因此,我尝试使用xeon主机和phi协处理器来查找定时器分辨率 . 我执行了以下代码: #include <stdio.h> #include <time.h> #include <sys/time.h> int main() { ...
  • 4 votes
     answers
     views

    获取xeon phi的特定模型[关闭]

    我正在尝试找到我正在使用的Xeon Phi协处理器的确切模型 . 我运行micpinfo,这就是我得到的 ***************************/opt/intel/mic/bin/micinfo*************************** MicInfo Utility Log Created Fri Jan 10 13:09:40 2014 System...
  • 1 votes
     answers
     views

    在Xeon Phi上操作双打面具

    我正在使用内部函数对Xeon Phi进行条件计算 . 我必须使用双值,所以我需要一个__mmask8 . 只要我使用一些比较函数对我来说没有问题,但如果我想修改这些掩码,我会遇到一些类型的冲突 . documentation给了我很多函数来修改用于单精度的__mmask16,没有一个函数可用于双精度 . 我想做一些像下面这样的事情: int tmp = 0; for(i = 0; i < ...
  • 6 votes
     answers
     views

    英特尔Phi上的MKL性能

    我有一个例程,在小矩阵(50-100 x 1000个元素)上执行一些MKL调用以适合模型,然后我调用不同的模型 . 在伪代码中: double doModelFit(int model, ...) { ... while( !done ) { cblas_dgemm(...); cblas_dgemm(...); ... dgesv(...); ...
  • -1 votes
     answers
     views

    加速减少Xeon CPU,GPU和Xeon Phi操作的方法

    我有一个应用程序,其中大型矩阵上的减少操作(如sum,max)是瓶颈 . 我需要尽快做到这一点 . mkl中有向量指令吗? 是否有特殊的硬件单元在xeon cpu,gpu或mic上处理它? 一般来说,如何在这些硬件中实现减少操作?
  • 0 votes
     answers
     views

    如何禁用intel xeon phi协处理器?

    我有一个带有四个麦克风卡(mic0-mic3)的服务器,它运行良好 . 我想禁用一些麦克风,例如mic3,现在只有mic0 - mic2可用 . 我该怎么办?
  • 0 votes
     answers
     views

    如何将单个应用程序的特定线程卸载到特定的Xeon Phi核心?

    假设我在主机上运行了一个c / c应用程序 . 在主机CPU上运行的线程很少,在Xeon Phi核心上运行50个线程 . How can I make sure that each of these 50 runs on its own Xeon Phi core and is never purged off the core cache (given the code is small eno...
  • 0 votes
     answers
     views

    Intel Xeon Phi卸载代码STL向量

    我想将存储在STL向量中的数据复制到Intel Xeon Phi协处理器 . 在我的代码中,我创建了包含向量的类,其中包含计算所需的数据 . 我想在主机上创建类对象,也在主机上初始化数据,然后我想将此对象发送到协处理器 . 这是一个简单的代码,说明了我想做的事情 . 复制对象到协处理器向量后为空 . 有什么问题?怎么做得对? #pragma offload_attribute (push, tar...
  • 0 votes
     answers
     views

    英特尔MIC上的流式存储分段故障

    我想在我的代码中使用Intel MIC实现流媒体存储 . 我有一个force_array和3个变量tempx,tempy和tempz . 我需要做一些计算然后将它们存储在另一个不会在不久的将来使用的数组中 . 所以我觉得流媒体商店是提高性能的更好选择 . 但是我发现我遇到了分段错误,我不确定是不是因为负载或商店 . 这段代码前面和后面是几行代码,整段代码都在两个for循环中,前面是openmp指令...
  • 0 votes
     answers
     views

    使用对齐数据卸载到intel MIC

    当我编译下面的代码时,我收到警告: src/parallel_hashing.cpp(50): warning #3218: *MIC* class/struct may fail when offloaded because this field is misaligned or contains data that is misaligned __declspec(align(64)) ...
  • 0 votes
     answers
     views

    有人在Xeon Phi上使用GMP吗?

    我使用icc和-mmic选项编译GMP,但无法在MIC上安装 . 我该如何安装?我写了一个用icc编译的演示程序 . 它说无法找到gmp.h.我应该如何在MIC上安装GMP库以及在哪里放置gmp.h?
  • 1 votes
     answers
     views

    如何在Intel MIC上原生配置openmp代码?

    我有一个用C语言编写的openmp代码 . 我在Stampede上执行了Intel MIC上的代码 . 我想分析代码以找到代码中的热点,这样我将有助于进一步优化代码 . 我试图使用profiler gprof,但我在某处读到gprof不能直接在MIC上使用 . 我试过通过教程使用perf . 我可以直到某个步骤,之后当perf注释步骤到来并执行代码时,它会给出错误“)”意外 . 所以我不知道如何继...
  • 3 votes
     answers
     views

    Xeon Phi上的loaddup_pd / unpacklo_pd

    如果我在512宽SIMD向量中有以下双打,就像在Xeon Phi寄存器中一样: m0 = |b4|a4|b3|a3|b2|a2|b1|a1| 有可能成为: m0_d = |a4|a4|a3|a3|a2|a2|a1|a1| 使用单一指令?此外,由于双打没有按位内在函数,这仍然是实现上述目标的有效方法吗? m0_t = _mm512_swizzle_pd(m9,_MM_SWIZ_REG_CDAB)...
  • 1 votes
     answers
     views

    Xeon Phi中的分散/聚集

    我指的是关于Xeon Phi指令集的Intel手册,并且无法理解散布/收集指令的工作原理 . 假设我有以下双打矢量: A-> |b4|a4|b3|a3|b2|a2|b1|a1| 是否可以创建4个向量,如下所示: V1->|b1|a1|b1|a1|b1|a1|b1|a1| V2->|b2|a2|b2|a2|b2|a2|b2|a2| V3->|b3|a3|b3|a3|b3|a...
  • 2 votes
     answers
     views

    在Xeon Phi上使用GCC

    我被告知可以在MIC上运行一个用gcc构建的程序 . 真的吗? 如果是,如何进行? 我正在使用gcc版本4.4.7 .
  • 1 votes
     answers
     views

    如何将我的工作绑定到intel xeon phi协处理器?

    我有一台带有四个麦克风卡(mic0-mic3)的服务器,效果很好 . 如何将并行作业(mic_app)绑定到mic0,其他并行作业无法在mic0中运行 . 如何检测mic0一直在运行并行作业(mic_app) .
  • 5 votes
     answers
     views

    掩码矢量Intel AVX-512指令的汇编语法

    出于测试目的,我正在使用Icc内联汇编程序为Intel的Xeon Phi编写简短的汇编代码段 . 现在我想使用屏蔽向量指令,但是我无法将它们提供给内联汇编程序 . 对于这样的代码: vmovapd -64(%%r14, %%r10), %%zmm0{%%k1} 我收到错误消息 /tmp/icpc5115IWas_.s: Assembler messages: /tmp/icpc5115IWas...
  • 1 votes
     answers
     views

    仅使用线程使用Xeon Phi

    是否可以通过启动多个线程来使用Xeon Phi,或者使用Xeon Phi需要特殊类型的编程?
  • 0 votes
     answers
     views

    在Intel Xeon Phi卸载指令中使用带“into”的指针

    根据“Intel Xeon Phi Coprocessor高性能编程”一书,我们可以将数据从一个变量移动到另一个变量 . 我试着按照这个例子,我发现它有效: 码: program example real , target :: a(5),b(10) a(1)=1 a(2)=2 a(3)=3 a(4)=4 a(5)=5 print *,'*************************' ...
  • 0 votes
     answers
     views

    将英特尔的#pragma offload翻译为OpenMP for Xeon Phi(性能问题和其他问题)

    我使用Intel C编译器17.0.01,我有两个代码块 . 第一个代码块在Xeon Phi上分配内存,如下所示: #pragma offload target(mic:1) nocopy(data[0:size]: alloc_if(1) free_if(0)) 第二个块评估上述内存并将其复制回主机: #pragma offload target(mic:1) out(data[0:size]...
  • 4 votes
     answers
     views

    在xeon phi 5110p上卸载守护进程

    我知道Intel Xeon phi协处理器SE10X有61个内核,建议只使用60个内核,因为1个内核用于卸载守护进程 . 另外,由于intel xeon phi协处理器5110P有60个内核,建议使用59个内核吗?
  • 2 votes
     answers
     views

    Intel Xeon Phi上的MKL 3D双精度复数FFT

    我已经为三维FFT(MKL接口)开发了C代码,可以在Intel MIC平台上本地运行 . 对于复杂到复杂的变换,数据元素是双精度复杂的 . 我使用填充的前导维度,mkl_malloc()64字节对齐,并使用数组的radix-2维度我最终得到的性能约为50 Gflop / s . 对于类似类型的转换,我无法在任何地方进行性能列表 . 任何人都可以告诉我,这对Xeon Phi来说是否合理(满意)?
  • 2 votes
     answers
     views

    我们可以在Xeon Phi上同时卸载

    在Nvidia GPU上,我们可以使用Streams同时运行多个内核 . Xeon Phi怎么样?如果我通过不同的线程卸载两部分计算代码,它们会在Xeon Phi上同时运行吗?
  • 0 votes
     answers
     views

    与Intel MIC之间的内存传输开销

    我正在观察一个奇怪的行为,并想知道它是否与英特尔至强有关 . 我有一个小例子代码基本上是每个人都知道的矩阵乘法(三个嵌套for循环) . 我使用OpenMP 4.0 target pragma将计算卸载到Intel MIC,并使用 map(to:A,B) map(tofrom:C) 映射三个矩阵 . 现在,我观察的是对于小矩阵,例如1024x1024内存传输耗时极长 . 与本机版本(相同的...
  • 18 votes
     answers
     views

    在Xeon-Phi上运行Haskell

    有没有办法编译Haskell在Xeon Phi协处理器上运行? 英特尔的一些研究人员最近报道了Haskell Research Compiler(这是不公开的,这使得他们的结果基本上不可复制)并测量了Haskell Gap(显示在某些情况下Haskell性能超过C) . 它们通过名为Pillar的中间语言(类似于C--)描述编译路径并将其编译为C,以便他们可以使用icc创建可在Phi上执行的目标代...
  • 0 votes
     answers
     views

    Intel MIC - 卸载错误:数据传输

    我将从英特尔至强融核协处理器传输数据到主机CPU有问题 . 我尝试使用卸载模型实现计算 . 在我的计算开始时,我将所有数据传输到协处理器(一个阵列) . 计算后我想只传输给主处理器这个数组的一部分,但结果我得到以下错误: 卸载错误:数据传输(base = 0x75654640,size = 7896016)不是现有分配的子集(base = 0x75654640,size = 4512008) 这是...

热门问题