-
5 votesanswersviews
Fortran双精度程序,带有简单的MKL BLAS程序
在尝试在一个简单的程序中混合精度 - 使用真实和双重 - 并使用BLAS的ddot例程时,我想出了双精度部分的错误输出 . 这是代码: program test !! adding this statement narrowed the issue down to ddot being considered real(4) implicit none integer, parameter ::... -
0 votesanswersviews
直接在Scipy稀疏矩阵上使用Intel mkl库来计算A点A.T,内存较少
我想从python中调用mkl.mkl_scsrmultcsr . 目标是以compressed sparse row格式计算稀疏矩阵C.稀疏矩阵C是A与A的转置之间的矩阵乘积,其中A也是csr格式的稀疏矩阵 . 当用scipy计算C = A点(AT)时,scipy似乎(?)分配新的内存用于保持A(AT)的转置,并且肯定为新的C矩阵分配内存(这意味着我不能使用现有的C矩阵) . 所以,我想尝试直接... -
6 votesanswersviews
使用Xeon Phi Knights Landing获得密集矩阵乘法的最大FLOPS
我最近开始使用Xeon Phi Knights Landing(KNL)7250计算机(http://ark.intel.com/products/94035/Intel-Xeon-Phi-Processor-7250-16GB-1_40-GHz-68-core) . 它有68个核心和AVX 512.基本频率为1.4 GHz,Turbo频率为1.6 GHz . 我不知道所有内核的turbo频率是多... -
0 votesanswersviews
使用英特尔编译器和MKL构建Numpy - CentOS 7
目前我正在尝试使用CentOS 7上的英特尔编译器为英特尔MKL构建Numpy-1.9.1 . 我安装了Intel Parallel XE Studio 2015 C和Fortran for Linux,在我的终端中我可以使用'icc'和'ifort'命令,它们都没有问题 . 我也跑了: $ source /opt/intel/composer_xe_2015/bin/compilervars.s... -
0 votesanswersviews
某些条件下的Intel-MKL FFT性能
我目前正在使用英特尔的MKL 2D FFT例程 . 我遇到了性能变化4-5的情况 . 我正在做的是使用FFT库实现一种带通滤波器 . 测试结果是正确的,但速度是一个问题 . 我所看到的是正向FFT大约1.3秒,反向FFT大约1.3到6秒 . 我已经跟踪了FFT正向传递之后应用的权重 . 权重介于0和-1之间,当我得到6秒时,大多为0 . 如果我在应用之前将权重设置为1则为1.3秒 . 其他测试显示... -
6 votesanswersviews
英特尔Phi上的MKL性能
我有一个例程,在小矩阵(50-100 x 1000个元素)上执行一些MKL调用以适合模型,然后我调用不同的模型 . 在伪代码中: double doModelFit(int model, ...) { ... while( !done ) { cblas_dgemm(...); cblas_dgemm(...); ... dgesv(...); ... -
-1 votesanswersviews
加速减少Xeon CPU,GPU和Xeon Phi操作的方法
我有一个应用程序,其中大型矩阵上的减少操作(如sum,max)是瓶颈 . 我需要尽快做到这一点 . mkl中有向量指令吗? 是否有特殊的硬件单元在xeon cpu,gpu或mic上处理它? 一般来说,如何在这些硬件中实现减少操作? -
2 votesanswersviews
使用带有零填充的英特尔MKL进行3D FFT
我想使用具有大约 300×200×200 个元素的数组 Intel MKL 来计算3D FFT . 此3D数组以列方式存储为 double 类型的1D数组: for( int k = 0; k < nk; k++ ) // Loop through the height. for( int j = 0; j < nj; j++ ) // Loop through the r... -
0 votesanswersviews
使用英特尔MKL和英特尔IPP的FFT
我有一个大小为1024 * 128 * 20的复杂数据 . 我需要为128 * 20块找到1024点FFT . 我打算使用英特尔MKL或英特尔IPP来查找相同内容 . 是否可以使用英特尔MKL或IPP并行化代码?哪一个,MKL或IPP,在最小计算时间方面会更好? -
1 votesanswersviews
Numpy与英特尔MKL的FFT
正在运行 numpy.fft.fft(np.eye(9),norm="ortho) 会导致 TypeError: fft() got an unexpected keyword argument 'norm' . 我正在使用英特尔MKL运行Numpy . 可能是图书馆里面的链接有问题吗? -
1 votesanswersviews
如何对存储为“压缩稀疏行”的矩阵进行稀疏矩阵索引?
我使用 Intel MKL 将我的大型稀疏对称矩阵存储为压缩稀疏行(CSR) . 为了举例,让我们假设我的对称稀疏矩阵是 5x5 : A = 1 -1 0 -3 0 -1 5 0 0 0 0 0 4 6 4 -3 0 6 7 0 0 ... -
2 votesanswersviews
英特尔MKL / Xeon Phi卸载运行时问题 - 自动卸载无法正常工作
我已经在Windows 10 Pro中设置了我的Xeon phi 3120A,其中包括MPSS 3.8.4和Parallel XE 2017(初始版本) . 我选择了这个Parallel XE,因为这是x100系列最后支持的XE . 我已经安装了随Parallel XE 2017(初始版本)打包的MKL版本 . What have I done / setup: 在设置MPSS 3.8.4之后,按... -
0 votesanswersviews
当使用mkl-support构建tensorflow1.2时,得到运行时警告“TensorFlow库未编译为使用AVX2指令”
按照https://software.intel.com/en-us/articles/build-and-install-tensorflow-on-intel-architecture的说明进行操作 bazel build --config=mkl --copt="-DEIGEN_USE_VML" -s -c opt //tensorflow/tools/pip_p... -
0 votesanswersviews
运行mkl接口时出现分段错误
我正在运行mkl_lab_solution.c这是使用MKL的一个例子,我可以正确编译它,当我运行它时,我得到了分段错误 . 我的运行时如下: 操作系统是6.3 gcc的版本是4.1.2 mkl是mkl_10.3.12.361 makefile如下 gcc -g -L / opt / intel / composer_xe_2011_sp1.12.361 / mkl / lib... -
0 votesanswersviews
使用Eclipse Nsight编译CUDA英特尔MKL
我想在我的一个头文件中实现mkl_lapack的tridiagonal特征值算法 dstevr #include "mkl.h" void trideigs(int N, int LDZ, double *Z, double *W, double *D, double *E){ double VL=0.0, VU=1.0, ABSTOL=0.0; int IL=1, IU=... -
-1 votesanswersviews
cc1plus:错误:使用mkl和GNU C / C编译时,'-O'的参数应为非负整数,'g','s'或'fast'错误
在调用C编译器之后,make会出现以下错误 . cc1plus: error: argument to '-O' should be a non-negative integer, 'g', 's' or 'fast' 这是我编辑的make文件中的行 . g++ -g -O-1 -std=gnu++11 -L/opt/intel/composer_xe_2013.5.192/mkl/lib/i... -
2 votesanswersviews
Intel Xeon Phi上的MKL 3D双精度复数FFT
我已经为三维FFT(MKL接口)开发了C代码,可以在Intel MIC平台上本地运行 . 对于复杂到复杂的变换,数据元素是双精度复杂的 . 我使用填充的前导维度,mkl_malloc()64字节对齐,并使用数组的radix-2维度我最终得到的性能约为50 Gflop / s . 对于类似类型的转换,我无法在任何地方进行性能列表 . 任何人都可以告诉我,这对Xeon Phi来说是否合理(满意)?