使用Xeon Phi Knights Landing获得密集矩阵乘法的最大FLOPS-Java 学习之路

我最近开始使用Xeon Phi Knights Landing（KNL）7250计算机（http://ark.intel.com/products/94035/Intel-Xeon-Phi-Processor-7250-16GB-1_40-GHz-68-core） .

它有68个核心和AVX 512.基本频率为1.4 GHz，Turbo频率为1.6 GHz . 我不知道所有内核的turbo频率是多少，因为通常turbo频率只引用一个内核 .

每个Knights Landing核心每个周期可以进行两次8宽双FMA操作 . 由于每个FMA操作是两个浮点运算，因此每个核每个周期的双浮点运算为32 .

因此，最大GFLOPS是 32*68*1.4 = 3046.4 DP GFLOPS .

对于单核，峰值FLOPS为 32*1.6 = 51.2 DP GLOPS .

密集矩阵乘法是实际上能够接近峰值触发器的少数操作之一 . 英特尔MKL库提供优化的密集矩阵乘法功能 . 在Sandy Bridge系统中，我使用DGEMM获得了超过97％的峰值FLOPS . 在哈斯威尔，几年前我检查了大约90％的峰值，所以当时用FMA获得峰值显然更加困难 . 然而，凭借Knights Landing和MKL，我得到的峰值不到50％ .

我修改了MKL示例目录中的 dgemm_example.c 文件，以使用 2.0*1E-9*n*n*n/time 计算GFLOPS（见下文） .

我也试过 export KMP_AFFINITY=scatter 和 export OMP_NUM_THREADS=68 ，但这似乎没有什么区别 . 但是， KMP_AFFINITY=compact 明显较慢，因此 OMP_NUM_THREADS=1 因此默认的线程拓扑似乎是分散的，并且线程正在工作 .

我见过的最好的GFLOPS约为1301 GFLOPS，约占峰值的43％ . 对于一个线程，我看到38 GFLOPS，约占峰值的74％ . 这告诉我MKL DGEMM针对AVX512进行了优化，否则它将低于50％ . 另一方面，对于单个线程，我认为我应该得到90％的峰值 .

KNL内存可以在三种模式下运行（缓存，平面和混合），可以从BIOS（http://www.anandtech.com/show/9794/a-few-notes-on-intels-knights-landing-and-mcdram-modes-from-sc15）进行设置 . 我不知道KNL系统是否存在 . 这会对DGEMM产生影响吗？

我的问题是为什么DGEMM的FLOPS如此之低，我该怎么做才能改进它？也许我没有最佳配置MKL（我正在使用ICC 17.0） .

source /opt/intel/mkl/bin/mklvars.sh  intel64
icc -O3 -mkl dgemm_example.c

这是代码

#define min(x,y) (((x) < (y)) ? (x) : (y))

#include <stdio.h>
#include <stdlib.h>
#include "mkl.h"
#include "omp.h"

int main()
{
    double *A, *B, *C;
    int m, n, k, i, j;
    double alpha, beta;

    printf ("\n This example computes real matrix C=alpha*A*B+beta*C using \n"
            " Intel(R) MKL function dgemm, where A, B, and  C are matrices and \n"
            " alpha and beta are double precision scalars\n\n");

    m = 30000, k = 30000, n = 30000;
    printf (" Initializing data for matrix multiplication C=A*B for matrix \n"
            " A(%ix%i) and matrix B(%ix%i)\n\n", m, k, k, n);
    alpha = 1.0; beta = 0.0;

    printf (" Allocating memory for matrices aligned on 64-byte boundary for better \n"
            " performance \n\n");
    A = (double *)mkl_malloc( m*k*sizeof( double ), 64 );
    B = (double *)mkl_malloc( k*n*sizeof( double ), 64 );
    C = (double *)mkl_malloc( m*n*sizeof( double ), 64 );
    if (A == NULL || B == NULL || C == NULL) {
      printf( "\n ERROR: Can't allocate memory for matrices. Aborting... \n\n");
      mkl_free(A);
      mkl_free(B);
      mkl_free(C);
      return 1;
    }

    printf (" Intializing matrix data \n\n");
    for (i = 0; i < (m*k); i++) {
        A[i] = (double)(i+1);
    }

    for (i = 0; i < (k*n); i++) {
        B[i] = (double)(-i-1);
    }

    for (i = 0; i < (m*n); i++) {
        C[i] = 0.0;
    }

    printf (" Computing matrix product using Intel(R) MKL dgemm function via CBLAS interface \n\n");
    double dtime;
    dtime = -omp_get_wtime();

    cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans, 
                m, n, k, alpha, A, k, B, n, beta, C, n);
    dtime += omp_get_wtime();
    printf ("\n Computations completed.\n\n");
    printf ("time %f\n", dtime);
    printf ("GFLOPS %f\n", 2.0*1E-9*m*n*k/dtime);

    printf (" Top left corner of matrix A: \n");
    for (i=0; i<min(m,6); i++) {
      for (j=0; j<min(k,6); j++) {
        printf ("%12.0f", A[j+i*k]);
      }
      printf ("\n");
    }

    printf ("\n Top left corner of matrix B: \n");
    for (i=0; i<min(k,6); i++) {
      for (j=0; j<min(n,6); j++) {
        printf ("%12.0f", B[j+i*n]);
      }
      printf ("\n");
    }

    printf ("\n Top left corner of matrix C: \n");
    for (i=0; i<min(m,6); i++) {
      for (j=0; j<min(n,6); j++) {
        printf ("%12.5G", C[j+i*n]);
      }
      printf ("\n");
    }

    printf ("\n Deallocating memory \n\n");
    mkl_free(A);
    mkl_free(B);
    mkl_free(C);

    printf (" Example completed. \n\n");
    return 0;
}

使用Xeon Phi Knights Landing获得密集矩阵乘法的最大FLOPS

相关问题