首页 文章

英特尔MIC模板计算

提问于
浏览
0

我想为Intel Xeon Phi协处理器(61核)编写有效的并行应用程序,它可以进行五点模板计算 . 我写了两个版本的代码 .

第一:我使用OpenMP“#pragma omp parralel for”

void ParallelStencil(const double* macierzIn, double* macierzOut, const int m, const int n)
{
    int m_real = m + 2;
    int n_real = n + 2;

    TimeCPU t;
    t.start();
    #pragma omp parallel for schedule(static,1) shared(macierzIn, macierzOut)
    for(int i=1; i<m_real-1; ++i)
    {
        for(int j=1; j<n-1; ++j)
        {
            macierzOut[i * n_real + j] = Max(macierzIn[i * n_real + j], macierzIn[(i - 1) * n_real + j], macierzIn[(i + 1) * n_real + j],
                                             macierzIn[i * n_real + (j - 1)], macierzIn[i * n_real + (j + 1)]);
       }
    }
    t.stop();
    cout << "\nTime: " << t.time();
}

第二:我在61个核心之间划分矩阵 . 矩阵的每个部分由每个核运行的4个HW线程计算 . 我这个版本,我尝试通过对同一个L2缓存周围的4个线程进行计算来减少缓存未命中 .

void ParallelStencil(const double* macierzIn, double* macierzOut, int m, int n)
{
    int m_real = m + 2;
    int n_real = m + 2;
    int coreCount = threadsCount / 4;
    int tID, coreNum, start, stop, step;

    TimeCPU t;
    t.start();
    #pragma omp parallel shared(macierzIn, macierzOut, m, n, m_real, n_real, coreCount) private(tID, coreNum, start, stop, step)
    {
        tID = omp_get_thread_num();
        coreNum = tID / 4;
        start = tID % 4 + ((m / coreCount) * coreNum) + 1;
        stop = (m / coreCount) * (coreNum + 1) + 1;
        if(coreNum == coreCount - 1 && stop != m_real - 1)
        {
                stop = m_real -1;
        }
        step = 4;

        for(int i=start; i<stop; i+=step)
        {
            for(int j=1; j<n+1; ++j)
            {
                macierzOut[i * n_real + j] = Max(macierzIn[i * n_real + j], macierzIn[(i - 1) * n_real + j], macierzIn[(i + 1) * n_real + j],
                                                 macierzIn[i * n_real + (j - 1)], macierzIn[i * n_real + (j + 1)]);

            }
        }
    }
    t.stop();
    cout << "\nTime: " << t.time();
}

在这个wersion循环中,矩阵的每个部分中的迭代都以这种方式执行:
i = 0 - >线程0
i = 1 - >线程1
i = 2 - >线程2
i = 3 - >线程3
i = 4 - >线程0
...

运行此代码后 . 第二个版本比较慢 . 但为什么?

1 回答

  • 0

    这可能更多的是评论而不是答案 . 在深入研究有效缓存利用率的问题之前,您应该修复这两个代码,使它们等效 . 目前他们不是 .

    差异#1

    第一个代码:

    int m_real = m + 2;
    int n_real = n + 2;
    

    第二个代码:

    int m_real = m + 2;
    int n_real = m + 2; // <---- m instead of n
    

    差异#2

    第一个代码:

    for(int j=1; j<n-1; ++j)
    

    第二个代码:

    for(int j=1; j<n+1; ++j) // <---- n+1 instead of n-1
    

    如果您的矩阵恰好不是正方形并且 m > n ,则第二个代码肯定会变慢,因为它必须计算更多 .

相关问题