首页 文章

OpenMP运行时波动

提问于
浏览
1

我目前正在FORTRAN代码的一个大循环中测试OpenMP . 代码是从VB.NET用户界面调用的模拟模块的一部分;该接口也进行定时测量 . 所以我开始模拟,最后软件显示我花了多长时间(我只写这个以表明对于定时测量我不使用wtime或cpu_time) . 现在当我用我的并行循环重复开始模拟时,我总是得到不同的模拟时间,在一个例子中,达到1分30秒到差不多3分钟!结果总是正确的 .

我尝试了不同的循环计划(静态,引导,动态),我试图计算手动分配给每个线程的块(做i = 1,N - >做i = i_start,i_end),我试图改变参与循环计算的线程数 - 没有变化的情况 . 当我从代码中删除OpenMP指令时,这不会发生,因此它们必须是此行为的原因 . 我的机器是安装了Win7的四核Intel Xeon(R)CPU X3470 @ 2.93GHz . 我尝试使用启用和禁用多线程(在BIOS中)运行程序,但是,这也没有改变任何东西 .

你有什么想法会出问题吗?对这种情况的网络搜索表明,在其他程序员的测试环境中也发生了类似的行为,但是从未提及过解决方案/原因 . 提前感谢您的想法 .

马丁

编辑

这是代码:

!$OMP PARALLEL DO DEFAULT(SHARED) &
!$OMP PRIVATE(n,k,nk,i,j,l,List,Vx,Vz,cS,AE1,RootCh,Ec1,Ec2,Ec3,FcE,GcE,VxE,VzE,SMuL1,SMuL2) &
!$OMP PRIVATE(W1,W2,W3,Wx,Wz,S,i1,j1,AcE,j2,ic,iB,iBound,i2) &
!$OMP FIRSTPRIVATE(NumSEL) REDUCTION(-:Cum0,Cum1) REDUCTION(+:CumR)
    DO n=1, NumEl
!       Loop on subelements    
        DO k=1, Elements(n)%nCorners-2
            nk = (k-1) * 3
            NumSEL=NumSEL+1
!            
            i=Elements(n)%KX(1)
            j=Elements(n)%KX(k+1)
            l=Elements(n)%KX(k+2)
            List(1)=i
            List(2)=j
            List(3)=l
!            
            IF(Level == NLevel) THEN
                Vx(1)=Nodes(i)%VxO
                Vx(2)=Nodes(j)%VxO
                Vx(3)=Nodes(l)%VxO
                Vz(1)=Nodes(i)%VzO
                Vz(2)=Nodes(j)%VzO
                Vz(3)=Nodes(l)%VzO
            ELSE
                Vx(1)=Nodes(i)%VxN
                Vx(2)=Nodes(j)%VxN
                Vx(3)=Nodes(l)%VxN
                Vz(1)=Nodes(i)%VzN
                Vz(2)=Nodes(j)%VzN
                Vz(3)=Nodes(l)%VzN
            END IF
!            
            cS=cBound(sol,5)
            cS=(MIN(cS,Nodes(i)%Conc(sol))+MIN(cS,Nodes(j)%Conc(sol))+MIN(cS,Nodes(l)%Conc(sol)))/3.0D0       

            AE1=Elements(n)%xMul(k)*Elements(n)%Area(k)*dt*Eps
            RootCh=AE1*cS*(Nodes(i)%Sink+Nodes(j)%Sink+Nodes(l)%Sink)/3.0D0
            Cum0=Cum0-AE1*(Nodes(i)%Gc1+Nodes(j)%Gc1+Nodes(l)%Gc1)/3.0D0
            Cum1=Cum1-AE1*(Nodes(i)%Fc1+Nodes(j)%Fc1+Nodes(l)%Fc1)/3.0D0
            CumR=CumR+RootCh
            Ec1=(Nodes(i)%Dispxx+Nodes(j)%Dispxx+Nodes(l)%Dispxx)/3.0D0
            Ec2=(Nodes(i)%Dispxz+Nodes(j)%Dispxz+Nodes(l)%Dispxz)/3.0D0
            Ec3=(Nodes(i)%Dispzz+Nodes(j)%Dispzz+Nodes(l)%Dispzz)/3.0D0
!
            IF (Level == NLevel) AcE=(Nodes(i)%Ac+Nodes(j)%Ac+Nodes(l)%Ac)/3.0D0
!
            FcE=(Nodes(i)%Fc+Nodes(j)%Fc+Nodes(l)%Fc)/3.0D0
            GcE=(Nodes(i)%Gc+Nodes(j)%Gc+Nodes(l)%Gc)/3.0D0
            VxE=(Vx(1)+Vx(2)+Vx(3))/3.0D0
            VzE=(Vz(1)+Vz(2)+Vz(3))/3.0D0
            SMul1=-Elements(n)%AMul(k)
            SMul2=Elements(n)%Area(k)/20.0D0*Elements(n)%XMul(k)
!
            If (lUpw) THEN
                !W1=WeTab(1,NumSEl)
                !W2=WeTab(2,NumSEl)
                !W3=WeTab(3,NumSEl)
                W1=WeTab(1,(n-1)*(Elements(n)%nCorners-2)+k)
                W2=WeTab(2,(n-1)*(Elements(n)%nCorners-2)+k)
                W3=WeTab(3,(n-1)*(Elements(n)%nCorners-2)+k)
                Wx(1)=2.0D0*Vx(1)*(W2-W3)+Vx(2)*(W2-2.0D0*W3)+Vx(3)*(2.0D0*W2-W3)
                Wx(2)=Vx(1)*(2.0D0*W3-W1)+2.0D0*Vx(2)*(W3-W1)+Vx(3)*(W3-2.0D0*W1)
                Wx(3)=Vx(1)*(W1-2.0D0*W2)+Vx(2)*(2.0D0*W1-W2)+2.0D0*Vx(3)*(W1-W2)
                Wz(1)=2.0D0*Vz(1)*(W2-W3)+Vz(2)*(W2-2.0D0*W3)+Vz(3)*(2.0D0*W2-W3)
                Wz(2)=Vz(1)*(2.0D0*W3-W1)+2.0D0*Vz(2)*(W3-W1)+Vz(3)*(W3-2.0D0*W1)
                Wz(3)=Vz(1)*(W1-2.0D0*W2)+Vz(2)*(2.0D0*W1-W2)+2.0D0*Vz(3)*(W1-W2)
            END IF
!
            DO j1=1, 3
                i1=List(j1)
!$OMP           ATOMIC
                Nodes(i1)%F=Nodes(i1)%F+Elements(n)%GMul(k)*(GcE+Nodes(i1)%Gc/3.0D0)
                IF (Level==NLevel) then
!$OMP               ATOMIC
                    Nodes(i1)%DS=Nodes(i1)%DS+Elements(n)%GMul(k)*(Ace+Nodes(i1)%Ac/3.0D0)
                end if
                iBound=0
                IF (Nodes(i)%Kode/=0) THEN
                    BP_Loop : DO id=1, NumBP
                        IF((KXB(id)==i1) .AND. (KodCB(id) > 0)) THEN
                            iBound=1
                            EXIT BP_Loop
                        END IF
                    END DO BP_Loop
                END IF 
!
                DO j2=1, 3
                    i2=List(j2)
                    S(j1,j2)=SMul1*(Ec1*Elements(n)%dz(nk+j1)*Elements(n)%dz(nk+j2)+ &
                                    Ec3*Elements(n)%dx(nk+j1)*Elements(n)%dx(nk+j2)+ &
                                   Ec2*(Elements(n)%dz(nk+j1)*Elements(n)%dx(nk+j2)+ &
                                        Elements(n)%dx(nk+j1)*Elements(n)%dz(nk+j2)))

                    S(j1,j2)=S(j1,j2)-(Elements(n)%dz(nk+j2)/8.0D0*(VxE+Vx(j1)/3.0D0)+ & 
                                       Elements(n)%dx(nk+j2)/8.0D0*(VzE+Vz(j1)/3.0D0))*Elements(n)%xMul(k)

                    IF(lUpw) S(j1,j2)=S(j1,j2)-Elements(n)%xMul(k)* &
                                              (Elements(n)%dz(nk+j2)/40.0D0*Wx(j1)+ &
                                               Elements(n)%dx(nk+j2)/40.0D0*Wz(j1))

                    ic=1
                    IF (i1==i2) ic=2
                    S(j1,j2)=S(j1,j2)+SMul2*ic*(FcE+(Nodes(i1)%Fc+Nodes(i2)%Fc)/3.0D0)
                    IF (iBound==1) then
                        if(j2.eq.1) then
!$OMP                      ATOMIC
                                Nodes(i1)%Qc(sol)=Nodes(i1)%Qc(sol)-Eps*S(j1,j2)*Nodes(i2)%Conc(sol)-Eps*Elements(n)%GMul(k)*(GcE+Nodes(i1)%Gc/3.0D0)
                        else
!$OMP                       ATOMIC
                            Nodes(i1)%Qc(sol)=Nodes(i1)%Qc(sol)-Eps*S(j1,j2)*Nodes(i2)%Conc(sol)
                        end if
                    end if
                    IF (Level/=NLevel) THEN
!$OMP                   ATOMIC
                        B(i1)=B(i1)-alf*S(j1,j2)*Nodes(i2)%Conc(sol)
                    ELSE
                        IF (lOrt) THEN
                            CALL rFIND(i1,i2,kk,NumNP,MBandD,IAD,IADN)
                            iB=kk
                    ELSE
                        iB=MBand+i2-i1
                    END IF
!$OMP                   ATOMIC
                        A(iB,i1)=A(iB,i1)+epsi*S(j1,j2)
                    END IF
                END DO
            END DO
        END DO
    END DO
!$OMP END PARALLEL DO

1 回答

  • 0

    如果你想检查程序中的性能,我建议你使用OpenMP计时功能在程序中进行计时 . 请参阅OpenMP参考 . 片 . 所以你需要做类似的事情:

    USE omp_lib
    
    t1 = omp_get_wtime()
    ! Big loop
    t_final = omp_get_wtime() - t1
    

    我有时候发现这些更好地反映了实际的并行化时间 . 你用那些吗?

    正如FFox所说,它可能只是由于 ATOMIC 语句在每次运行中延迟了不同的庄园 . 请记住,线程是在运行时创建的,因此每次运行的线程布局可能不同 .

    有了这样一个循环,我会试着看看你是否可以通过拆分来获得速度 . 当然,如果2个线程的加速比大约为2,则不需要这样做 . 只是一个想法 .

相关问题