首页 文章
  • 3 votes
     answers
     views

    CUBLAS - 矩阵加法......怎么样?

    我正在尝试使用CUBLAS来总结两个未知大小的大矩阵 . 我需要一个完全优化的代码(如果可能的话)所以我选择不重写矩阵加法代码(简单)但是使用CUBLAS,特别是允许对A和C求和的cublasSgemm函数(如果B是单位矩阵):* C = alpha * op(A)* op(B)beta * c * 问题是:C和C以行主格式存储矩阵,而cublasSgemm旨在(以便兼容)以列主格式工作 . 你可...
  • 4 votes
     answers
     views

    使用BLAS或LAPACK与Xcode

    我正在寻找一个很好的指南,介绍如何将BLAS或LAPACK函数合并到我通过Xcode开发的Objective C程序中 . 我可以在线找到BLAS / LAPACK中程序的唯一来源是用Fortran编写的 - 这很令人困惑 . 如何在Objective C中使用BLAS / LAPACK和代码?有没有在线示例/指南?我希望能够执行矩阵运算,其中矩阵的元素具有复杂的值 . 干杯, Shaddy
  • 1 votes
     answers
     views

    有人熟悉LAPACK和BLAS吗?

    我是初学者,几周前我对C一无所知 . 现在我发现自己在安装LAPACK时遇到了麻烦 . 首先,我想使用VC 2010做一些矩阵计算,所以(按照某人的建议)我安装了Armadillo . 我发现Armadillo使用LAPACK和BLAS做一些矩阵反演工作,这就是让我陷入困境的原因 . 我有几个关于运行LAPACK的问题 . 我已经阅读了说明here . 我下载了各种.dll和.lib文件并多次更改...
  • 4 votes
     answers
     views

    需要帮助为CVXOPT安装LAPACK / BLAS(或推荐更容易安装的另一个QP解算器)

    我一直在尝试安装CVXOPT,这需要LAPACK / BLAS,说实话,这让我很伤心! Context : 我正在尝试使用SVM,因此需要一个QP求解器 . CVXOPT似乎是最好的 . 问题是LAPACK / BLAS(或ATLAS)依赖性 . 我已经尝试安装ATLAS,我认为它有用,但在尝试CVXOPT安装时,我仍然“找不到-lblas”和“找不到-llapack” . 因此,在过去的两天里...
  • 3 votes
     answers
     views

    QtCreator C与Armadillo / Lapack / Blas链接问题

    在这里编程新手所以请耐心等待! 我正在调查使用Armadillo(与Lapack和Blas或OpenBlas)在一个自定义的C Qt GUI项目中做一些相当重的矩阵算术和操作,并且有一些问题,读取stackoverflow上的先前帖子还没有帮助 . Build : 使用从本网站获得的MingW 4.9.1的Qt 5.3.2的Windows x64版本(http://sourceforge.net...
  • 0 votes
     answers
     views

    ATLAS-LAPACK没有链接到BLAS

    我去了标准的ATLAS编译 . 所有测试都通过,但是当我尝试使用以下命令进行编译时: gcc prog.c -o prog -I/home/atlas_build/include -L/home/atlas_build/lib -llapack -lcblas -lm 它给出了一连串的错误: dsyevr.f:(.text+0xbb): undefined reference to `lsame...
  • 1 votes
     answers
     views

    在c中调用lapack和blas

    我需要在我的c代码中使用lapack和blas,我想在linux系统中链接MKL,ACML或默认的lapack和blas . 不幸的是,他们在c中有不同的惯例 . 例如,MKL(mkl_blas.h)中的zdotc是 zdotc(&result, &n, x, &incx, y, &incy); 并从默认的lapack和blas(fortran版本)调用zdotc...
  • 0 votes
     answers
     views

    希望快速并行优化Lapack常规(gfortran)问题

    直到两天前我才认为我对此有一个非常清楚的认识,但现在我可能会过度思考它并使自己感到困惑 . 我将解释我正在做什么,然后提出一些可能过于简单的问题,但到目前为止我已经搜索并找到了相互矛盾的答案 . 当然有人可以帮我 . 我编写了一个使用LAPACK例程来解决特征值问题的fortran代码 . 我的问题设置是(A-LB)x = 0,其中L是我的特征值,x是我的特征向量,A和B是方形,复数,非对称,非埃...
  • 3 votes
     answers
     views

    Visual C / C 2010上的LAPACK

    我想在Visual C / C 2010中使用LAPACK和BLAS(将LAPACK和BLAS库添加到Visual C / C 2010),所以我正在阅读一个非常相似的问题here(与Visual C / C 2008相同),他声称他解决了这个问题: 我找到了问题的答案 . 问题是我知道我必须将包含LAPACK .lib文件的目录放在库目录列表中(工具 - >选项 - >项目和解决方...
  • 5 votes
     answers
     views

    Fortran双精度程序,带有简单的MKL BLAS程序

    在尝试在一个简单的程序中混合精度 - 使用真实和双重 - 并使用BLAS的ddot例程时,我想出了双精度部分的错误输出 . 这是代码: program test !! adding this statement narrowed the issue down to ddot being considered real(4) implicit none integer, parameter ::...
  • 9 votes
     answers
     views

    如何使用blas以最佳方式转置矩阵?

    我正在做一些计算,并对不同BLAS实现的力量和弱点进行一些分析 . 但是我遇到了一个问题 . 我正在测试cuBlas,在GPU上做linAlg似乎是个好主意,但是有一个问题 . 使用列主格式的cuBlas实现,因为这不是我最终需要的,我很好奇是否有一种方法可以让BLAS做矩阵转置?
  • 1 votes
     answers
     views

    BLAS:C中的Matrix产品?

    感谢BLAS,我想用C语言实现一些快速操作(没有机会选择另一个库,它是我项目中唯一可用的库) . 我做了以下操作: 反转方阵, 制作矩阵乘积A * B,其中A是计算的逆矩阵,B是矢量, 求和两个(非常长)向量 . 我听说BLAS可以进行这种操作并且非常快 . 但我搜索并发现没有任何东西(在C代码行中,我的意思),这可以让我理解并应用它 .
  • 2 votes
     answers
     views

    矩阵指数BLAS / LAPACK

    我想知道 BLAS 或 LAPACK 是否实现任何函数来获得某个 double 或 float 数字矩阵的指数 . 到目前为止,我还没有找到任何类似的功能 .
  • 6 votes
     answers
     views

    如何使用BLAS执行向量矩阵乘法?

    BLAS定义了GEMV(矩阵 - 向量乘法)2级操作 . 如何使用BLAS库执行向量矩阵乘法? 这可能是显而易见的,但我没有看到如何使用BLAS操作进行此乘法 . 我原本期望一个GEVM操作 .
  • 1 votes
     answers
     views

    BLAS矩阵乘法NaN

    我正在使用LAPACK库执行矩阵的SVD,然后将矩阵相乘以检查它们是否正确 . 请参阅下面的代码 subroutine svd_and_dgemm() ! -- Matrix decomp: A = USV^t implicit none integer,parameter :: m = 2 integer,parameter :: n = 3 integer i,info,ld...
  • 0 votes
     answers
     views

    Theano与Windows上的Anaconda:如何设置BLAS?

    我使用Anaconda在Windows 7 64bit上安装Theano(和Keras) . 这是我的步骤 . 安装最新的Anaconda for Python 3.5 conda安装mingw libpython pip安装Theano conda install pydot-ng pip install keras 编辑.keras / keras.json使用&quo...
  • -1 votes
     answers
     views

    CUDA计算机库克罗内克产品[关闭]

    我有一个应用程序,需要我计算一些2D矩阵的大型Kronecker产品,并将结果乘以大型2D矩阵 . 我想在CUDA中的GPU上实现它,并且更愿意为此使用调优的库实现,而不是编写我自己的(当然不是最理想的)Kronecker产品 . 我有使用CUDA,BLAS,LAPACK等的经验,但不幸的是在常见的GPU实现(岩浆,cuBLAS,cula等)中没有kron(A,B)功能 . 我找到了一个适合我需求...
  • 2 votes
     answers
     views

    Intel Xeon E5430有多少FPU?

    我正在调查使用gotoblas库在一个CPU周期中可以完成多少FLOP . 我使用32位浮点数来运行矩阵乘法,并且通过手动计算得到每个CPU周期大约8个FLOP . 我想这可能是因为我的处理器(Intel Xeon E5430)中有两个FPU,每个FPU通过128位XMM寄存器处理一条SSE指令 . 因此,使用32位浮点数,每个CPU周期得到2 * 4个FLOP . 我猜是正确的吗?是否有官方手册...
  • 0 votes
     answers
     views

    读取矩阵并对其进行操作BLAS

    如果矩阵是内存映射的,我需要读取它并在块中处理它,因为它有点大,如何读取它并在 BLAS 中逐块处理它?
  • 0 votes
     answers
     views

    在汇编中实现矩阵向量乘法

    我有一个算法一遍又一遍地执行线性代数的树步骤, loop{ first I multiply a Vector and a Matrix, Second I calculate the sum of elements in the Vector and Thirdly I scale the vector using the sum, making sure the vectors...
  • 1 votes
     answers
     views

    如何使用BLAS - 矩阵向量乘法使我的Fortran循环更快

    我想优化速度以下Fortran代码 DO ii = 1, N A (:,:) = A (:,:) + C (ii) * B (:,:, ii ) ENDDO A(M,M) 维度和 B(M,M) 维度 . 我在考虑使用BLAS DO jj=1,M CALL zgemm('n', 'n', 1, M, N, cone, C(:), cone, B (jj,:, : ),& ...
  • 4 votes
     answers
     views

    BLAS矩阵通过矩阵转置乘法

    我必须以 A'A 或更一般 A'DA 的形式计算一些产品,其中 A 是一般 mxn 矩阵, D 是对角线 mxm 矩阵 . 两者都是满级;即 rank(A)=min(m,n) . 我知道你可以节省大量时间就是这样的对称产品:鉴于 A'A 是对称的,你只需要计算产品矩阵的下部 - 或上部 - 对角线部分 . 这增加了要计算的 n(n+1)/2 个条目,这大约是大型矩阵的典型 n^2 的一半 . 这...
  • 0 votes
     answers
     views

    GEMM在BLAS中具有单精度和双精度矩阵

    我正在用openBLAS编写一些线性代数程序 . 该程序需要乘以两个矩阵;一个是单精度的,另一个是双精度的 . 我查了BLAS参考“http://netlib.org/blas/blasqr.pdf”,看来BLAS只支持相同类型的操作 . 有什么我想念的吗?或者,要将两个矩阵乘以不同的精度,我是否需要对单精度矩阵进行类型转换然后乘以它们?
  • 108 votes
     answers
     views

    BLAS,LAPACK和ATLAS之间有什么关系

    我不明白BLAS,LAPACK和ATLAS是如何相关的以及我应该如何一起使用它们!我一直在查看他们的所有手册,我对BLAS和LAPACK以及如何在我找到的极少数示例中使用它们有一个大概的想法,但我找不到任何使用ATLAS的实际示例来查看它与这两个 . 我正在尝试对矩阵进行一些低级别的工作,而我的主要语言是C.首先我想使用GSL,但它说如果你想要最好的性能,你应该使用BLAS和ATLAS . 有没有...
  • 20 votes
     answers
     views

    复制BLAS矩阵乘法性能:我能匹配吗?

    Background 如果你一直关注我的帖子,我试图复制Kazushige Goto关于方阵乘法 C = AB 的开创性论文中的结果 . 我关于这个主题的最后一篇文章可以在here找到 . 在我的代码版本中,我遵循Goto的内存分层和打包策略,使用内核计算 2x8 块使用128位SSE3内在函数 . 我的CPU是i5-540M,超线程关闭 . 有关我的硬件的其他信息可以在另一个post中找到,并在...

热门问题