在汇编中实现矩阵向量乘法-Java 学习之路

我有一个算法一遍又一遍地执行线性代数的树步骤，

loop{
  first I multiply a Vector and a Matrix, 
  Second I calculate the sum of elements in the Vector 
  and Thirdly I scale the vector using the sum, making sure the vectors elements scale to one.
}

我正在使用BLAS来执行操作，这有点快，但是需要树形运行数据，每个步骤一个 . 现在我想知道是否可以通过将步骤合并为一个来获得一些东西，只需将数据运行一次 .

有没有人对如何以最佳方式实现这些调用有所了解，我的矩阵大约是100 * 100，向量是100个元素 .

我认为矢量可以适合8 128byte mmx寄存器 . 使乘法很快，任何想法？

1 回答

5
优化的BLAS库是非常棘手的代码，除非您是asm编程专家并了解CPU的缓存性能，并且愿意花费大量时间测试各种方法，否则您不太可能做得更好 . 如果你想看看它是如何完成的，你可以下载并查看GOTO BLAS的源代码（在asm中实现，是的） .

我不确定如何对代码进行任何实质性的优化 . 我怀疑已经在N = 100时，矩阵向量乘积的O（N ^ 2）将主导运行时，并且算法中的第二步和第三步非常微不足道 . 因此，尝试将所有3个步骤组合起来看起来并不那么有用 .

我想你可以做的一件小事，除非你已经这样做了，在第三步中乘以和的倒数而不是除以总和;分裂比乘法贵很多 . 例如 .
```
double my_sum = sum(my_vector);
double tmp = 1 / my_sum;
for (i=...) {
   my_vector[i] *= tmp;
}
```
回复于 2024-05-14T04:35:34+08:00

在汇编中实现矩阵向量乘法

1 回答

相关问题