【问题标题】:Efficient SSE NxN matrix multiplication高效的 SSE NxN 矩阵乘法
【发布时间】:2014-02-25 13:16:46
【问题描述】:

我正在尝试通过矩阵乘法来实现大矩阵的SSE 版本。 我正在寻找一种基于SIMD 实现的高效算法。

我想要的方法如下:

A(n x m) * B(m x k) = C(n x k)

并且所有的矩阵都被认为是16字节对齐的浮点数组。

我在网上搜索了一些描述8x8乘法甚至更小的文章。我真的需要它尽可能高效,我不想使用Eigen 库或类似的库。 (只有SSE3 更具体)。

如果有人能帮我找到一些关于如何开始实施的文章或资源,我将不胜感激。

【问题讨论】:

  • 使用一个已建立的库可能是迄今为止最简单和最有效的方法。这有什么问题?
  • 我终于想在设备上实现它了。我希望它独立于第三方库
  • 你需要单线程还是多线程版本?
  • 看看 BLAS 实现的源代码,看看他们做了什么?这些代码有很多优化。 ATLAS (math-atlas.sourceforge.net) 已获得 BSD 许可。

标签: c++ assembly sse matrix-multiplication simd


【解决方案1】:

实现任意大小的矩阵-矩阵乘法的主要挑战不是 SIMD 的使用,而是缓存数据的重用。如果你想实现缓存友好的矩阵-矩阵乘法,这篇论文Anatomy of High-Performance Matrix Multiplication by Goto and Van de Geijn 是必读的,它还讨论了对 SIMD 友好的内核的选择。阅读本文后,预计经过两周的努力,矩阵-矩阵乘法可以达到 50% 的机器峰值。

但是,如果这项工作的目的不是纯粹的学习,我强烈建议使用高度优化的库。在 x86 上,您最好的选择是 OpenBLAS(BSD 许可,支持动态 CPU 调度)、BLIS(BSD 许可,易于移植到新处理器)和Intel MKL(商业,支持 Intel 处理器上的动态 CPU 调度) .出于性能原因,最好避免使用 ATLAS,除非您针对的是其他库不支持的非常奇特的架构。

【讨论】:

  • 感谢您提供的一篇非常有用的文章
  • 好纸马拉。我花了两个多星期才打破 50%(也使用多线程),但我没有那张纸。我现在在 Ivy Bridge 上使用 AVX 获得了 70% 以上,在 Haswell 上使用 FMA3 获得了 55% 以上(与 Ivy Bridge 相比仍然好于 100%)。
  • @Zboson 我还建议您查看有关 BLIS 的论文,特别是如果您对线性代数的多核优化感兴趣。他们在这里:code.google.com/p/blis/#Citations
猜你喜欢
  • 2017-03-11
  • 2016-10-31
  • 1970-01-01
  • 2013-10-21
  • 2016-02-22
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多