4D numpy 数组上的矩阵乘法答案

【问题标题】：Matrix multiplication on 4D numpy arrays4D numpy 数组上的矩阵乘法
【发布时间】：2018-05-24 22:34:20
【问题描述】：

我需要对两个 4D 数组 (m & n) 执行矩阵乘法，m & n 的维度分别为 2x2x2x2 和 2x3x2x2，这应该会产生一个 2x3x2x2 数组。经过大量研究（主要是在这个网站上），这似乎可以通过 np.einsum 或 np.tensordot 有效地完成，但我无法复制答案我是从 Matlab 得到的（手工验证）。我了解这些方法（einsum 和 tensordot）在 2D 数组上执行矩阵乘法时的工作原理（清楚地解释了here），但我无法获得正确的 4D 数组的轴索引。显然我错过了一些东西！我的实际问题涉及两个 23x23x3x3 复数数组，但我的测试数组是：

a = np.array([[1, 7], [4, 3]]) 
b = np.array([[2, 9], [4, 5]]) 
c = np.array([[3, 6], [1, 0]]) 
d = np.array([[2, 8], [1, 2]]) 
e = np.array([[0, 0], [1, 2]])
f = np.array([[2, 8], [1, 0]])

m = np.array([[a, b], [c, d]])              # (2,2,2,2)
n = np.array([[e, f, a], [b, d, c]])        # (2,3,2,2)

我意识到复数可能会带来更多问题，但现在，我只是想了解 indexxing 如何与 einsum 和 tensordot 一起工作。我正在寻找的答案是这个 2x3x2x2 数组：

+----+-----------+-----------+-----------+
|    | 0         | 1         | 2         |
+====+===========+===========+===========+
|  0 | [[47 77]  | [[22 42]  | [[44 40]  |
|    |  [31 67]] |  [27 74]] |  [33 61]] |
+----+-----------+-----------+-----------+
|  1 | [[42 70]  | [[24 56]  | [[41 51]  |
|    |  [10 19]] |  [ 6 20]] |  [ 6 13]] |
+----+-----------+-----------+-----------+

我最接近的尝试是使用 np.tensordot：

mn = np.tensordot(m,n, axes=([1,3],[0,2]))

这给了我一个 2x2x3x2 数组，其数字正确但顺序不正确：

+----+-----------+-----------+
|    | 0         | 1         |
+====+===========+===========+
|  0 | [[47 77]  | [[31 67]  |
|    |  [22 42]  |  [24 74]  |
|    |  [44 40]] |  [33 61]] |
+----+-----------+-----------+
|  1 | [[42 70]  | [[10 19]  |
|    |  [24 56]  |  [ 6 20]  |
|    |  [41 51]] |  [ 6 13]] |
+----+-----------+-----------+

我也尝试实施here 的一些解决方案，但没有任何运气。
任何关于我如何改进的想法都将不胜感激，谢谢

【问题讨论】：

在 APL（一种编程语言）中，矩阵乘法运算符适用于高维对象。乘法/加法发生在左侧对象的最后一个维度和第二个对象的第一个维度上。在 2x2x2x2 +.x 2x3x2x2 的情况下，“内部”（...x2 ，2x...）尺寸被删除，结果将是一个 2x2x2x3x2x2 对象。我想知道 Matlab 是否遵循同样的规则。

标签： python arrays numpy matrix

【解决方案1】：

您最好的选择是使用np.einsum

np.einsum('ijkl,jmln->imkn', m, n)

array([[[[47, 77],
         [31, 67]],

        [[22, 42],
         [24, 74]],

        [[44, 40],
         [33, 61]]],


       [[[42, 70],
         [10, 19]],

        [[24, 56],
         [ 6, 20]],

        [[41, 51],
         [ 6, 13]]]])

【讨论】：

我认为这种方法是最容易应用/理解的，但与@Divakar 的 tensordot 解决方案相比，它的速度慢了多少让我感到惊讶。我看到的所有信息都建议 einsum 将是最有效的方法..
@AndrewForbes 只是基于 BLAS 的tensordot 效率太高。
是的，不幸的是np.einsum，虽然对于了解 Einstein Summation Notation 的人来说非常清楚，但不如各种 *dot 运算符优化。但是由于您的玩具问题似乎与您的实际问题的形式不同，所以我认为过早的优化不值得。

【解决方案2】：

您可以简单地交换 tensordot 结果上的轴，这样我们仍然可以利用基于 BLAS 的 sum-reduction 和 tensordot -

np.tensordot(m,n, axes=((1,3),(0,2))).swapaxes(1,2)

或者，我们可以在 tensordot 调用中交换 m 和 n 的位置并转置以重新排列所有轴 -

np.tensordot(n,m, axes=((0,2),(1,3))).transpose(2,0,3,1)

使用手动重塑和交换轴，我们也可以将 2D 矩阵乘法与 np.dot 引入，就像这样 -

m0,m1,m2,m3 = m.shape
n0,n1,n2,n3 = n.shape
m2D = m.swapaxes(1,2).reshape(-1,m1*m3)
n2D = n.swapaxes(1,2).reshape(n0*n2,-1)
out = m2D.dot(n2D).reshape(m0,m2,n1,n3).swapaxes(1,2)

运行时测试-

将输入数组缩放为10x 形状：

In [85]: m = np.random.rand(20,20,20,20)

In [86]: n = np.random.rand(20,30,20,20)

# @Daniel F's soln with einsum
In [87]: %timeit np.einsum('ijkl,jmln->imkn', m, n)
10 loops, best of 3: 136 ms per loop

In [126]: %timeit np.tensordot(m,n, axes=((1,3),(0,2))).swapaxes(1,2)
100 loops, best of 3: 2.31 ms per loop

In [127]: %timeit np.tensordot(n,m, axes=((0,2),(1,3))).transpose(2,0,3,1)
100 loops, best of 3: 2.37 ms per loop

In [128]: %%timeit
     ...: m0,m1,m2,m3 = m.shape
     ...: n0,n1,n2,n3 = n.shape
     ...: m2D = m.swapaxes(1,2).reshape(-1,m1*m3)
     ...: n2D = n.swapaxes(1,2).reshape(n0*n2,-1)
     ...: out = m2D.dot(n2D).reshape(m0,m2,n1,n3).swapaxes(1,2)
100 loops, best of 3: 2.36 ms per loop

【讨论】：

我可以看到某种形式的轴交换可能会做到这一点，但我没有走这条路，因为我认为 tensordot 可以在不重新排列的情况下做到这一点。为什么 einsum 和 tensordot 之间的速度差异如此之大？
@AndrewForbes 要了解 tensordot 如何“散布”剩余的轴，请参阅相关帖子 - stackoverflow.com/a/41871402。

【解决方案3】：

只是为了证明广播也有效：

(m[:, :, None, :, :, None] * n[None, :, :, None, :, :]).sum(axis=(1,4))

但发布的其他解决方案可能更快，至少对于大型数组而言。

【讨论】：