矩阵/张量三重产品？答案

【问题标题】：Matrix/Tensor Triple Product?矩阵/张量三重产品？
【发布时间】：2015-07-24 05:41:42
【问题描述】：

我正在研究的算法需要在几个地方计算一种矩阵三元积。

该操作采用三个具有相同维度的方阵，并产生一个 3 索引张量。标记操作数A、B和C，结果的(i,j,k)-th元素为

X[i,j,k] = \sum_a A[i,a] B[a,j] C[k,a]

在 numpy 中，您可以使用 einsum('ia,aj,ka->ijk', A, B, C) 进行计算。

问题：

此操作是否有标准名称？
我可以通过一次 BLAS 调用来计算吗？
是否有任何其他重度优化的数值 C/Fortran 库可以计算这种类型的表达式？

【问题讨论】：

查看 MATLAB Tensor Toolbox 版本 2.6 sandia.gov/~tgkolda/TensorToolbox/index-2.6.html
我认为，您可以 在 Matlab 中使用一个 bsxfun 和一个矩阵乘法来做到这一点。两者都是快速操作。这对你有用吗？

标签： matlab numpy matrix matrix-multiplication blas

【解决方案1】：

设nxn 为矩阵大小。在 Matlab 中，您可以

将A和C组合成n^2xn矩阵AC，使得AC的行对应A和C行的所有组合。
将AC 乘以B。这会产生所需的结果，只是形状不同。
重塑和置换尺寸以获得所需形式的结果。

代码：

AC = reshape(bsxfun(@times, permute(A, [1 3 2]), permute(C, [3 1 2])), n^2, n); % // 1
X = permute(reshape((AC*B).', n, n, n), [2 1 3]);                               %'// 2, 3

使用基于逐字循环的方法进行检查：

%// Example data:
n = 3;
A = rand(n,n);
B = rand(n,n);
C = rand(n,n);

%// Proposed approach:
AC = reshape(bsxfun(@times, permute(A, [1 3 2]), permute(C, [3 1 2])), n^2, n);
X = permute(reshape((AC*B).', n, n, n), [2 1 3]); %'

%// Loop-based approach:
Xloop = NaN(n,n,n); %// initiallize
for ii = 1:n
    for jj = 1:n
        for kk = 1:n
            Xloop(ii,jj,kk) = sum(A(ii,:).*B(:,jj).'.*C(kk,:)); %'
        end
    end
end

%// Compute maximum relative difference:
max(max(max(abs(X./Xloop-1))))

ans =
    2.2204e-16

最大相对差在eps的数量级，所以结果在数值精度范围内是正确的。

【讨论】：

或者总而言之：使用 numpy 代替。抱歉，无法抗拒；）

【解决方案2】：

介绍及解决方案代码

np.einsum，确实很难被击败，但是在极少数情况下，你仍然可以击败它，如果你可以将matrix-multiplication 带入计算。经过几次试验，您似乎可以引入matrix-multiplication with np.dot 以超越np.einsum('ia,aj,ka->ijk', A, B, C) 的性能。

基本思想是我们将“all einsum”操作分解为np.einsum和np.dot的组合，如下所示：

A:[i,a] 和 B:[a,j] 的求和是用 np.einsum 完成的，以便我们得到 3D array:[i,j,a]。
然后将这个 3D 数组重新整形为 2D array:[i*j,a]，并将第三个数组 C[k,a] 转置为 [a,k]，目的是在这两者之间执行 matrix-multiplication，得到 [i*j,k] 作为矩阵积，因为我们在那里丢失了索引[a]。
产品被重新整形为3D array:[i,j,k]，用于最终输出。

这是目前讨论的第一个版本的实现 -

import numpy as np

def tensor_prod_v1(A,B,C):   # First version of proposed method
    # Shape parameters
    m,d = A.shape
    n = B.shape[1]
    p = C.shape[0]
    
    # Calculate \sum_a A[i,a] B[a,j] to get a 3D array with indices as (i,j,a)
    AB = np.einsum('ia,aj->ija', A, B)
    
    # Calculate entire summation losing a-ith index & reshaping to desired shape
    return np.dot(AB.reshape(m*n,d),C.T).reshape(m,n,p)

由于我们要对所有三个输入数组的 a-th 索引求和，因此可以使用三种不同的方法对第 a 个索引求和。前面列出的代码用于(A,B)。因此，我们还可以使用(A,C) 和(B,C) 为我们提供另外两个变体，如下所示：

def tensor_prod_v2(A,B,C):
    # Shape parameters
    m,d = A.shape
    n = B.shape[1]
    p = C.shape[0]
    
    # Calculate \sum_a A[i,a] C[k,a] to get a 3D array with indices as (i,k,a)
    AC = np.einsum('ia,ja->ija', A, C)
    
    # Calculate entire summation losing a-ith index & reshaping to desired shape
    return np.dot(AC.reshape(m*p,d),B).reshape(m,p,n).transpose(0,2,1)
    
def tensor_prod_v3(A,B,C):
    # Shape parameters
    m,d = A.shape
    n = B.shape[1]
    p = C.shape[0]
    
    # Calculate \sum_a B[a,j] C[k,a] to get a 3D array with indices as (a,j,k)
    BC = np.einsum('ai,ja->aij', B, C)
    
    # Calculate entire summation losing a-ith index & reshaping to desired shape
    return np.dot(A,BC.reshape(d,n*p)).reshape(m,n,p)

根据输入数组的形状，不同的方法会产生不同的加速比，但我们希望所有方法都比all-einsum 方法更好。性能数字在下一节中列出。

运行时测试

这可能是最重要的部分，因为我们尝试使用所提议方法的三种变体来研究加速数字问题中最初提出的all-einsum 方法。

数据集 #1（等形数组）：

In [494]: L1 = 200
     ...: L2 = 200
     ...: L3 = 200
     ...: al = 200
     ...: 
     ...: A = np.random.rand(L1,al)
     ...: B = np.random.rand(al,L2)
     ...: C = np.random.rand(L3,al)
     ...: 

In [495]: %timeit tensor_prod_v1(A,B,C)
     ...: %timeit tensor_prod_v2(A,B,C)
     ...: %timeit tensor_prod_v3(A,B,C)
     ...: %timeit np.einsum('ia,aj,ka->ijk', A, B, C)
     ...: 
1 loops, best of 3: 470 ms per loop
1 loops, best of 3: 391 ms per loop
1 loops, best of 3: 446 ms per loop
1 loops, best of 3: 3.59 s per loop

数据集 #2（更大的 A）：

In [497]: L1 = 1000
     ...: L2 = 100
     ...: L3 = 100
     ...: al = 100
     ...: 
     ...: A = np.random.rand(L1,al)
     ...: B = np.random.rand(al,L2)
     ...: C = np.random.rand(L3,al)
     ...: 

In [498]: %timeit tensor_prod_v1(A,B,C)
     ...: %timeit tensor_prod_v2(A,B,C)
     ...: %timeit tensor_prod_v3(A,B,C)
     ...: %timeit np.einsum('ia,aj,ka->ijk', A, B, C)
     ...: 
1 loops, best of 3: 442 ms per loop
1 loops, best of 3: 355 ms per loop
1 loops, best of 3: 303 ms per loop
1 loops, best of 3: 2.42 s per loop

数据集 #3（更大的 B）：

In [500]: L1 = 100
     ...: L2 = 1000
     ...: L3 = 100
     ...: al = 100
     ...: 
     ...: A = np.random.rand(L1,al)
     ...: B = np.random.rand(al,L2)
     ...: C = np.random.rand(L3,al)
     ...: 

In [501]: %timeit tensor_prod_v1(A,B,C)
     ...: %timeit tensor_prod_v2(A,B,C)
     ...: %timeit tensor_prod_v3(A,B,C)
     ...: %timeit np.einsum('ia,aj,ka->ijk', A, B, C)
     ...: 
1 loops, best of 3: 474 ms per loop
1 loops, best of 3: 247 ms per loop
1 loops, best of 3: 439 ms per loop
1 loops, best of 3: 2.26 s per loop

数据集 #4（更大的 C）：

In [503]: L1 = 100
     ...: L2 = 100
     ...: L3 = 1000
     ...: al = 100
     ...: 
     ...: A = np.random.rand(L1,al)
     ...: B = np.random.rand(al,L2)
     ...: C = np.random.rand(L3,al)

In [504]: %timeit tensor_prod_v1(A,B,C)
     ...: %timeit tensor_prod_v2(A,B,C)
     ...: %timeit tensor_prod_v3(A,B,C)
     ...: %timeit np.einsum('ia,aj,ka->ijk', A, B, C)
     ...: 
1 loops, best of 3: 250 ms per loop
1 loops, best of 3: 358 ms per loop
1 loops, best of 3: 362 ms per loop
1 loops, best of 3: 2.46 s per loop

数据集 #5（更大的第一个维度长度）：

In [506]: L1 = 100
     ...: L2 = 100
     ...: L3 = 100
     ...: al = 1000
     ...: 
     ...: A = np.random.rand(L1,al)
     ...: B = np.random.rand(al,L2)
     ...: C = np.random.rand(L3,al)
     ...: 

In [507]: %timeit tensor_prod_v1(A,B,C)
     ...: %timeit tensor_prod_v2(A,B,C)
     ...: %timeit tensor_prod_v3(A,B,C)
     ...: %timeit np.einsum('ia,aj,ka->ijk', A, B, C)
     ...: 
1 loops, best of 3: 373 ms per loop
1 loops, best of 3: 269 ms per loop
1 loops, best of 3: 299 ms per loop
1 loops, best of 3: 2.38 s per loop

结论：我们看到 8x-10x 的加速比问题中列出的 all-einsum 方法的建议方法不同。

【讨论】：

【解决方案3】：

我知道这有点老了，但这个话题经常出现。在 Matlab 中很难击败 tprod，这里是 Jason Farquhar 编写的 MEX 文件

https://www.mathworks.com/matlabcentral/fileexchange/16275-tprod-arbitary-tensor-products-between-n-d-arrays

tprod 的工作原理很像 einsum，尽管它仅限于二元运算（2 个张量）。这可能不是真正的限制，因为我怀疑 einsum 只是执行一系列二进制操作。这些操作的顺序有很大的不同，我的理解是 einsum 只是按照数组传递的顺序执行它们，并且不允许多个中间产品。

tprod 也仅限于密集（完整）数组。 Kolda 的张量工具箱（在之前的文章中提到）确实支持稀疏张量，但它的功能比 tprod 更受限制（它不允许在输出中重复索引）。我正在努力填补这些空白，但如果 Mathworks 能做到这一点不是很好吗？

【讨论】：