【问题标题】:How to vectorize the dot product between segments of a trajectory如何矢量化轨迹段之间的点积
【发布时间】:2015-01-24 22:07:27
【问题描述】:

这是轨迹(xy 坐标)的连续段之间的点积函数。结果与预期一致,但“for 循环”使其非常慢。

In [94]:
def func1(xy, s):
    size = xy.shape[0]-2*s
    out = np.zeros(size)
    for i in range(size):
        p1, p2 = xy[i], xy[i+s]     #segment 1
        p3, p4 = xy[i+s], xy[i+2*s] #segment 2
        out[i] = np.dot(p1-p2, p4-p3)
    return out

xy = np.array([[1,2],[2,3],[3,4],[5,6],[7,8],[2,4],[5,2],[9,9],[1,1]])
func1(xy, 2)

Out[94]:
array([-16.,  15.,  32.,  31., -14.])

我寻找一种方法来矢量化上述内容,希望让它更快。这是我想出的:

In [95]:
def func2(xy, s):
    size = xy.shape[0]-2*s
    p1 = xy[0:size]
    p2 = xy[s:size+s]
    p3 = p2
    p4 = xy[2*s:size+2*s]
    return np.diagonal(np.dot((p1-p2), (p4-p3).T))

func2(xy, 2)

Out[95]:
array([-16,  15,  32,  31, -14])

不幸的是,点积会产生一个方阵,我必须从中取对角线:

In [96]:
print np.dot((p1-p2), (p4-p3).T)
np.diagonal(np.dot((p1-p2), (p4-p3).T))

[[-16  10  16 -24  10]
 [-24  15  24 -36  15]
 [-32  20  32 -48  20]
 [ 20 -13 -18  31 -14]
 [ 32 -18 -40  44 -14]]

Out[96]:
array([-16,  15,  32,  31, -14])

我的解决方案真的很糟糕。它仅将速度提高了 2 倍,更重要的是它现在不可扩展。我的平均轨迹有几万个点,这意味着我必须处理巨大的矩阵。

你们知道更好的方法吗? 谢谢

编辑: 惊人的! einsum 绝对是解决方案。在我的沮丧中,我自己编写了点积。我知道,它的可读性不是很好,它违背了使用优化库的目的,但无论如何(func4)。速度与 einsum 相当。

def func4(xy, s):
    size = xy.shape[0]-2*s
    tmp1 = xy[0:size] - xy[s:size+s]
    tmp2 = xy[2*s:size+2*s] - xy[s:size+s]
    return tmp1[:, 0] * tmp2[:, 0] + tmp1[:, 1] * tmp2[:, 1]

【问题讨论】:

  • 对于更大的数组,func4 更快。

标签: python numpy


【解决方案1】:

您在func2 中的想法自然会导致使用np.einsum

func2 的优点是它只计算一次 p1p2p3p4 更大的数组,而不是 func1 中的小块。

func2 的坏处在于它做了很多你没有做的点积 关心。

这就是einsum 的用武之地。它是np.dot 的更灵活版本。 每当您计算产品总和时,请考虑使用np.einsum。它 可能是最快(如果不是最快的)计算 数量使用 NumPy。

def func3(xy, s):
    size = xy.shape[0]-2*s
    p1 = xy[0:size]
    p2 = xy[s:size+s]
    p3 = p2
    p4 = xy[2*s:size+2*s]
    return np.einsum('ij,ij->i', p1-p2, p4-p3)

下标字符串'ij,ij->i'的含义如下:

下标字符串'ij,ij->i'有两部分:在箭头之前 (->),左侧为ij,ij,箭头后为i

在左侧,逗号前的ij 指的是p1-p2 的下标,而 逗号后的ij 指的是p4-p3 的下标。

爱因斯坦求和符号对不出现在箭头之后的重复下标求和。在这种情况下,j 会重复,并且不会出现在箭头之后。

因此,对于每个 i,都会计算总和 (p1-p2)[i,j]*(p4-p3)[i,j],其中总和会覆盖所有 j。结果是一个由i 索引的数组。


完整性检查:

In [90]: np.allclose(func1(xy, 2), func3(xy, 2))
Out[90]: True

这是一个基准:在形状为 (9000, 2) 的数组 xy 上,使用 einsum 显示 比 func1 快 450 倍,比 func2 快 7470 倍:

In [13]: xy = np.tile(xy, (1000,1))

In [14]: %timeit func1(xy, 2)
10 loops, best of 3: 42.1 ms per loop

In [15]: %timeit func2(xy, 2)
1 loops, best of 3: 686 ms per loop

In [16]: %timeit func3(xy, 2)
10000 loops, best of 3: 91.8 µs per loop

OP 的func4 的表现甚至比func3 还要好!

In [92]: %timeit func4(xy, 2)
10000 loops, best of 3: 74.1 µs per loop

我认为func4 在这里击败einsum 的原因是,与仅手动写出总和相比,在einsum 中设置循环的成本仅为 2 次迭代太昂贵了。

【讨论】:

    【解决方案2】:

    einsum 是推广dot 产品的好工具。玩弄它,我可以重现你的数字:

    np.einsum('ij,ij->i',p1-p2,p4-p3)
    

    'ij,kj' 产生dot(p1-p2, (p4-p3).T); 'i...,i...->i' 做对角线 - 一步完成。


    作为我尝试过的跨产品问题的衍生产品

    tmp11,tmp21),tmp11[:,0]*tmp21[:,0]+tmp11[:,1]*tmp21[:,1])
    

    对于 5000 行数组,它几乎是 einsum 计算速度的 2 倍。

    【讨论】:

      猜你喜欢
      • 2018-12-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-01-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-04-05
      相关资源
      最近更新 更多