【问题标题】:How to compute 2D cumulative sum efficiently如何有效地计算二维累积和
【发布时间】:2021-08-01 00:31:16
【问题描述】:

给定一个形状为(m,n) 的二维数值数组X,我想计算一个形状相同的数组Y,其中Y[i,j]X[i_,j_]0<=i_<=i, 0<=j_<=j 的累积和.如果X 描述了一个二维概率分布,那么Y 可以被认为是二维累积分布函数(CDF)。

我显然可以在双 for 循环中计算 Y 的所有条目。但是,此计算存在递归方面,如 Y[i,j] = X[i,j] + Y[i-1,j] + Y[i,j-1] - Y[i-1,j-1](其中负索引表示 0)。

我在寻找“2d Python cumsum”,我发现 NumPy 的 cumsum 只是将数组变平。

我的问题:

  1. 是否有用于高效计算Y 的标准 Python 函数?
  2. 如果不是,上面的递归思想是最优的吗?

谢谢。

【问题讨论】:

  • 看来您对 2d 累积和的方法是可行的。但是,我想知道您正在努力实现的更大目标是什么。如果您需要联合概率或条件概率,则二维累积和可能不会出现,可能需要进行一些其他计算。
  • @RobertDodier 这个问题源于一个涉及数组的所有平方子数组和的编码问题。我认为从左上角获取累积和有助于加快速度。

标签: python performance numpy probability cdf


【解决方案1】:

内核拆分方法可以在这里非常有效地解决这个问题,只需两个np.cumsum:一个垂直和一个水平(或其他方式,因为这是对称的)。

这是一个例子:

x = np.random.randint(0, 10, (4, 5))
print(x)
y = np.cumsum(np.cumsum(x, axis=0), axis=1)
print(y)

结果如下:

[[1 9 8 1 7]
 [0 6 8 2 3]
 [1 3 6 4 4]
 [0 8 1 2 9]]

[[ 1 10 18 19 26]
 [ 1 16 32 35 45]
 [ 2 20 42 49 63]
 [ 2 28 51 60 83]]

【讨论】: