【问题标题】：Speeding up calculation of beta Pert distribution in Python在 Python 中加速计算 beta Pert 分布
【发布时间】：2014-07-18 21:29:51
【问题描述】：

我正在为 for 循环的每次迭代计算 beta PERT 分布（除其他事项外，但分布的计算是最耗时的）。最初是在 R 中编写的，但这样做花费了太长时间，因此尝试使用更快的工具。

我的一些数据集可能非常大，例如我刚刚运行了一个包含 153413 个案例的案例，但在 Python 中仍然需要大约 8 小时（比 R 更好，但仍然有点长）。

我对 Python 还很陌生，想知道是否有任何方法可以加快这样的计算速度？

示例代码：

af = lambda pmu, pmin, pmode, pmax: (pmu-pmin)*(2*pmode-pmin-pmax)/((pmode-pmu)*(pmax-pmin))
bf = lambda pmu, pmin, pmode, pmax: (pmax-pmu)/(pmu-pmin)*((pmu-pmin)*(2*pmode-pmin-pmax)/((pmode-pmu)*(pmax-pmin)))

e=5.
shape=4.
max=10.
mu_d = np.arange(0, 10, 0.05)                
d = np.arange(0.025, 60.025, 0.05)
nlocs=153413  # number of rows in dataset


f0_dist = np.zeros(len(mu_d))
f1_dist = np.zeros(len(mu_d))
f2_dist = np.zeros(len(mu_d))

f0 = st.norm.cdf(d, 0.9/2., 0.9/6.)
f1 = st.uniform.cdf(d, 0.001, 0.9)

tic = time.clock()     
    for i in xrange(nlocs):
       for j in xrange(len(mu_d)): # mu_d has 121 values
            Rp_min = mu_d[j] - 1.96*e
            Rp_mode = mu_d[j] - 0.75*e
            Rp_max = max
            Rp_mu=(Rp_min+Rp_max+shape*Rp_mode)/(shape+2)
   dist = st.beta.cdf(d, a=af(Rp_mu, Rp_min, Rp_mode, Rp_max), b=bf(Rp_mu, Rp_min, Rp_mode, Rp_max), loc=Rp_min, scale=1-Rp_min)

    f0_dist[j] = 1 - np.sum(dist*f0*0.05)
    f1_dist[j] = 1- np.sum(dist*f1*0.05)
    f2_dist[j] = 1 - np.sum(dist*0.05)
    temp = 0.4*f0_dist + 0.5*f1_dist + 0.1*f1_dist
    aggr_dist = aggr_dist + temp

toc = time.clock() - tic
print '\nTime elapsed: %.3f seconds\n' % toc

【问题讨论】：

检查代码的缩进，现在有些代码在循环范围之外看得太远了，它们可能属于。
@JanVlcinsky 你能告诉我 st.beta 是从哪里来的吗？？
@CodeLover 没有想法。你得问问 Neodyme。由于它不是完全运行的代码，我只是评论了优化的一般概念。
@CodeLover 'import scipy.stats as st'
@Neodyme 测试版呢？？

标签： python distribution

【解决方案1】：

这里有一点修改的代码：

af = lambda pmu, pmin, pmode, pmax: (pmu-pmin)*(2*pmode-pmin-pmax)/((pmode-pmu)*(pmax-pmin))
bf = lambda pmu, pmin, pmode, pmax: (pmax-pmu)/(pmu-pmin)*((pmu-pmin)*(2*pmode-pmin-pmax)/((pmode-pmu)*(pmax-pmin)))

e=5.
shape=4.
max=10.
mu_d = np.arange(0, 10, 0.05)                
d = np.arange(0.025, 60.025, 0.05)

Rp_max = max
e1_96 = 1.96 * e
e0_75 = 0.75 * e
for i in xrange(nlocs): # e.g 153413
   for mu_d_j in mu_d: # mu_d has 121 values
        Rp_min = mu_d_j - e1_96
        Rp_mode = mu_d_j - e0_75
        Rp_mu=(Rp_min+Rp_max+shape*Rp_mode)/(shape+2)

   dist = st.beta.cdf(d, a=af(Rp_mu, Rp_min, Rp_mode, Rp_max), b=bf(Rp_mu, Rp_min, Rp_mode, Rp_max), loc=Rp_min, scale=1-Rp_min)

解释如下：

将每条指令保存在循环内

将Rp_max = max移出循环
在循环外预先计算常量（对于e1_96 和e0_75）

避免更深层次的引用

只做一次mu_d[j] 并为此使用局部变量，获取更深的值需要时间

使用`for` 循环获取值而不是`lst[i]`

以下：

for j in xrange(len(mu_d)): # mu_d has 121 values
    mu_d_j = mu_d[j]

应该变成更高效（和 Pythonic）：

for mu_d_j in mu_d: # mu_d has 121 values
    #now use mu_d_j

测量时间

这是基本规则，每次修改都要进行评估。如果你设置了你的期望速度（处理时间），你就有机会很快停止优化够了。

免责声明

由于我无法运行代码，我无法保证所有更改都是正确的。有即几行，我不确定他们应该做什么：

最后一行`dist =`

   dist = st.beta.cdf(d, a=af(Rp_mu, Rp_min, Rp_mode, Rp_max), b=bf(Rp_mu, Rp_min, Rp_mode, Rp_max), loc=Rp_min, scale=1-Rp_min)

它是否正确缩进？就像现在一样，它为每个nloc 循环执行一次。

生成的dist 值在哪里使用？

如果它是最深循环的一部分，则可以进行更多优化（使用更少的变量名称移动一些内联代码）。

【讨论】：

非常感谢您的回答。我想保持代码相对较短以便发布，但我知道缺少一些重要信息。我添加了一些额外的代码来显示主要是我正在使用 dist：我正在为 nlocs 中 i 的每次迭代计算它，但只想在最后存储通过循环计算的所有 dist 的总和。
nlocs 只是一个数字（我的数据的长度），我在这里重写代码时犯了一个错误，但在我的帖子中更正了它（就像我在 xrange(nlocs) 中一样）。
至于在 mu_d_j 中转换 mu_d[j]，这是一个好主意，但是正如您在我的编辑中看到的那样，我还使用了 3 个数组 f0_dist、f1_dist 和 f2_dist，它们也用 [j ]。我该如何解决？
@Neodyme 感谢您对nlocs 的澄清。我仍然想念您在代码中使用i 的地方。但对我来说，我没有问题，如何优化的方法已经显示，你应该能够应用它们。
顺便说一下，在我当前的实现中，nlocs=100 需要 37.332 秒。