【问题标题】:Problems in implementing Horner's method in Python在 Python 中实现霍纳方法的问题
【发布时间】:2015-03-30 18:50:53
【问题描述】:

所以我写下了使用三种不同方法评估多项式的​​代码。霍纳的方法应该是最快的,而天真的方法应该是最慢的,对吧?但是为什么计算它的时间不是我所期望的呢?对于迭代和朴素方法,计算时间有时会完全相同。它有什么问题?

import numpy.random as npr
import time

def Horner(c,x):
    p=0
    for i in c[-1::-1]:
        p = p*x+i
    return p

def naive(c,x):
    n = len(c)
    p = 0
    for i in range(len(c)):
        p += c[i]*x**i 
    return p

def itera(c,x):
    p = 0
    xi = 1
    for i in range(len(c)):
        p += c[i]*xi
        xi *= x 
    return p

c=npr.uniform(size=(500,1))
x=-1.34

start_time=time.time()
print Horner(c,x)
print time.time()-start_time

start_time=time.time()
print itera(c,x)
print time.time()-start_time

start_time=time.time()
print naive(c,x)
print time.time()-start_time

以下是一些结果:

[  2.58646959e+69]
0.00699996948242
[  2.58646959e+69]
0.00600004196167
[  2.58646959e+69]
0.00600004196167

[ -3.30717922e+69]
0.00899982452393
[ -3.30717922e+69]
0.00600004196167
[ -3.30717922e+69]
0.00600004196167

[ -2.83469309e+69]
0.00999999046326
[ -2.83469309e+69]
0.00999999046326
[ -2.83469309e+69]
0.0120000839233

【问题讨论】:

  • 感谢您的所有回答。除了 timeit 函数的实现,我想知道我可以做些什么来改进这三种算法中的每一种,以使它们更高效/更快?
  • 是的,有 :) 为了更清楚地说明这一点,您还可以编辑原始问题。

标签: python function loops iteration polynomial-math


【解决方案1】:

您的分析可以大大改善。此外,我们可以让您的代码运行速度提高 200-500 倍。


(1) 冲洗并重复

您不能只运行一次性能测试迭代,原因有二。

  1. 您的时间分辨率可能不够好。这就是为什么您有时会在两种实现中获得相同的时间:一次运行的时间接近您的计时机制的分辨率,因此您只记录了一个“滴答声”。
  2. 各种因素都会影响性能。进行有意义的比较的最佳选择是多次迭代。

您不需要无数次的运行(当然,这并没有什么坏处),但是您可以估计并调整迭代次数,直到方差在您的目的可接受的范围内。

timeit 是一个不错的小模块,用于分析 Python 代码。

我将此添加到您的脚本底部。

import timeit

n = 1000

print 'Horner', timeit.timeit(
    number = n,
    setup='from __main__ import Horner, c, x',
    stmt='Horner(c,x)'
)
print 'naive', timeit.timeit(
    number = n,
    setup='from __main__ import naive, c, x',
    stmt='naive(c,x)', 
)
print 'itera', timeit.timeit(
    number = n,
    setup='from __main__ import itera, c, x',
    stmt='itera(c,x)', 
)

哪个产生

Horner 1.8656351566314697
naive 2.2408010959625244
itera 1.9751169681549072

Horner 是最快的,但它并没有完全击败其他两个。


(2) 看看发生了什么……非常仔细

Python 有运算符重载,所以很容易错过。

npr.uniform(size=(500,1)) 为您提供 500 x 1 的随机数结构。

那又怎样?

嗯,c[i] 不是数字。 这是一个包含一个元素的 numpy 数组。 Numpy 重载了运算符,因此您可以执行诸如将数组乘以标量之类的操作。

这很好,但是为每个元素使用一个数组很多开销,因此很难看出算法之间的差异。

相反,让我们尝试一个简单的 Python 列表:

import random
c = [random.random() for _ in range(500)]

现在,

Horner 0.034661054611206055
naive 0.12771987915039062
itera 0.07331395149230957

哇! 所有时间都变快了(快了 10-60 倍)。按比例,Horner 实现比其他两个更快。我们移除了所有三个的开销,现在可以看到“基本”的差异。

Horner 比 naive 快 4 倍,比 itera 快 2 倍。


(3) 备用运行时

您使用的是 Python 2。我假设是 2.7。

让我们看看 Python 3.4 的表现如何。 (语法调整:您需要在参数列表周围加上括号print。)

Horner 0.03298933599944576
naive 0.13706714100044337
itera 0.06771054599812487

差不多。

让我们试试PyPy,它是 Python 的 JIT 实现。 (“正常”的 Python 实现称为 CPython。)

Horner 0.006507158279418945
naive 0.07541298866271973
itera 0.005059003829956055

不错!现在,每个实施的运行速度都快了 2-5 倍。 Horner 现在的速度是 naive 的 10 倍,但比 itera 稍慢。

JIT 运行时比解释器更难分析。让我们将迭代次数增加到 50000 次,并尝试一下以确保。

Horner 0.12749004364013672
naive 3.2823100090026855
itera 0.06546688079833984

(请注意,我们有 50 倍的迭代,但只有 20 倍的时间……在前 1000 次运行中,JIT 并没有完全发挥作用。)同样的结论,但差异更加明显。

诚然,JIT 的想法是在运行时对程序进行剖析、分析和重写,因此如果您的目标是比较算法,这将添加很多不明显的实现细节。

不过,比较运行时有助于提供更广阔的视野。


还有一些事情。例如,您的幼稚实现会计算一个它从不使用的变量。您使用range 而不是xrange。您可以尝试使用索引而不是反向切片向后迭代。等等。

这些对我来说都没有太大的改变,但它们值得考虑。

【讨论】:

  • “让我们试试 PyPy,它是 Python 2 的 JIT 实现。” → 和 Python 3 有一段时间了。
  • @Veedrac,太棒了!我最后一次听到的是pypy.org/py3donate.html,但那是一年前的事了。
【解决方案2】:

你无法通过这样的测量获得准确的结果:

start_time=time.time()
print Horner(c,x)
print time.time()-start_time

想必大部分时间都花在了print函数所涉及的IO函数上。此外,要获得有意义的结果,您应该对大量迭代执行测量以平滑错误。在一般情况下,您可能还想对各种输入数据执行测试 - 根据您的算法,某些情况可能巧合地比其他情况更有效地解决。

您应该明确地查看timeit 模块。可能是这样的:

import timeit
print 'Horner',timeit.timeit(stmt='Horner(c,x)', 
                  setup='from __main__ import Horner, c, x',
                  number = 10000)
#                          ^^^^^
#                probably not enough. Increase that once you will
#                be confident

print 'naive',timeit.timeit(stmt='naive(c,x)', 
                  setup='from __main__ import naive, c, x',
                  number = 10000)
print 'itera',timeit.timeit(stmt='itera(c,x)', 
                  setup='from __main__ import itera, c, x',
                  number = 10000)

在我的系统上生成:

Horner 23.3317809105
naive 28.305519104
itera 24.385917902

但是从运行到另一个的结果仍然是可变的:

Horner 21.1151690483
naive 23.4374330044
itera 21.305426836

正如我之前所说,要获得更有意义的结果,您应该明确增加测试的数量,并在多个测试用例上运行以使结果平滑。

【讨论】:

  • 这是一个很好的答案。我喜欢这个问题是因为我想探讨它提出的正确基准测试问题。 wiki 是否应该包含有关良好基准测试的信息,或者是否有关于此主题的主帖子?
  • 结果的绝对值可能是可变的,但两次运行之间的相对结果相当一致。
  • 正确的@Paul,天真的算法一直是最差的。在 Horner 和迭代之间,事情不太明显(至少在少数运行中——使用 OP 原始实现)——在第一次运行中,Horner 比迭代好 5%。但在第二轮中,只有 1% 的差异——鉴于这两次轮次之间的差异,我认为如果不进行进一步调查,就很难得出明确的意见。
【解决方案3】:

如果您正在做大量的基准测试、科学计算、numpy 相关的工作以及更多的事情,使用ipython 将是一个非常有用的工具。

要进行基准测试,您可以使用 ipython magic 使用 timeit 对代码进行计时,每次运行都会获得更一致的结果,只需使用 timeit 然后使用函数或代码来计时:

In [28]: timeit Horner(c,x)
1000 loops, best of 3: 670 µs per loop

In [29]: timeit naive(c,x)
1000 loops, best of 3: 983 µs per loop

In [30]: timeit itera(c,x)
1000 loops, best of 3: 804 µs per loop

要跨越多行的时间码,您只需使用%%timeit

In [35]: %%timeit
   ....: for i in range(100):
   ....:     i ** i
   ....: 
10000 loops, best of 3: 110 µs per loop

ipython 可以compile cython codef2py 编码并使用不同的插件和 ipython 魔术命令执行许多其他非常有用的任务。

builtin magic commands

使用 cython 和一些非常基本的改进,我们可以将 Horner 的效率提高约 25%:

In [166]: %%cython
import numpy as np
cimport numpy as np
cimport cython
ctypedef np.float_t DTYPE_t
def C_Horner(c, DTYPE_t x):
    cdef DTYPE_t p
    for i in reversed(c):
        p = p * x + i
    return p   

In [28]: c=npr.uniform(size=(2000,1))

In [29]: timeit Horner(c,-1.34)
100 loops, best of 3: 3.93 ms per loop
In [30]: timeit C_Horner(c,-1.34)
100 loops, best of 3: 2.21 ms per loop

In [31]: timeit itera(c,x)
100 loops, best of 3: 4.10 ms per loop
In [32]: timeit naive(c,x)
100 loops, best of 3: 4.95 ms per loop

使用@Paul drapers 中的列表回答我们的 cythonised 版本的运行速度是原始函数的两倍,并且比 ietra 和 naive 快得多:

In [214]: import random

In [215]: c = [random.random() for _ in range(500)]

In [44]: timeit C_Horner(c, -1.34)
10000 loops, best of 3: 18.9 µs per loop    
In [45]: timeit Horner(c, -1.34)
10000 loops, best of 3: 44.6 µs per loop
In [46]: timeit naive(c, -1.34)
10000 loops, best of 3: 167 µs per loop
In [47]: timeit itera(c,-1.34)
10000 loops, best of 3: 75.8 µs per loop

【讨论】:

    猜你喜欢
    • 2022-01-23
    • 1970-01-01
    • 1970-01-01
    • 2014-09-25
    • 2011-06-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多