【发布时间】:2014-01-28 00:17:03
【问题描述】:
我正在使用gnumpy 通过在 GPU 上进行一些计算来加速训练神经网络的一些计算。 我得到了预期的加速,但有点担心 numpy (cpu) 与 gnumpy (gpu) 的结果差异。
我有以下测试脚本来说明问题:
import gnumpy as gpu
import numpy as np
n = 400
a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print ga.as_numpy_array(dtype=np.float32) - a
提供输出:
[[ 1.52587891e-05 -2.28881836e-05 2.28881836e-05 ..., -1.52587891e-05
3.81469727e-05 1.52587891e-05]
[ -5.34057617e-05 -1.52587891e-05 0.00000000e+00 ..., 1.52587891e-05
0.00000000e+00 1.52587891e-05]
[ -1.52587891e-05 -2.28881836e-05 5.34057617e-05 ..., 2.28881836e-05
0.00000000e+00 -7.62939453e-06]
...,
[ 0.00000000e+00 1.52587891e-05 3.81469727e-05 ..., 3.05175781e-05
0.00000000e+00 -2.28881836e-05]
[ 7.62939453e-06 -7.62939453e-06 -2.28881836e-05 ..., 1.52587891e-05
7.62939453e-06 1.52587891e-05]
[ 1.52587891e-05 7.62939453e-06 2.28881836e-05 ..., -1.52587891e-05
7.62939453e-06 3.05175781e-05]]
如您所见,差异在 10^-5 左右。
所以问题是:我应该担心这些差异还是这是预期的行为?
附加信息:
- GPU:GeForce GTX 770;
- numpy 版本:1.6.1
当我使用梯度检查(使用有限差分近似)来验证我从 numpy 切换到 gnumpy 所做的小修改没有破坏任何东西时,我注意到了这个问题。正如人们所预料的那样,梯度检查不适用于 32 位精度(gnumpy 不支持 float64),但令我惊讶的是,使用相同精度时 CPU 和 GPU 之间的错误不同。
在一个小型测试神经网络上的 CPU 和 GPU 上的错误如下所示:
由于误差幅度相似,我猜这些差异是可以的?
在阅读了 BenC 在评论中引用的 article 之后,我很确定这些差异主要可以通过使用融合乘加 (FMA) 指令的设备之一来解释,而另一个则不能。
我实现了论文中的示例:
import gnumpy as gpu
import numpy as np
a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print "CPU", a
print "GPU", ga
print "DIFF", ga - a
>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08
...差异类似于 FMA 与串行算法(尽管由于某种原因,两个结果与实际结果的差异比论文中的要大)。
我使用的 GPU (GeForce GTX 770) 支持 FMA 指令,而 CPU 不支持(我有一个 Ivy Bridge Intel® Xeon(R) CPU E3-1225 V2,但英特尔在他们的产品中引入了 FMA3 指令哈斯韦尔)。
其他可能的解释包括后台使用的不同数学库或由 CPU 与 GPU 上不同级别的并行化导致的操作顺序的差异。
【问题讨论】:
-
根据您的输入数据,10^-5 的差异可以忽略不计或巨大。您的输入数据有什么数量级?
-
@HyperCube 差异取决于输入的大小。在测试脚本中,输入在区间 [0,1] 中;输出的幅度约为 10^2。
标签: python numpy cuda precision