CPU (numpy) 和 GPU (gnumpy) 上的矩阵乘法给出不同的结果答案

【问题标题】：Matrix multiplication on CPU (numpy) and GPU (gnumpy) give different resultsCPU (numpy) 和 GPU (gnumpy) 上的矩阵乘法给出不同的结果
【发布时间】：2014-01-28 00:17:03
【问题描述】：

我正在使用gnumpy 通过在 GPU 上进行一些计算来加速训练神经网络的一些计算。我得到了预期的加速，但有点担心 numpy (cpu) 与 gnumpy (gpu) 的结果差异。

我有以下测试脚本来说明问题：

import gnumpy as gpu
import numpy as np

n = 400

a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print ga.as_numpy_array(dtype=np.float32) - a

提供输出：

[[  1.52587891e-05  -2.28881836e-05   2.28881836e-05 ...,  -1.52587891e-05
    3.81469727e-05   1.52587891e-05]
 [ -5.34057617e-05  -1.52587891e-05   0.00000000e+00 ...,   1.52587891e-05
    0.00000000e+00   1.52587891e-05]
 [ -1.52587891e-05  -2.28881836e-05   5.34057617e-05 ...,   2.28881836e-05
    0.00000000e+00  -7.62939453e-06]
 ..., 
 [  0.00000000e+00   1.52587891e-05   3.81469727e-05 ...,   3.05175781e-05
    0.00000000e+00  -2.28881836e-05]
 [  7.62939453e-06  -7.62939453e-06  -2.28881836e-05 ...,   1.52587891e-05
    7.62939453e-06   1.52587891e-05]
 [  1.52587891e-05   7.62939453e-06   2.28881836e-05 ...,  -1.52587891e-05
    7.62939453e-06   3.05175781e-05]]

如您所见，差异在 10^-5 左右。

所以问题是：我应该担心这些差异还是这是预期的行为？

附加信息：

GPU：GeForce GTX 770；
numpy 版本：1.6.1

当我使用梯度检查（使用有限差分近似）来验证我从 numpy 切换到 gnumpy 所做的小修改没有破坏任何东西时，我注意到了这个问题。正如人们所预料的那样，梯度检查不适用于 32 位精度（gnumpy 不支持 float64），但令我惊讶的是，使用相同精度时 CPU 和 GPU 之间的错误不同。

在一个小型测试神经网络上的 CPU 和 GPU 上的错误如下所示：

由于误差幅度相似，我猜这些差异是可以的？

在阅读了 BenC 在评论中引用的 article 之后，我很确定这些差异主要可以通过使用融合乘加 (FMA) 指令的设备之一来解释，而另一个则不能。

我实现了论文中的示例：

import gnumpy as gpu
import numpy as np

a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print "CPU", a
print "GPU", ga
print "DIFF", ga - a

>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08

...差异类似于 FMA 与串行算法（尽管由于某种原因，两个结果与实际结果的差异比论文中的要大）。

我使用的 GPU (GeForce GTX 770) 支持 FMA 指令，而 CPU 不支持（我有一个 Ivy Bridge Intel® Xeon(R) CPU E3-1225 V2，但英特尔在他们的产品中引入了 FMA3 指令哈斯韦尔）。

其他可能的解释包括后台使用的不同数学库或由 CPU 与 GPU 上不同级别的并行化导致的操作顺序的差异。

【问题讨论】：

这是一本适合您的读物：Precision & Performance: Floating Point and IEEE 754 Compliance for NVIDIA GPUs
根据您的输入数据，10^-5 的差异可以忽略不计或巨大。您的输入数据有什么数量级？
@HyperCube 差异取决于输入的大小。在测试脚本中，输入在区间 [0,1] 中；输出的幅度约为 10^2。

标签： python numpy cuda precision

【解决方案1】：

我建议使用np.allclose 来测试两个浮点数组是否几乎相等。

您只查看两个结果数组中的值之间的绝对差异，np.allclose 还考虑了它们的相对差异。例如，假设您的输入数组中的值大 1000 倍 - 那么两个结果之间的绝对差异也将大 1000 倍，但这并不意味着两个点积的精确度有所降低。

np.allclose 将返回 True 仅当您的两个测试数组中的每个对应元素对都满足以下条件时，a 和 b：

abs(a - b) <= (atol + rtol * abs(b))

默认情况下，rtol=1e-5 和 atol=1e-8。这些公差是一个很好的“经验法则”，但在您的情况下它们是否足够小将取决于您的特定应用。例如，如果您正在处理

如果您尝试使用默认容差对两个结果调用np.allclose，您会发现np.allclose 返回True。那么，我的猜测是，这些差异可能足够小，不值得担心。这实际上取决于您对结果的处理方式。

【讨论】：

【解决方案2】：

RTX 卡以半精度进行浮点运算，因为它的图像渲染速度更快。在为 AI 乘以浮点数时，您必须告诉 GPU 使用全精度。在做 AI 时，精度非常重要。

在尝试将 Cuda 与 RTX 2080 Ti 结合使用时，我遇到了同样的浮点差异。

【讨论】：