双精度和全精度浮点的区别答案

【问题标题】：Difference between double precision and full precision floating双精度和全精度浮点的区别
【发布时间】：2023-03-18 18:10:01
【问题描述】：

我正在研究一种可能的基于 gpu 的 teraflop 计算机... 要使用的基准将是 LINPACK 现在问题来了；通过 linpack 文档，它说它以全精度而不是双精度计算，对于某些机器，全精度可以是单精度。有人可以说明一下差异，因为这将决定我应该选择 GTX 590s 还是 Tesla 2070s。

【问题讨论】：

你问的是32位和64位浮点类型的区别吗？
好吧，我并不完全想知道什么是全精度，以及它与双精度有何不同。 nnjuffa 和 alanda 的帖子达到了最佳状态，谢谢

标签： cuda double precision

【解决方案1】：

我认为选择“全精度”一词是为了涵盖 IEEE-754 双精度（这是在提到的 GPU 上使用的）和旧 Cray 矢量计算机的“单精度”格式，它具有 1 个符号位、15 个指数位和 48 个尾数位，提供了更大的范围，但精度略低于 IEEE-754 双精度。以下是 Cray-1 上使用的浮点格式的文档：

http://ed-thelen.org/comp-hist/CRAY-1-HardRefMan/CRAY-1-HRM.html#p3-20

【讨论】：

【解决方案2】：

关于 nVidia 的官方 HPL 0.8 版（这是我们用来对混合机器进行基准测试的版本）：

它将仅在 Teslas 上运行（仅当您的 GPU 具有超过 2 GiB 的内存时才有效，据我所知，这仅适用于 Tesla）

它使用双精度，所以使用 Teslas 的另一点，因为双算术性能在主流 GPU 上是有限的。

顺便说一句：在 6 节点机器（每个节点 2 个 GPU）上实现至少 50% 的效率几乎是不可能的。

【讨论】：

顺便说一句：在 6 节点机器（每个节点 2 个 GPU）上实现至少 50% 的效率被认为几乎是不可能的。”在那里迷路了，你能澄清一下
根据我的经验（和 nVidia 员工的谈话），几乎不可能在 CUDA-LINPACK 上实现超过 50% 的峰值效率（即 500Gflops/GPU 的 50%）