IEEE浮点实现，近似值的精度和累积[关闭]答案

【问题标题】：IEEE floating points implementation, precision and accumulation of approximations [closed]IEEE浮点实现，近似值的精度和累积[关闭]
【发布时间】：2013-09-10 14:03:40
【问题描述】：

如果我正确理解 IEEE 浮点数，它们将无法准确表示某些值。它们在非常有限的情况下是准确的，并且几乎每个浮点运算都会增加累积的近似值。此外，另一个缺点 - “最小步长”随指数增长。

提供一些更具体的表示不是更好吗？

例如，“小数”部分使用 20 位，但不是所有 2^20 值，而是仅 1000000，给出完整的百万分之一最小可能表示/分辨率，并将其他 44 位用于整数部分，给出了相当的范围。通过这种方式，可以使用整数算术计算“浮点”数，甚至可以更快地结束。而且在乘法、加法和减法的情况下，没有近似值的累积，唯一可能的损失是在除法期间。

这个概念基于这样一个事实，即 2^n 值不是表示十进制数的最佳值，例如1 不能很好地划分为 1024 个部分，但它可以很好地划分为 1000 个部分。从技术上讲，这忽略了利用完整的精度，但我可以想到很多 LESS 可以是 MORE 的情况。

当然，这种方法会在某种程度上失去范围和精度，但在所有不需要末端的情况下，这样的表示听起来是个好主意。

【问题讨论】：

所以不是问这个问题的地方！
您的系统无法准确表示某些值，并且在非常有限的情况下是准确的。此外，乘法也会降低准确性。
IEEE 是一个标准化机构，你的意思是 IEEE 754 标准。并且已经有一个十进制浮点标准：en.wikipedia.org/wiki/Decimal_floating_point
integers or floating point in situations when either would do?的可能重复
这个问题表示定点乘法没有错误。这是不正确的。分辨率为 1/106 的数字相乘会产生分辨率为 1/1012 的结果。结果必须四舍五入以适应固定的 1/10**6 格式。

标签： c++ floating-point implementation floating-accuracy approximation

【解决方案1】：

你所描述的命题是一个不动点算术。现在，这不一定是更好或更坏；每种表示形式都有优点和缺点，通常使一种表示比另一种更适合某些特定目的。例如：

定点算术不会为加法和减法等运算引入路由误差，这使其适用于金融计算。您当然不想将钱存储为浮点值。
推测：可以说，定点算法在实现方面更简单，这可能会导致电路更小、更高效。
浮点表示覆盖范围非常大：它可用于存储非常大的数字（~10⁴⁰ 用于 32 位浮点，10³⁰⁸对于 64 位）和非常小的正数（~10^-320）以牺牲精度为代价，而定点表示受到其大小的线性限制。
浮点精度未在可表示范围内均匀分布。相反，大多数值（就可表示数字的数量而言）位于 0 附近的单位球中。这使得它在我们最常操作的范围内非常准确。

你自己说的：

从技术上讲，这忽略了充分利用精度，但我可以想到很多 LESS 可以是 MORE 的情况

没错，这就是重点。现在，根据手头的问题，必须做出选择。没有万能的表示，它始终是一种权衡。

【讨论】：

考虑到我见过的每种编程语言都只提供 IEEE 实数，我的印象是 IEEE 浮点表示应该是“一刀切”。当然，我描述的场景很容易实现，但仍然......
随着定点系统的发展，OP 是非常规且浪费的。用 64 位整数表示百万分之一比将 64 位拆分为 20 和 44 并浪费一些可以用 20 位表示的值更有效，更不用说该系统中任何操作的复杂性了。
@PascalCuoq - 这只是一个示例，显然，您可以根据范围和精度要求创建自己的实现。但是，您仍然必须将其保持为 8、16、32 或 64 位，否则如果使用任意位宽类型，硬件上的开销将会很大。
@Pascal Couq 是的，当然，我指的是一般概念而不是具体实现。
@user2341104 IEEE 754 二进制浮点不是，也从来不是“一刀切”。相反，它只是适合许多（但不是全部）情况的几种尺寸。在某些情况下，定点或小数浮点更好。