【问题标题】:IEEE floating points implementation, precision and accumulation of approximations [closed]IEEE浮点实现,近似值的精度和累积[关闭]
【发布时间】:2013-09-10 14:03:40
【问题描述】:

如果我正确理解 IEEE 浮点数,它们将无法准确表示某些值。它们在非常有限的情况下是准确的,并且几乎每个浮点运算都会增加累积的近似值。此外,另一个缺点 - “最小步长”随指数增长。

提供一些更具体的表示不是更好吗?

例如,“小数”部分使用 20 位,但不是所有 2^20 值,而是仅 1000000,给出完整的百万分之一最小可能表示/分辨率,并将其他 44 位用于整数部分,给出了相当的范围。通过这种方式,可以使用整数算术计算“浮点”数,甚至可以更快地结束。而且在乘法、加法和减法的情况下,没有近似值的累积,唯一可能的损失是在除法期间。

这个概念基于这样一个事实,即 2^n 值不是表示十进制数的最佳值,例如1 不能很好地划分为 1024 个部分,但它可以很好地划分为 1000 个部分。从技术上讲,这忽略了利用完整的精度,但我可以想到很多 LESS 可以是 MORE 的情况。

当然,这种方法会在某种程度上失去范围和精度,但在所有不需要末端的情况下,这样的表示听起来是个好主意。

【问题讨论】:

  • 所以不是问这个问题的地方!
  • 您的系统无法准确表示某些值,并且在非常有限的情况下是准确的。此外,乘法也会降低准确性。
  • IEEE 是一个标准化机构,你的意思是 IEEE 754 标准。并且已经有一个十进制浮点标准:en.wikipedia.org/wiki/Decimal_floating_point
  • 这个问题表示定点乘法没有错误。这是不正确的。分辨率为 1/106 的数字相乘会产生分辨率为 1/1012 的结果。结果必须四舍五入以适应固定的 1/10**6 格式。

标签: c++ floating-point implementation floating-accuracy approximation


【解决方案1】:

你所描述的命题是一个不动点算术。现在,这不一定是更好更坏;每种表示形式都有优点和缺点,通常使一种表示比另一种更适合某些特定目的。例如:

  • 定点算术不会为加法和减法等运算引入路由误差,这使其适用于金融计算。您当然不想将钱存储为浮点值。

  • 推测:可以说,定点算法在实现方面更简单,这可能会导致电路更小、更高效。

  • 浮点表示覆盖范围非常大:它可用于存储非常大的数字(~1040 用于 32 位浮点,10308对于 64 位)和非常小的正数(~10-320)以牺牲精度为代价,而定点表示受到其大小的线性限制。

  • 浮点精度未在可表示范围内均匀分布。相反,大多数值(就可表示数字的数量而言)位于 0 附近的单位球中。这使得它在我们最常操作的范围内非常准确。

你自己说的:

从技术上讲,这忽略了充分利用精度,但我 可以想到很多 LESS 可以是 MORE 的情况

没错,这就是重点。现在,根据手头的问题,必须做出选择。没有万能的表示,它始终是一种权衡。

【讨论】:

  • 考虑到我见过的每种编程语言都只提供 IEEE 实数,我的印象是 IEEE 浮点表示应该是“一刀切”。当然,我描述的场景很容易实现,但仍然......
  • 随着定点系统的发展,OP 是非常规且浪费的。用 64 位整数表示百万分之一比将 64 位拆分为 20 和 44 并浪费一些可以用 20 位表示的值更有效,更不用说该系统中任何操作的复杂性了。
  • @PascalCuoq - 这只是一个示例,显然,您可以根据范围和精度要求创建自己的实现。但是,您仍然必须将其保持为 8、16、32 或 64 位,否则如果使用任意位宽类型,硬件上的开销将会很大。
  • @Pascal Couq 是的,当然,我指的是一般概念而不是具体实现。
  • @user2341104 IEEE 754 二进制浮点不是,也从来不是“一刀切”。相反,它只是适合许多(但不是全部)情况的几种尺寸。在某些情况下,定点或小数浮点更好。
猜你喜欢
  • 1970-01-01
  • 2013-07-24
  • 2021-10-06
  • 1970-01-01
  • 2013-12-16
  • 1970-01-01
  • 2022-07-08
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多