小差异的排序数据的压缩答案

【问题标题】：Compression of sorted data with small difference小差异的排序数据的压缩
【发布时间】：2013-02-15 01:45:20
【问题描述】：

我已经对整数数据序列进行了排序。 2 个数字之间的最大差值为 3。因此数据看起来像这样：

Data: 1 2 3 5 7 8 9 10 13 14
Differences: (start 1) 1 1 2 2 1 1 1 3 1

有没有比保存差值更好的方法来存储（压缩）这种类型的序列？因为如果我使用基于字典的方法，由于数字 1,2 和 3 的随机性，它无法压缩。如果我使用“PAQ”样式压缩，结果会更好，但仍然不太令人满意。霍夫曼和算术编码器比基于字典的方法差。

有什么方法可以预测吗？

例如对原始数据使用回归而不是存储差异（可能更小或更一致）

或者使用某种基于差异直方图的预测？

或者完全不同的东西......或者根本不可能（在我看来，这是真正的答案:)）

【问题讨论】：

您可以将每个数字存储为与前一个数字 (1-3) 的距离，但将其存储为 2 位数字。然后，您可以将 4 个数字打包到每个字节中。这样做的缺点是，要确定序列中的任何给定数字，您必须从头开始。你把所有的距离加起来。
是的.. 我已经将 4 个数字打包成 1 个字节。我想知道，这个“问题”是否有更好的解决方案
您也许可以找出未使用的一半并获得更多空间。但是，如果数字序列真的是随机的，那么您不太可能从压缩算法中获得太多价值，因为它们通常基于某种重复序列的想法，而随机数据通常缺乏这一点。
我想真正的问题是，您的数据真的是随机的吗？也许是某种自然现象？还是可能在其中找到一些深层模式？如果找不到模式，就没有可压缩性。
它们几乎是随机的......但最常见的值是 1（大约超过 80% 的数据），而不是 2 和 3。没有“可见”模式。这就是为什么我想使用例如神经网络来查找任何内容。或者如果绘制原始数据，它们非常接近线性函数（在excel中进行线性回归后，Reliability = 0.9998）

标签： compression sorted

【解决方案1】：

由于您在 cmets 中说您已经在每个字节存储了四个差异，因此您可能不会做得更好。如果差异 0、1、2、3 是随机且均匀分布的，那么就没有办法做得更好了。

如果它们不是均匀分布的，那么使用 Huffman 或算术代码可能会做得更好。例如。如果 1 比 0 更常见，而 0 比 2 和 3 更常见，那么您可以将 1 存储为 0，将 0 存储为 10，将 2 存储为 110，将 3 存储为 111。或者如果 0 从未发生，则将 1 存储为 0、2 和3 为 10 和 11。对于您引用的 1 出现 80% 的时间的情况，您可以使用算术代码做得更好。或者一个穷人的算术代码，通过编码符号对。例如：

将是 1 80%、2 10%、3 10% 的好代码。（这并不能完全处理奇数差异的情况，但是您可以在开始时只用一点表示偶数或奇数，如果是奇数，则在末尾再增加几位。）

可能有比之前的值更好的预测器。这将是 n 个先前值的函数，而不仅仅是一个先前值。然而，这将高度依赖数据。例如，您可以假设当前值可能落在前两个值所形成的线上。或者它落在前面三个值所形成的抛物线上。或其他一些功能，例如如果数据如此有偏差，则为具有一定频率的正弦曲线。

【讨论】：