【发布时间】:2012-06-27 13:43:58
【问题描述】:
我有一个大文件,每行一个单词。整个文件已排序,我现在需要压缩它。我可以简单地使用 GZIP,结果会非常好。但是,我想知道是否可以更好地知道我们正在处理已排序的单词列表。
这是我的排序单词列表的 sn-p:
[...]
ABAISSAT
ABAISSATES
ABAISSE
ABAISSEE
ABAISSEES
ABAISSEMENT
ABAISSEMENTS
ABAISSENT
ABAISSER
ABAISSERA
ABAISSERAI
ABAISSERAIENT
ABAISSERAIS
[...]
使用前缀压缩文件会比 GZIP 产生更好的结果吗?
[...]
ABAISS AT ATES E EE EES EMENT EMENTS ENT ER ERA ERAI ERAIENT ERAIS
[...]
什么算法可以让我使用我描述的压缩类型来压缩我的单词列表?还有其他想法如何压缩数据吗?
附:我虽然关于使用 Trie 并且我实现了它。 Trie 的最终大小是内存几乎与列表本身一样大,并且加载列表的时间非常长。由于这些原因,我决定不走那条路。
【问题讨论】:
-
您可以尝试,但通常不会比 GZIP 所能达到的效果更好,或者稍微好一点。
-
您希望压缩文件的目的是什么?您只是想节省磁盘空间吗?您是否希望以编程方式操作压缩结构?目标是什么?
-
Bzip 和 7zip 通常比 gzip 提供更好的压缩率。
-
目标是文件必须尽可能小,因为它最终会在移动设备上。
-
gzip/bzip 的结果是多少?这还不够小吗?如果不是,它需要小多少?另外,既然它是一个移动设备,那么运行时开销呢?我可以想象一个 稍大 的文件,它具有较少的运行时要求(或其他属性,如“单词可搜索性”)可能是有利的..这是一个基于数组的 trie(一个 not 需要完全加载)可能会“更好”,例如。
标签: algorithm compression