【发布时间】:2013-04-24 20:23:06
【问题描述】:
我正在解码一个由霍夫曼编码生成的字节文件,我将字节转换为字符串,然后搜索霍夫曼树给出的值。我有一个哈希表,其中包含原始文件的编码值和字节值。这是我的代码。
for(int i = 0, j = 1; j <= encodedString.length(); j++){
if(huffEncodeTable.get( encodedString.substring(i, j)) != null){
decodedString.append(huffEncodeTable.get( encodedString.substring(i, j)));
i = j;
}
它非常简单,它是一个遍历所有字符串的循环,当字符串太大时问题就来了 - 压缩文件的大小大于 100KB - 处理它们需要很长时间,所以我想要知道它是否是一种以更快的方式进行此过程的方法,或者是否更好地将我的编码值存储在另一个结构中而不是 hastable 中。
huffEncodeTable -> 哈希表
encodedString -> 带有霍夫曼值的字符串
decodedString -> 表示原始文件的原始字节的字符串
【问题讨论】:
-
我会将您的结果与内置的霍夫曼编码进行比较(尽管大部分代码是使用本机代码实现的)内置压缩还使用算术编码,这可以使数据再次变小。标准压缩对搜索的回溯有限制,例如4 KB。这也使编码回看更容易。
-
我只用过霍夫曼,它确实可以很好地压缩某些类型的文件,但我没有看到这个循环需要很长时间的地方,所以我问我应该在这里改变什么。
-
内置的霍夫曼编码可以支持多 GB 文件而不会花费越来越长的时间,所以如果这样做我怀疑你有一个错误(如果只是一个性能错误)额外的算术压缩可以使它 2再次缩小 10 倍。
-
是的,我知道我做错了什么,问题出在我在这里分享的方法上,所以我不知道是否有人能告诉我在这个说明中花费了这么多时间跨度>
标签: java string complexity-theory huffman-code