【发布时间】:2013-03-01 05:06:18
【问题描述】:
我需要删除包含许多段落的文本中的重复段落。
我使用 java.security.MessageDigest 类中的函数来计算每个段落的 MD5 哈希值,然后将这些哈希值添加到 Set 中。
如果add()'ed成功,则表示最新的段落是重复的。
这样有风险吗?
除了String.equals(),还有其他办法吗?
【问题讨论】:
-
我认为这是一种更好的方法,而不是进行字符串比较。
-
我同意拉文德拉的观点。 MD5 不会产生唯一的哈希值。
-
他们需要完全匹配还是忽略前导/尾随空格?
-
@SachinKainth md5 如何在相同的输入下产生不同的哈希值?
-
我想,这没问题。但是,由于标点符号和其他特殊字符,即使消息相同,哈希值也可能会有所不同。如果这是可以接受的;这个解决方案没问题。
标签: java string compare md5 paragraph