【发布时间】:2014-08-28 04:10:26
【问题描述】:
我想对来自多个文件的数百万条记录进行模糊匹配。我为此确定了两种算法:Jaro-Winkler 和 Levenshtein 编辑距离。
我无法理解两者之间的区别。似乎 Levenshtein 给出了两个字符串之间的编辑次数,而 Jaro-Winkler 提供了 0.0 到 1.0 之间的标准化分数。
我的问题:
-
这两种算法的根本区别是什么?
-
这两种算法的性能有何不同?
【问题讨论】:
标签: performance algorithm levenshtein-distance jaro-winkler