【发布时间】:2012-05-23 13:04:54
【问题描述】:
我使用特里树实现了 Levenshtein 距离算法,如Steve Hanov 所述。 但是,我在处理特殊字符时遇到了困难。 例如,如果我计算 Großmann 和 Grossmann 之间的距离,我需要距离为零,因为应该认为 ß 和 ss 相等。
什么是支持这些特殊情况的最佳解决方案(如果有的话)。
我最初的想法是在计算距离之前对所有字符串进行标准化。 所以在 Großmann -> Grossman, österreich -> oesterreich, ... 但是,.NET 中似乎没有这样的功能?
【问题讨论】:
标签: .net unicode levenshtein-distance unicode-normalization ligature