【发布时间】:2023-03-25 20:48:02
【问题描述】:
对于说荷兰语的人来说,“ij”这两个字符被认为是一个很容易与“y”交换的字母。
对于我正在处理的项目,我希望有一个 Damerau–Levenshtein distance 的变体,它将“ij”和“y”之间的距离计算为 1,而不是当前值 2。
我自己一直在尝试,但失败了。我的问题是我不知道如何处理两个文本长度不同的事实。 有没有人有关于如何解决这个问题的建议/代码片段?
谢谢。
【问题讨论】:
-
如果你把荷兰语转录成音素然后走距离呢?
-
AFAIK 那么与“原始”两个文本相比,距离可能会发生变化。
标签: compare fuzzy linguistics levenshtein-distance fuzzy-comparison