【发布时间】:2015-03-24 13:27:04
【问题描述】:
是否存在考虑替换距离的编辑距离,例如 Levenshtein?
例如,如果我们考虑单词是否相等,typo 和 tylo 非常接近(p 和 l 在键盘上物理上接近),而 typo 和 tyqo 是离的远。我想为更可能的错别字分配更小的距离。
必须有一个衡量这种混合性的指标吗?
【问题讨论】:
-
你的意思是Damerau-Levenshtein?
-
我看到了,但没有意识到“相邻字符的换位”实际上是我的意思。虽然我想我不仅在寻找相邻的字符,而且更多的是二次加权距离(不仅是相邻的)谢谢!
-
我认为该方案中的相邻是指转换单词中相邻的字符(例如,want vs wnat),而不是键盘上的相邻字符。
-
@JRichardSnape “情节扭曲”确实....
-
您是否尝试将 Damerau-Levenshtein(或替换,如果您真的只想考虑键盘“未命中”)与@marmeladze 答案中建议的某种欧几里得距离相结合?似乎是找我的方法,还是有更多需要考虑/对你不起作用?
标签: python levenshtein-distance