Levenshtein 距离的计算答案

【问题标题】：Calculation of Levenshtein distanceLevenshtein 距离的计算
【发布时间】：2014-04-20 15:43:06
【问题描述】：

我不确定这个问题是否重复。但是，我想了解更多关于 R 或 Java 或 Python 中优化的 Levenshtein 距离算法实现的信息。我有一个文本文件，其中逐行包含许多字符串（接近 2000 条记录，如下所示）按字母顺序排列，它们之间可能存在某种相似性。现在，我想比较文件中的所有字符串对并输出距离矩阵。另外，请告诉我如何使用此矩阵根据我的要求过滤设置字符串，例如 LD

如果问题不清楚并且您需要更多信息，请回复我。

Sample Text File
----------------
abc
abcd
abe
bac
bad
back
blade
cub
cube
cute
dump
duke

【问题讨论】：

您可以先查看?adist。 adist(c("abc", "abcd", "abe", "bac", "bad", "back", "blade", "cub", "cube", "cute", "dump", "duke")) 是你要找的吗？
markvanderloo.eu/yaRb/2013/02/26/the-stringdist-package
这有帮助吗？ [stackoverflow.com/questions/21511801/…

标签： java python r file levenshtein-distance

【解决方案1】：

所以这可以通过稍微颠倒的方式来完成。创建您的字典d = {word:[] for word in file}。现在：

for word in d:
    for neighbor in edit_distance_1(word):
        if neighbor in d:
            d[word].append(neighbor)

现在d 将是所有单词到其edit-distance-1 邻居的图表。您可以进一步追踪这些边缘以获得编辑距离 2 个单词（通过其他单词），我相信这就是您想要的。

【讨论】：