【发布时间】:2014-04-20 15:43:06
【问题描述】:
我不确定这个问题是否重复。但是,我想了解更多关于 R 或 Java 或 Python 中优化的 Levenshtein 距离算法实现的信息。我有一个文本文件,其中逐行包含许多字符串(接近 2000 条记录,如下所示)按字母顺序排列,它们之间可能存在某种相似性。现在,我想比较文件中的所有字符串对并输出距离矩阵。另外,请告诉我如何使用此矩阵根据我的要求过滤设置字符串,例如 LD
如果问题不清楚并且您需要更多信息,请回复我。
Sample Text File
----------------
abc
abcd
abe
bac
bad
back
blade
cub
cube
cute
dump
duke
【问题讨论】:
-
您可以先查看
?adist。adist(c("abc", "abcd", "abe", "bac", "bad", "back", "blade", "cub", "cube", "cute", "dump", "duke"))是你要找的吗?
标签: java python r file levenshtein-distance