【发布时间】:2012-03-29 03:19:15
【问题描述】:
我有两个电子表格,每个电子表格都提供有关在我的工作网络上运行的一堆应用程序的信息。它们是由两个不同的人创建的,他们似乎从来没有对应过。
因此,他们为应用程序指定的名称在工作表之间不是固定的。然而,它们是相似的。例如,可以将一个应用程序称为“Office 2010”,另一个称为“MS Office 10”之类的。
我查看了 Levenshtein 算法,但这似乎只适用于单词顺序不变且只有拼写不同的单个单词或短语。 (我不是计算机科学家;请随时纠正我)。
因此,我正在寻找一种算法,对于一张表中的每个名称,可以循环遍历另一张表中的每个名称并找到最接近的匹配项。不一定要完美,任何事情都会有所帮助。
有什么想法吗?感谢所有可以提供帮助的人。
【问题讨论】:
标签: excel spreadsheet levenshtein-distance