【发布时间】:2009-05-18 14:44:34
【问题描述】:
我将“块转置”放在引号中,因为我不知道技术术语是否或应该是什么。只知道该过程是否有技术术语会非常有帮助。
Wikipedia article on edit distance 提供了一些关于这个概念的良好背景。
考虑到“块转置”,我的意思是
Turing, Alan.
应该匹配
Alan Turing
比匹配更接近
Turing Machine
即距离计算应该检测文本的子字符串何时在文本中简单地移动。常见的 Levenshtein 距离公式并非如此。
字符串最多只有几百个字符——它们是作者姓名或作者姓名列表,可以采用多种格式。我不做 DNA 测序(尽管我怀疑做过的人会对这个主题有所了解)。
【问题讨论】:
-
您要比较哪种长度的字符串?我怀疑针对长文本的准确算法是不可行的。
-
另外,这些“块”总是单词吗?
-
如果“单词”是指“空格/标点分隔”,可能——但我想我不想依赖它。例如,我仍然希望 DiFranco 和 Di Franco 接近匹配,因为它们在编辑距离算法中。
标签: algorithm language-agnostic levenshtein-distance edit-distance