【发布时间】:2010-11-09 14:42:39
【问题描述】:
所以我在一个表中有一个列,其中包含一个字符串值(从第 3 方工具填充的关键字)。我正在开发一种自动化工具来识别可能被标准化为单个值的相似值的集群。例如,“Firemen”/“Fireman”、“Isotope”/“Asotope”或“Canine”/“Canines”。
计算 levenshtein 距离的方法似乎是理想的,但它涉及太多的字符串操作/比较,并且可能无法充分利用 SQL 索引。
我考虑过按列的 Left(X) 字符进行增量分组,这是最大化索引使用的一种不错的方法,但这种方法实际上只在查找最后有差异的单词时才有效这个词的。
谁有一些好的想法可以在 SQL 中有效地解决这个问题?
注意:我意识到这个问题与 (Finding how similar two strings are) 非常相似,但这里的区别是需要在 SQL 中高效地执行此操作。
【问题讨论】:
标签: sql pattern-matching