优化 Levenshtein 距离算法答案

【问题标题】：Optimizing Levenshtein distance algorithm优化 Levenshtein 距离算法
【发布时间】：2010-05-27 05:54:19
【问题描述】：

我有一个存储过程，它使用 Levenshtein 距离来确定最接近用户键入的结果。唯一真正影响速度的是在选择具有最短距离的记录之前计算所有记录的 Levenshtein 距离的函数（我通过将 0 代替对 Levenshtein 函数的调用来验证这一点）。该表有 150 万条记录，因此即使是最轻微的调整也可能会缩短几秒钟。现在整个事情运行了10多分钟。这是我正在使用的方法：

ALTER function dbo.Levenshtein
( 
    @Source nvarchar(200), 
    @Target nvarchar(200) 
) 
RETURNS int
AS
BEGIN
DECLARE @Source_len int, @Target_len int, @i int, @j int, @Source_char nchar, @Dist int, @Dist_temp int, @Distv0 varbinary(8000), @Distv1 varbinary(8000)

SELECT @Source_len = LEN(@Source), @Target_len = LEN(@Target), @Distv1 = 0x0000, @j = 1, @i = 1, @Dist = 0

WHILE @j <= @Target_len
BEGIN
    SELECT @Distv1 = @Distv1 + CAST(@j AS binary(2)), @j = @j + 1
END

WHILE @i <= @Source_len
BEGIN
    SELECT @Source_char = SUBSTRING(@Source, @i, 1), @Dist = @i, @Distv0 = CAST(@i AS binary(2)), @j = 1

WHILE @j <= @Target_len
BEGIN
    SET @Dist = @Dist + 1
    SET @Dist_temp = CAST(SUBSTRING(@Distv1, @j+@j-1, 2) AS int) +
                  CASE WHEN @Source_char = SUBSTRING(@Target, @j, 1) THEN 0 ELSE 1 END

    IF @Dist > @Dist_temp
    BEGIN
        SET @Dist = @Dist_temp
    END

    SET @Dist_temp = CAST(SUBSTRING(@Distv1, @j+@j+1, 2) AS int)+1

    IF @Dist > @Dist_temp SET @Dist = @Dist_temp
    BEGIN
        SELECT @Distv0 = @Distv0 + CAST(@Dist AS binary(2)), @j = @j + 1
    END
END

SELECT @Distv1 = @Distv0, @i = @i + 1
END

RETURN @Dist
END

我应该从这里去哪里？

【问题讨论】：

您是否已经对此进行了分析并查看了您的索引？
将计算值存储在每一行中，如果目标列发生变化则更新......
不，我没有对其进行分析...我将不得不查找如何做到这一点，这是我第一次尝试优化存储过程。我无法存储计算的值，这是用于搜索的，搜索中的输入很少会重复。

标签： optimization levenshtein-distance edit-distance

【解决方案1】：

我过去这样做的方法是将“数据库”（实际上是拼写纠正器的单词字典）存储为 trie。

然后我使用分支定界例程来查找最近的匹配条目。对于小距离，所花费的时间是距离的指数。对于大距离，它在字典的大小上是线性的，就像您现在看到的那样。

Branch-and-bound 基本上是 trie 的深度优先树遍历，但有一个错误预算。在每个节点上，您都会跟踪当前的 levenshtein 距离，如果超出预算，您就修剪树的那个分支。

首先，您的预算为零。那只会找到完全匹配的。如果您没有找到匹配项，那么您可以预算为一个。这将在距离为 1 处找到匹配项。如果您没有找到任何匹配项，则使用预算 2 进行匹配，依此类推。这听起来效率低下，但由于每次步行都比前一次花费更多时间，所以时间主要由您最后一次步行所支配。

添加：代码大纲（请原谅我的 C）：

// dumb version of trie node, indexed by letter. You can improve.
typedef struct tnodeTag {
  tnodeTag* p[128];
} tnode;

tnode* top; // the top of the trie

void walk(tnode* p, char* s, int budget){
  int i;
  if (*s == 0){
    if (p == NULL){
      // print the current trie path
    }
  }
  else if (budget >= 0){
    // try deleting this letter
    walk(p, s+1, budget-1);
    // try swapping two adjacent letters
    if (s[1]){
      swap(s[0], s[1]);
      walk(p, s, budget-1);
      swap(s[0], s[1]);
    }
    if (p){
      for (i = 0; i < 128; i++){
        // try exact match
        if (i == *s) walk(p->p[i], s+1, budget);
        // try replacing this character
        if (i != *s) walk(p->p[i], s+1, budget-1);
        // try inserting this letter
        walk(p->p[i], s, budget-1);
      }
    }
  }
}

基本上，您可以通过跳过一个字母并在同一个节点上搜索来模拟删除它。您可以通过在不推进 s 的情况下降低 trie 来模拟插入一个字母。你模拟替换一个字母，就像字母匹配一样，即使它不匹配。当你掌握了它的窍门后，你可以添加其他可能的不匹配，比如用 O 替换 0 和用 L 或 I 替换 1 - 诸如此类的愚蠢的东西。

您可能想要添加一个字符数组参数来表示您在 trie 中找到的当前单词。

【讨论】：

大纲会很有帮助。我了解错误预算的行走，但我真的不知道如何进行深度优先树行走......
@Matt：深度优先树遍历？您可以只使用递归 dfs 函数，也可以使用堆栈。查找 dfs。
太棒了！我一直在研究试图将其转换为 SQL 的代码，到目前为止它工作正常。我不太确定如何将整个表变成一个 Trie，以及如何遍历它......它不像 C 中我们有指针或任何东西。有人有想法么？我可能会将此作为另一个问题发布。再次感谢您的帮助！
@Matt：我认为您实际上无法在 SQL 中执行此操作。我认为你必须获取所有数据并用其他语言构建一个 trie。
请查看这个问题：stackoverflow.com/questions/2926790/… 了解如何在 SQL 中执行此操作的详细信息。