【发布时间】:2014-04-14 00:27:59
【问题描述】:
我正在尝试在 JS 中创建一个 damerau-levenshtein 距离函数。
我在 WIkipedia 上找到了该算法的描述,但它们没有实现。它说:
设计一个合适的算法来计算无限制 Damerau-Levenshtein 距离注意到总是存在一个最优的 编辑操作序列,其中一次转置的字母永远不会 后修改。因此,我们只需要考虑两种对称方式 多次修改子字符串:(1)转置字母和 在它们之间插入任意数量的字符,或者 (2) 删除一个 字符序列和转置相邻的字母 删除后。这个想法的直接实施给出了 三次复杂度的算法: O\left (M \cdot N \cdot \max(M, N) \right ),其中 M 和 N 是字符串长度。使用的想法 Lowrance 和 Wagner,[7] 这种朴素算法可以改进为 O\left (M \cdot N \right) 在最坏的情况下。有趣的是 可以修改 bitap 算法以处理转置。见 [1] 的信息检索部分提供了这样的示例 适应。
https://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance
[1] 部分指向http://acl.ldc.upenn.edu/P/P00/P00-1037.pdf,这对我来说更加复杂。
如果我理解正确的话,创建一个实现并不容易。
这是我目前使用的 levenshtein 实现:
levenshtein=function (s1, s2) {
// discuss at: http://phpjs.org/functions/levenshtein/
// original by: Carlos R. L. Rodrigues (http://www.jsfromhell.com)
// bugfixed by: Onno Marsman
// revised by: Andrea Giammarchi (http://webreflection.blogspot.com)
// reimplemented by: Brett Zamir (http://brett-zamir.me)
// reimplemented by: Alexander M Beedie
// example 1: levenshtein('Kevin van Zonneveld', 'Kevin van Sommeveld');
// returns 1: 3
if (s1 == s2) {
return 0;
}
var s1_len = s1.length;
var s2_len = s2.length;
if (s1_len === 0) {
return s2_len;
}
if (s2_len === 0) {
return s1_len;
}
// BEGIN STATIC
var split = false;
try {
split = !('0')[0];
} catch (e) {
// Earlier IE may not support access by string index
split = true;
}
// END STATIC
if (split) {
s1 = s1.split('');
s2 = s2.split('');
}
var v0 = new Array(s1_len + 1);
var v1 = new Array(s1_len + 1);
var s1_idx = 0,
s2_idx = 0,
cost = 0;
for (s1_idx = 0; s1_idx < s1_len + 1; s1_idx++) {
v0[s1_idx] = s1_idx;
}
var char_s1 = '',
char_s2 = '';
for (s2_idx = 1; s2_idx <= s2_len; s2_idx++) {
v1[0] = s2_idx;
char_s2 = s2[s2_idx - 1];
for (s1_idx = 0; s1_idx < s1_len; s1_idx++) {
char_s1 = s1[s1_idx];
cost = (char_s1 == char_s2) ? 0 : 1;
var m_min = v0[s1_idx + 1] + 1;
var b = v1[s1_idx] + 1;
var c = v0[s1_idx] + cost;
if (b < m_min) {
m_min = b;
}
if (c < m_min) {
m_min = c;
}
v1[s1_idx + 1] = m_min;
}
var v_tmp = v0;
v0 = v1;
v1 = v_tmp;
}
return v0[s1_len];
}
您对构建这样一个算法有什么想法,如果您认为它太复杂,我该怎么做才能使“l”(L 小写)和“I”(i 大写)之间没有区别。
【问题讨论】:
-
你到底想做什么?您指的是(所谓的)Damerau-Levenshtein 距离,但您的代码包含经典的 Levenshtein 算法。如果只需要转置支持,只需要更改几行代码。至于给定字符之间的“没有区别”,您必须为特定的编辑操作分配给定的惩罚。这可以通过表查找/插入来处理,但在 javascript 中可能太慢而无法用于任何事情。
-
是的,我的代码只使用了简单的 Levenshtein 算法。我有一个 screenNames (300 screenNames) 数据库,以及一个扫描 screenNames 列表(300 个 screenNames)的 OCR 扫描仪。但是 OCR 扫描仪给出了不好的结果。所以我想找到相似之处(这就是我目前在 JS 中所做的)。例如,“mikejew_e”被解释为“mikeiew e”。我现在正在使用 levenshtein 算法(最大距离为 3),但它有点过于宽松了。 (距离为 2,我可能会丢失一些匹配的屏幕名称)
-
好的,我明白了。获得更好结果的基本步骤是为每个编辑操作分配特定的权重。将默认惩罚设为 1.0,并降低 OCR 程序可能误读的字符的惩罚。对于 300 个名称,这将足够快,即使在 javascript 中也是如此。我刚刚发布了我的 C 实现的要点:gist.github.com/doukremt/9473228。这可能会让您了解这是如何完成的。我也记得github上有纯javascript的实现,但是找不到链接了,不好意思!
-
很好,我会把它转换成 JS。正是我想要的
标签: javascript algorithm ocr levenshtein-distance