【问题标题】:Selective edit distance选择性编辑距离
【发布时间】:2015-10-15 11:32:57
【问题描述】:

我有类似的数据

Mega Mall
Mega Malls
L & T Gate 6
L & T Gate 5
L & T Gate 2
Megas Mall
Mega Mwll

现在我想清理它。我使用编辑距离 1 采用了编辑距离方法,并处理了 Mega Mall 案例。缺点是它也删除了 L & T Gate 5,2 [我保留了第一个条目]。有什么办法可以处理这个问题,不删除这些案例和处理错别字等。

【问题讨论】:

    标签: string algorithm levenshtein-distance fuzzy-search


    【解决方案1】:

    是的,您可以使用 加权 形式的编辑距离,而无需真正改变算法或其时间或空间复杂度。当涉及的字符(或其中一个字符,用于替换)是数字时,不要将任何替换、插入或删除计为 1,而是将其计为更大的数字。

    甚至可以对字符串中特定的位置进行不同的加权。例如。您可能会认为紧跟在 1 个或多个数字后面的每个字母都应该被视为更重要(因为例如地址 123B 与 123 非常不同)。

    【讨论】: