【问题标题】:Fast Levenshtein distance in R?R中的快速Levenshtein距离?
【发布时间】:2023-04-10 02:40:01
【问题描述】:

是否有包含以 C 或 Fortran 代码实现的 Levenshtein 距离计数功能的包?我有很多字符串要比较,而来自MiscPsychostringMatch 太慢了。

【问题讨论】:

    标签: r performance packages levenshtein-distance stringdist


    【解决方案1】:

    stringdist 包中的 stringdist 也能做到这一点,在某些条件下甚至比 levenshteinDist 更快 (1)

    【讨论】:

    • 自从您链接到该博客以来,stringdist 的速度显着加快:它现在使用多个内核。
    【解决方案2】:

    levenshteinDist(来自RecordLinkage 包)调用已编译的 C 代码。试试看吧。

    【讨论】:

    • 只是注意到 RecordLinkage 包显然不再维护并且已从 CRAN 中撤出。 stringdist 包是现在的解决方案。
    【解决方案3】:

    你也可以从Biostrings 尝试stringDist

    【讨论】:

      【解决方案4】:

      您也可以使用textTinyR 包中的levenshtein_distance()。当涉及到大约 30k 个字符的较大字符向量时,我在所有其他包中都遇到了“calloc”内存错误。只有textTinyR 为我工作!

      【讨论】: