【发布时间】:2023-04-10 02:40:01
【问题描述】:
是否有包含以 C 或 Fortran 代码实现的 Levenshtein 距离计数功能的包?我有很多字符串要比较,而来自MiscPsycho 的stringMatch 太慢了。
【问题讨论】:
标签: r performance packages levenshtein-distance stringdist
是否有包含以 C 或 Fortran 代码实现的 Levenshtein 距离计数功能的包?我有很多字符串要比较,而来自MiscPsycho 的stringMatch 太慢了。
【问题讨论】:
标签: r performance packages levenshtein-distance stringdist
stringdist 包中的 stringdist 也能做到这一点,在某些条件下甚至比 levenshteinDist 更快 (1)
【讨论】:
levenshteinDist(来自RecordLinkage 包)调用已编译的 C 代码。试试看吧。
【讨论】:
stringdist 包是现在的解决方案。
你也可以从Biostrings 尝试stringDist
【讨论】:
您也可以使用textTinyR 包中的levenshtein_distance()。当涉及到大约 30k 个字符的较大字符向量时,我在所有其他包中都遇到了“calloc”内存错误。只有textTinyR 为我工作!
【讨论】: