【问题标题】:FuzzyWuzzy or LevenshteinFuzzyWuzzy 或 Levenshtein
【发布时间】:2020-01-07 10:24:29
【问题描述】:

我想从匹配数据中获取比率,我有大量数据,我想使用 python 进行匹配过程。例如 : 我比较姓名和年龄的组合

Name   Age
Jo     15
Ame    10
Rio    23
Joe    15

比较将是:

Jo15 will be compared with Ame10, Rio23, Joe15 

Ame will be compared with Rio23, Joe15 and so on

FuzzyWuzzy 和 Levenshtein 之间哪个更好? 或者有什么想法可以让数据匹配得更快?

【问题讨论】:

标签: python-3.x string-matching fuzzywuzzy


【解决方案1】:

FuzzyWuzzy 基于Levenshtein distance。没有区别。

【讨论】:

  • FuzzyWuzzy 基于插入缺失距离。与 Levenshtein 距离相比,它不允许替换。
  • 我添加了一个指向文档的链接,说明它使用 Levenshtien 距离。替换是其中的一部分。
  • 它是替换权重为 2 的 Levenshtein 距离。因此每次替换都算作插入 + 删除。这通常称为 Indel 距离。
猜你喜欢
  • 2011-08-27
  • 1970-01-01
  • 1970-01-01
  • 2021-06-25
  • 2019-05-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多