FuzzyWuzzy 或 Levenshtein

【问题标题】：FuzzyWuzzy or LevenshteinFuzzyWuzzy 或 Levenshtein
【发布时间】：2020-01-07 10:24:29
【问题描述】：

我想从匹配数据中获取比率，我有大量数据，我想使用 python 进行匹配过程。例如：我比较姓名和年龄的组合

Name   Age
Jo     15
Ame    10
Rio    23
Joe    15

比较将是：

Jo15 will be compared with Ame10, Rio23, Joe15 

Ame will be compared with Rio23, Joe15 and so on

FuzzyWuzzy 和 Levenshtein 之间哪个更好？或者有什么想法可以让数据匹配得更快？

【问题讨论】：

这似乎是同一件事github.com/seatgeek/fuzzywuzzy
如果你有大量数据，余弦相似度加上矢量化器会更快，也许更有效

标签： python-3.x string-matching fuzzywuzzy

【解决方案1】：

FuzzyWuzzy 基于Levenshtein distance。没有区别。

【讨论】：

FuzzyWuzzy 基于插入缺失距离。与 Levenshtein 距离相比，它不允许替换。
我添加了一个指向文档的链接，说明它使用 Levenshtien 距离。替换是其中的一部分。
它是替换权重为 2 的 Levenshtein 距离。因此每次替换都算作插入 + 删除。这通常称为 Indel 距离。

猜你喜欢

2011-08-27
1970-01-01
1970-01-01
2021-06-25
2019-05-27
1970-01-01
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2023-04-06
下载 2021-06-05
下载 2023-04-01
下载 2023-01-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode