【发布时间】:2019-05-27 13:31:48
【问题描述】:
我们有一个第三方“工具”,可以找到相似名称并在两个名称之间分配相似度分数。
我应该尽可能地模仿工具的行为。 在网上搜索后,给了一个距离方法。使用fuzzywuzzy同样。
matches = process.extractBests(
name,
choices,
score_cutoff=50,
scorer=fuzz.token_sort_ratio,
limit=1
);
它给出了接近工具结果的结果。但是很少有异常值 - 如下所示。
在互联网上进一步搜索后,我了解到进一步细化需要实施机器学习。我是机器学习领域的新手 - 因此寻求一些建议,以了解我下一步应该在哪里尝试以进一步优化代码。
谢谢!
【问题讨论】:
-
请问您在第一列中使用的是什么第三方工具?
-
@Stpete111 工具是桥接器 - risk.lexisnexis.com/products/bridger-insight-xg
-
谢谢。好吧,这是一个真正的完整搜索解决方案。我以为您的意思是您可以在自己的代码中实现的第 3 方名称匹配算法。
标签: python fuzzywuzzy name-matching