【发布时间】:2020-12-28 11:43:19
【问题描述】:
我有一个包含大约 500 万个单词的语料库,我想将其放入模糊集中。 目前,大约需要 5 分钟。有没有更快的方法来做到这一点?
这是我的代码:
import fuzzyset
fuzzy_set = fuzzyset.FuzzySet()
for word in list_of_words: # len(list_of_words)=~5M
fuzzy_set.add(word)
我知道 for 循环不是在 Python 中做事的最快方式,但找不到任何文档来向 FuzzySet 添加列表。
感谢您的帮助。
【问题讨论】:
-
考虑到语言通常少于 200,000 个单词(即英语、西班牙语、俄语等),您是指单词还是短语?由于大型数据集的模糊匹配速度较慢,Fuzzy matching at scale 提供了一种快速匹配的替代方法。
标签: python list itertools fuzzy-search