【发布时间】:2021-12-24 05:33:59
【问题描述】:
我正在尝试在大文本中模糊搜索短文本。
常见的python库,例如fuzzywuzzy和rapidfuzz,都支持“partial_ratio”函数,但是只返回一个分数,而不是匹配的位置。
是否有一些库或函数可以用来获取模糊匹配的位置(类似于正则表达式匹配的 span 方法)?
【问题讨论】:
我正在尝试在大文本中模糊搜索短文本。
常见的python库,例如fuzzywuzzy和rapidfuzz,都支持“partial_ratio”函数,但是只返回一个分数,而不是匹配的位置。
是否有一些库或函数可以用来获取模糊匹配的位置(类似于正则表达式匹配的 span 方法)?
【问题讨论】:
我查看了fuzzywuzzy 并注意到找到了index of a match is an open issue。 RapidFuzz 也是如此。
这促使我“(类似于正则表达式匹配的 span 方法)”围绕该方法做一些研究。在我的研究中,我发现了 Python 包regex。该软件包的自述文件谈到了fuzzy matching。我没有用过这个包,但它似乎对解决你的用例很有用。
【讨论】: