【发布时间】:2011-10-30 02:12:29
【问题描述】:
假设我有一组短语 - 大约 10 000 - 平均长度 - 7-20 个单词,我想在其中找到一些给定的短语。我正在寻找的短语可能有一些错误——例如遗漏一两个词、一些词错位或一些随机词——例如我的数据库包含“当我骑着我的红色自行车时,我看到了克里斯汀”,而我非常想要“当我骑着我的蓝色自行车时,看到了 Christine”,或者“我骑着我的自行车,我看到了 Christine 和 Marion”。有什么好的方法可以解决这个问题?我知道 Levenhstein 的距离,我也认为这个问题可能没有简单、好的解决方案。
【问题讨论】:
-
你想对结果做什么?只是识别它们?
-
最好,我想将它们视为键并检索相应的值 - 将数据库视为例如书中的句子,我想找到相应的页面/章节。
-
同时寻找抄袭检测器——你的听起来是一个很好的用例。
-
检查它们是个好主意,但它们必须使用一些算法和方法——这就是我问的问题。
标签: nlp fuzzy-search