【发布时间】:2015-11-15 22:56:45
【问题描述】:
我使用 Galago 成功地索引了一个集合。我没有找到任何用于删除索引的停用词的参数。 galago 会自动删除停用词吗?如果不是,我如何将停用词列表传递给 Galago,以及如何告诉 Galago 删除停用词?
【问题讨论】:
标签: information-retrieval lemur
我使用 Galago 成功地索引了一个集合。我没有找到任何用于删除索引的停用词的参数。 galago 会自动删除停用词吗?如果不是,我如何将停用词列表传递给 Galago,以及如何告诉 Galago 删除停用词?
【问题讨论】:
标签: information-retrieval lemur
Galago 作为一个研究型搜索引擎,尽量不做出无法收回的假设:默认情况下,索引是为有词干的和无词干的词构建的。
在索引期间,不会删除停用词,这会给您带来查询时的负担,但允许更改或调整训练集上的停用词列表。
如果您想删除停用词,则需要一个查询时间步骤。如果您考虑一下,这就是任何现代搜索引擎都想要的,除非磁盘空间有限:如果没有停用词或更复杂的技术,“to be or not to be”的查询是无法回答的,但最好编写一些代码来删除停用词,除非它清空查询而不是无条件地删除它们。
Galago 通过 WordLists 类提供对“inquery”停用词列表的访问。
【讨论】: