【问题标题】:Indexing collections with stopword removal in Galago在 Galago 中使用停用词删除索引集合
【发布时间】:2015-11-15 22:56:45
【问题描述】:

我使用 Galago 成功地索引了一个集合。我没有找到任何用于删除索引的停用词的参数。 galago 会自动删除停用词吗?如果不是,我如何将停用词列表传递给 Galago,以及如何告诉 Galago 删除停用词?

【问题讨论】:

    标签: information-retrieval lemur


    【解决方案1】:

    Galago 作为一个研究型搜索引擎,尽量不做出无法收回的假设:默认情况下,索引是为有词干的无词干的词构建的。

    在索引期间,不会删除停用词,这会给您带来查询时的负担,但允许更改或调整训练集上的停用词列表。

    如果您想删除停用词,则需要一个查询时间步骤。如果您考虑一下,这就是任何现代搜索引擎都想要的,除非磁盘空间有限:如果没有停用词或更复杂的技术,“to be or not to be”的查询是无法回答的,但最好编写一些代码来删除停用词,除非它清空查询而不是无条件地删除它们。

    Galago 通过 WordLists 类提供对“inquery”停用词列表的访问。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-04-19
      • 1970-01-01
      • 1970-01-01
      • 2021-03-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多