识别信息检索系统中最相关的文档答案

【问题标题】：Identifying the most relavant document in a information retrieval system识别信息检索系统中最相关的文档
【发布时间】：2023-03-28 11:09:01
【问题描述】：

我在业余时间正在开发一个仿照谷歌的搜索引擎。

我使用位于http://infolab.stanford.edu/~backrub/google.html 的原始谷歌研究论文作为我的指导方针。

由于我正在开发一个非常简化的 google 版本，所以我现在根本不使用 pagerank 算法。

到目前为止，我已经开发了一个简单的解析器和索引器，其结果是我有一个倒排索引，其中包含针对每个唯一单词的命中数、命中位置和文档哈希。

现在我正在尝试开发一个查询引擎。但是，我发现很难为多令牌查询识别最相关的文档。

具体来说，我在计算文档中查询词彼此的接近度时遇到困难。

我想到了一种算法，它扫描每个文档中的查询词并根据查询词彼此接近的程度计算邻近度分数，但是我怀疑这需要很长时间，我认为有一个我不知道的更好的方法，而且研究论文太笼统而无法得到答案。

我只是在寻找正确方向的指针。

任何形式的帮助都会非常非常感谢。

【问题讨论】：

【解决方案1】：

基本上，您希望在文档中保存给定单词的位置信息，这样可以轻松计算邻近度。此信息保存在索引中。

关键是索引您的文档，这样您就不需要每次都扫描它们。关键字搜索是在指向包含这些关键字的文档的索引上完成的。

附：不要忘记您正在尝试使索引尽可能小，因此存储单词位置的间隙或差异将节省相同的内存（如第 23 页的J. Zobel, A. Moffat - Inverted Files for Search Text Engines 中所述）。

【讨论】：