【发布时间】:2023-03-28 11:09:01
【问题描述】:
我在业余时间正在开发一个仿照谷歌的搜索引擎。
我使用位于http://infolab.stanford.edu/~backrub/google.html 的原始谷歌研究论文作为我的指导方针。
由于我正在开发一个非常简化的 google 版本,所以我现在根本不使用 pagerank 算法。
到目前为止,我已经开发了一个简单的解析器和索引器,其结果是我有一个倒排索引,其中包含针对每个唯一单词的命中数、命中位置和文档哈希。
现在我正在尝试开发一个查询引擎。但是,我发现很难为多令牌查询识别最相关的文档。
具体来说,我在计算文档中查询词彼此的接近度时遇到困难。
我想到了一种算法,它扫描每个文档中的查询词并根据查询词彼此接近的程度计算邻近度分数,但是我怀疑这需要很长时间,我认为有一个我不知道的更好的方法,而且研究论文太笼统而无法得到答案。
我只是在寻找正确方向的指针。
任何形式的帮助都会非常非常感谢。
【问题讨论】:
标签: machine-learning artificial-intelligence search-engine information-retrieval inverted-index