【发布时间】:2018-10-12 03:06:27
【问题描述】:
trie 似乎适用于小字符串,但不适用于大文档,所以不确定(1-100 页的文本)。也许可以将倒排索引与后缀树结合起来,以获得两全其美的效果。或者也许使用将单词存储为节点的 b-tree,并为每个节点使用一个 trie。不确定。想知道什么是好的数据结构(b 树、链表等)。
我正在考虑搜索常规书籍、网页和源代码等文档,因此在倒排索引中仅存储单词的想法似乎不太正确。了解您是否需要针对每种解决方案的替代解决方案,或者是否有适用于所有解决方案的通用解决方案或它们的组合,将很有帮助。
【问题讨论】:
-
看看here,它讨论了一些基础知识,还列出了一些开源解决方案(lucene、solr、...)
标签: string search data-structures full-text-search