如何存储标记化结果以进行进一步索引？

【问题标题】：How to store the results of tokenization for further indexing?如何存储标记化结果以进行进一步索引？
【发布时间】：2012-09-28 19:31:16
【问题描述】：

我完全是一个初学者，现在尝试实现一个简单的search engine in python。

我使用NLTK 中的函数很好地完成了tokenizer。但是我现在对存储标记器的结果感到困惑。我需要保留它们以供进一步索引。

执行此操作的常用方法是什么？我应该使用什么样的数据库？

【问题讨论】：

【解决方案1】：

Introduction to Information Retrieval 由 Manning、Raghavan 和 Schütze 撰写，有几章专门介绍索引构建和存储； Baeza-Yates 和 Ribeiro-Neto 的 Modern Information Retrieval 也是如此。

不过，对于一个简单的爱好/学习项目，SQLite 足以存储索引。您需要一个包含 (term, document-id, frequency) 三元组的表来计算 tf 和一个存储 (term, df) 对的表，两者都带有术语索引；这足以计算 tf-idf。

【讨论】：