【发布时间】:2012-09-28 19:31:16
【问题描述】:
我完全是一个初学者,现在尝试实现一个简单的search engine in python。
我使用NLTK 中的函数很好地完成了tokenizer。但是我现在对存储标记器的结果感到困惑。我需要保留它们以供进一步索引。
执行此操作的常用方法是什么?我应该使用什么样的数据库?
【问题讨论】:
标签: python indexing search-engine information-retrieval
我完全是一个初学者,现在尝试实现一个简单的search engine in python。
我使用NLTK 中的函数很好地完成了tokenizer。但是我现在对存储标记器的结果感到困惑。我需要保留它们以供进一步索引。
执行此操作的常用方法是什么?我应该使用什么样的数据库?
【问题讨论】:
标签: python indexing search-engine information-retrieval
Introduction to Information Retrieval 由 Manning、Raghavan 和 Schütze 撰写,有几章专门介绍索引构建和存储; Baeza-Yates 和 Ribeiro-Neto 的 Modern Information Retrieval 也是如此。
不过,对于一个简单的爱好/学习项目,SQLite 足以存储索引。您需要一个包含 (term, document-id, frequency) 三元组的表来计算 tf 和一个存储 (term, df) 对的表,两者都带有术语索引;这足以计算 tf-idf。
【讨论】: