【问题标题】:How to store the results of tokenization for further indexing?如何存储标记化结果以进行进一步索引?
【发布时间】:2012-09-28 19:31:16
【问题描述】:

我完全是一个初学者,现在尝试实现一个简单的search engine in python

我使用NLTK 中的函数很好地完成了tokenizer。但是我现在对存储标记器的结果感到困惑。我需要保留它们以供进一步索引。

执行此操作的常用方法是什么?我应该使用什么样的数据库?

【问题讨论】:

    标签: python indexing search-engine information-retrieval


    【解决方案1】:

    Introduction to Information Retrieval 由 Manning、Raghavan 和 Schütze 撰写,有几章专门介绍索引构建和存储; Baeza-Yates 和 Ribeiro-Neto 的 Modern Information Retrieval 也是如此。

    不过,对于一个简单的爱好/学习项目,SQLite 足以存储索引。您需要一个包含 (term, document-id, frequency) 三元组的表来计算 tf 和一个存储 (term, df) 对的表,两者都带有术语索引;这足以计算 tf-idf。

    【讨论】:

    • 感谢您的提示!我做到了!
    猜你喜欢
    • 2016-11-29
    • 2010-11-08
    • 2021-12-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-12-12
    • 2012-05-25
    • 1970-01-01
    相关资源
    最近更新 更多