【发布时间】:2010-09-20 13:36:46
【问题描述】:
我是 Lucene 新手,正在考虑使用它来索引 RSS 提要的标题和描述元素中的单词,以便我可以记录提要中最流行单词的计数。
需要各种搜索选项,其中一些将由用户手动输入关键字,而在其他情况下,系统会自动生成热门术语。所以我可以让 Lucene 使用查询字符串来返回手动输入的关键字的命中计数和自动案例中的 TermEnums?
系统还需要能够处理来自提要的新数据,因为它们会定期轮询。
现在,我可以使用 Java 中的 hashmaps 来计算计数,但如果我使用 Lucene,我的问题是存储用于计数的单词的最佳方式。要获取单个 RSS 提要,让 Lucene 在内存中创建一个临时索引,并传递单词和命中计数以便其他程序可以将它们写入数据库是否明智?
还是为每个提要创建一个 Lucene 文档并在轮询时向其中添加新提要数据更好?因此,如果在日期 x 和 y 之间需要关键字计数,Lucene 可以返回这些值吗?这意味着我可以为我不确定的 Lucene 条目添加日期戳。
希望这是有道理的。
摩根先生。
【问题讨论】: