【发布时间】:2012-01-24 20:01:56
【问题描述】:
我目前正在使用 lucene 索引网页。目的是能够快速提取出哪个页面包含某个表达(通常是 1、2 或 3 个单词),以及页面中还有哪些其他单词(或其中 1 到 3 个的组)。 这将用于构建/丰富/更改同义词库(固定词汇表)。
从我找到的文章看来,问题在于找到n-grams(或木瓦)。
Lucene 有一个ShingleFilter、一个ShingleMatrixFilter 和一个ShingleAnalyzerWrapper,似乎与这个任务有关。
通过presentation,我了解到 Lucene 还可以搜索由固定数量的单词分隔的术语(称为 slops)。提供了一个示例here。
但是,我不清楚这些方法之间的区别?它们是根本不同,还是您必须做出的性能/索引大小选择?
ShingleMatrixFilter 和 ShingleFilter 有什么区别?
希望 Lucene 大师能找到这个问题,并回答 ;-) !
【问题讨论】:
标签: java lucene information-retrieval