【发布时间】:2017-03-10 18:15:58
【问题描述】:
我能够获得 Lucene 中文档的单字词频。我该如何做同样的事情,但对于多词短语的自定义列表?例如:假设我在文档中有以下文本:
The quick brown fox jumps over the lazy dog.
The quick onyx goblin jumps over the lazy dwarf.
术语频率向量将显示:
Word Frequency
---- ---------
the 4
quick 2
brown 1
onyx 1
fox 1
goblin 1
jumps 2
over 2
lazy 2
dog 1
dwarf 1
但是,如果我想计算短语“the quick”的实例呢?在这种情况下,将有 2 个匹配项。
【问题讨论】:
标签: lucene