【问题标题】:How can I get the term frequencies of a document for multi-word phrases?如何获取多词短语文档的词频?
【发布时间】:2017-03-10 18:15:58
【问题描述】:

我能够获得 Lucene 中文档的单字词频。我该如何做同样的事情,但对于多词短语的自定义列表?例如:假设我在文档中有以下文本:

The quick brown fox jumps over the lazy dog.
The quick onyx goblin jumps over the lazy dwarf.

术语频率向量将显示:

Word       Frequency
----       ---------
the        4
quick      2
brown      1
onyx       1
fox        1
goblin     1
jumps      2
over       2
lazy       2
dog        1
dwarf      1

但是,如果我想计算短语“the quick”的实例呢?在这种情况下,将有 2 个匹配项。

【问题讨论】:

    标签: lucene


    【解决方案1】:

    我敢打赌,您使用的是简单的分析链。您可以将ShingleFilter(带有minShingleSize=2maxShingleSize=2)附加到令牌过滤器列表中,因此令牌流的输出如下所示:

    the quick -> quick brown -> brown fox -> fox jumps -> jumps over -> over the -> the lazy -> lazy dog

    这样您就可以将问题简化为已经解决的问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-04-15
      • 1970-01-01
      • 2021-08-25
      • 1970-01-01
      相关资源
      最近更新 更多