【问题标题】:Lucene. How to build a term-doc matrix卢森。如何构建术语文档矩阵
【发布时间】:2011-06-12 23:38:51
【问题描述】:


我需要构建该矩阵,但我找不到为每个单元格计算归一化 tf-idf 的方法。 我将执行的归一化是余弦归一化,即除以 tf-idf(使用 DefaultSimilarity 计算)每 1/sqrt(列中的 sumOfSquaredtf-idf)。

有谁知道执行此操作的方法吗?
提前感谢
安东尼奥

【问题讨论】:

    标签: lucene matrix tf-idf


    【解决方案1】:

    Sujit Pal's blog 中描述了一种不使用 Lucene 的方法。或者,您可以构建一个每个字段具有术语向量的 Lucene 索引,遍历术语以获取 idf,然后遍历术语的文档以获取 tf.

    【讨论】:

      猜你喜欢
      • 2013-12-31
      • 2015-08-05
      • 1970-01-01
      • 1970-01-01
      • 2018-05-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多