【发布时间】:2011-06-12 23:38:51
【问题描述】:
我需要构建该矩阵,但我找不到为每个单元格计算归一化 tf-idf 的方法。
我将执行的归一化是余弦归一化,即除以 tf-idf(使用 DefaultSimilarity 计算)每 1/sqrt(列中的 sumOfSquaredtf-idf)。
有谁知道执行此操作的方法吗?
提前感谢
安东尼奥
【问题讨论】:
我需要构建该矩阵,但我找不到为每个单元格计算归一化 tf-idf 的方法。
我将执行的归一化是余弦归一化,即除以 tf-idf(使用 DefaultSimilarity 计算)每 1/sqrt(列中的 sumOfSquaredtf-idf)。
有谁知道执行此操作的方法吗?
提前感谢
安东尼奥
【问题讨论】:
Sujit Pal's blog 中描述了一种不使用 Lucene 的方法。或者,您可以构建一个每个字段具有术语向量的 Lucene 索引,遍历术语以获取 idf,然后遍历术语的文档以获取 tf.
【讨论】: