【发布时间】:2016-06-09 22:48:42
【问题描述】:
我使用 Pyspark 的 HashingTF 和 IDF 计算了 3 个示例文本文档的 TFIDF,得到了以下 SparseVector 结果:
(1048576,[558379],[1.43841036226])
(1048576,[181911,558379,959994], [0.287682072452,0.287682072452,0.287682072452])
(1048576,[181911,959994],[0.287682072452,0.287682072452])
如何计算文档中所有术语的 TFIDF 值的总和。 例如。 (0.287682072452 + 0.287682072452) 用于 3d 文档。
【问题讨论】:
标签: python apache-spark tf-idf apache-spark-mllib