【发布时间】:2016-06-12 08:42:39
【问题描述】:
我正在使用 Spark 和 Python 使用以下代码计算 TFIDF:
hashingTF = HashingTF()
tf = hashingTF.transform(documents)
idf = IDF().fit(tf)
tfidf = idf.transform(tf)
for k in tfidf.collect():
print(k)
我得到了三个文档的以下结果:
(1048576,[558379],[1.43841036226])
(1048576,[181911,558379,959994], [0.287682072452,0.287682072452,0.287682072452])
(1048576,[181911,959994],[0.287682072452,0.287682072452])
假设我有数千个文档,如何将生成的 TFIDF 稀疏向量链接到原始文档,因为我不关心将哈希键反转为原始术语。
【问题讨论】:
标签: python apache-spark pyspark tf-idf apache-spark-mllib