【发布时间】:2017-10-29 06:05:04
【问题描述】:
我正在使用 pySpark ML LDA 库在 sklearn 的 20 个新闻组数据集上拟合主题模型。我正在对训练语料库进行标准标记化、停用词删除和 tf-idf 转换。最后,我可以获取主题并打印出单词索引及其权重:
topics = model.describeTopics()
topics.show()
+-----+--------------------+--------------------+
|topic| termIndices| termWeights|
+-----+--------------------+--------------------+
| 0|[5456, 6894, 7878...|[0.03716766297248...|
| 1|[5179, 3810, 1545...|[0.12236370744240...|
| 2|[5653, 4248, 3655...|[1.90742686393836...|
...
但是,如何从术语索引映射到实际单词以可视化主题? 我正在使用应用于字符串标记列表的 HashingTF 来派生术语索引。如何生成用于可视化主题的字典(从索引到单词的映射)?
【问题讨论】:
标签: apache-spark lda apache-spark-ml