【发布时间】:2019-03-19 10:13:50
【问题描述】:
我对机器学习完全陌生(并且完全披露:这是针对学校的),并且正在尝试围绕 KMeans Clustering 及其实现。我了解该算法的要点并已在 Java 中实现它,但对于如何在复杂数据集上使用它有点困惑。
例如,我有 3 个文件夹,A、B 和 C,每个文件夹包含 8 个文本文件(总共 24 个文本文件)。我想通过让算法根据单词使用情况将这 24 个文档聚类成 3 个聚类来验证我是否正确实现了 KMeans。
为此,我创建了一个词频矩阵并对其执行tfidf 以创建一个 24 x 2367 的稀疏矩阵(总共 24 个文档和 2367 个单词/-gram)。然后,我想在我的 tfidf 矩阵上运行我的 KMeans 聚类算法并且没有得到好的结果。
为了尝试调试,我试图将我的 tfidf 矩阵和作为输出的质心可视化,但我不太明白如何可视化这个 24 x 2367 矩阵?我还将此矩阵保存到 .csv 文件中,并希望在其上运行 python 库 - 但我所看到的一切都是 n x 2 矩阵。怎么做呢?
提前致谢,
【问题讨论】:
标签: python data-visualization k-means