【发布时间】:2017-10-10 15:25:00
【问题描述】:
我有一个问题让我失去理智。
我有一个使用来自 mllib 的 Kmeans 的应用程序,如果我在我的 笔记本电脑 上启动它会给我一个 结果 和一个 cluster 给了我另一个完全不同的。事实上,我在笔记本电脑和 AWS 集群上启动了几次,每个平台的结果都相似,但在两个平台上应该是相似的。
我没有使用 Repartition,我只是使用默认参数执行它。
有什么解决办法吗? 谢谢
【问题讨论】:
-
K-means 是随机的。它应该给出不同的结果。
-
是的。但是,正如我所说,我在笔记本电脑和 AWS 集群上启动了几次,每个平台的结果都相似,但它们在两个平台上应该是相似的。
-
可能是一个错误? Spark 集群是垃圾。
标签: amazon-web-services apache-spark k-means apache-spark-mllib