【问题标题】:Different results on my laptop and on a cluster我的笔记本电脑和集群上的不同结果
【发布时间】:2017-10-10 15:25:00
【问题描述】:

我有一个问题让我失去理智。

我有一个使用来自 mllib 的 Kmeans 的应用程序,如果我在我的 笔记本电脑 上启动它会给我一个 结果 和一个 cluster 给了我另一个完全不同的。事实上,我在笔记本电脑和 AWS 集群上启动了几次,每个平台的结果都相似,但在两个平台上应该是相似的。

我没有使用 Repartition,我只是使用默认参数执行它。

有什么解决办法吗? 谢谢

【问题讨论】:

  • K-means 是随机的。它应该给出不同的结果。
  • 是的。但是,正如我所说,我在笔记本电脑和 AWS 集群上启动了几次,每个平台的结果都相似,但它们在两个平台上应该是相似的。
  • 可能是一个错误? Spark 集群是垃圾。

标签: amazon-web-services apache-spark k-means apache-spark-mllib


【解决方案1】:

Spark Kmeans 将随机化初始质心。尝试将随机种子设置为固定值。

val kmeansModel = new Kmeans().setSeed(1L).setK(k)

【讨论】:

    猜你喜欢
    • 2023-04-03
    • 2015-09-04
    • 1970-01-01
    • 1970-01-01
    • 2020-09-27
    • 2017-04-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多