【发布时间】:2017-03-08 20:02:37
【问题描述】:
Spark 现在有两个机器学习库 - Spark MLlib 和 Spark ML。它们在实现方面确实有些重叠,但据我所知(作为整个 Spark 生态系统的新手)Spark ML 是可行的方法,而 MLlib 仍然存在,主要是为了向后兼容。
我的问题非常具体,并且与 PCA 有关。在MLlib 实现中似乎存在列数的限制
spark.mllib 支持 PCA 用于存储在面向行的格式和任何向量的高瘦矩阵。
另外,如果你看一下 Java 代码示例,也有这个
列数应该很少,例如,小于 1000。
另一方面,如果您查看 ML 文档,则没有提到任何限制。
所以,我的问题是 - Spark ML 中是否也存在此限制?如果是这样,为什么会有限制?即使列数很大,是否有任何解决方法可以使用此实现?
【问题讨论】:
-
有趣的问题。我在 mllib 文档中看到了许多其他不一致之处。
标签: apache-spark apache-spark-mllib apache-spark-ml