【问题标题】:Optimization Routine for Logistic Regression in ML (Spark 1.6.2)ML 中逻辑回归的优化例程 (Spark 1.6.2)
【发布时间】:2022-05-12 22:57:09
【问题描述】:
尊敬的 Apache Spark 社区:
我已经阅读 Spark 的文档好几个星期了。我阅读了 MLlib 中的 Logistic Regression,我意识到 Spark 使用了两种优化例程(SGD 和 L-BFGS)。
但是,目前我正在阅读 ML 中 LogistReg 的文档。我无法清楚地看到开发人员使用了什么样的优化例程。我如何索取这些信息?
非常感谢。
【问题讨论】:
标签:
apache-spark
machine-learning
apache-spark-ml
【解决方案1】:
重点在于他们使用的 API。
MlLib 是 RDD API 的焦点。 Spark 的核心,但是像 Sums、Avgs 和其他类型的简单函数这样的过程比 DataFrame 过程需要更多的时间。
ML 是一个与数据框一起工作的库。该 dataFrame 对 sums 等基本函数进行了查询优化。
你可以查看这个博客post,这是 ML 应该比 MlLib 更快的原因之一。