【发布时间】:2017-10-02 14:00:02
【问题描述】:
我想对特定数据集执行主成分分析,然后将主成分提供给LogisticRegression 分类器。
具体来说,我想应用PCA 并使用函数computePrincipalComponentsAndExplainedVariance 保持总方差的90%。
这是读取数据集的代码:
// Load the data
val text = sparkSession.sparkContext.textFile("dataset.data")
val data = text.map(line => line.split(',').map(_.toDouble))
// Separate to label and features
val dataLP = data.map(t => (t(57), Vectors.dense(t.take(57))))
我不太确定如何执行 PCA 以保持 90% 的总方差。
【问题讨论】:
标签: scala apache-spark machine-learning apache-spark-mllib pca