【发布时间】:2017-06-13 09:55:48
【问题描述】:
我的 spark dataframe (df) 中有数据,它有 24 个特征,第 25 列是我的目标变量。我想在这个dataset 上安装我的dl4j 模型,它接受org.nd4j.linalg.api.ndarray.INDArray, org.nd4j.linalg.dataset.Dataset 或org.nd4j.linalg.dataset.api.iterator.DataSetIterator 形式的输入。如何将我的 dataframe 转换为所需的类型?
我也尝试过使用 Pipeline 方法将 spark 数据帧直接输入到模型中。但是 dl4j-spark-ml 的 sbt 依赖项不起作用。我的 build.sbt 文件是:
scalaVersion := "2.11.8"
libraryDependencies += "org.deeplearning4j" %% "dl4j-spark-ml" % "0.8.0_spark_2-SNAPSHOT"
libraryDependencies += "org.deeplearning4j" % "deeplearning4j-core" % "0.8.0"
libraryDependencies += "org.nd4j" % "nd4j" % "0.8.0"
libraryDependencies += "org.nd4j" % "nd4j-native-platform" % "0.8.0"
libraryDependencies += "org.nd4j" % "nd4j-backends" % "0.8.0"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.1"
libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.0.1"
有人可以从这里指导我吗?提前致谢。
【问题讨论】:
标签: scala apache-spark deeplearning4j nd4j