将 Spark Dataframe 输入到 DeepLearning4J 模型答案

【问题标题】：Input Spark Dataframe to DeepLearning4J model将 Spark Dataframe 输入到 DeepLearning4J 模型
【发布时间】：2017-06-13 09:55:48
【问题描述】：

我的 spark dataframe (df) 中有数据，它有 24 个特征，第 25 列是我的目标变量。我想在这个dataset 上安装我的dl4j 模型，它接受org.nd4j.linalg.api.ndarray.INDArray, org.nd4j.linalg.dataset.Dataset 或org.nd4j.linalg.dataset.api.iterator.DataSetIterator 形式的输入。如何将我的 dataframe 转换为所需的类型？

我也尝试过使用 Pipeline 方法将 spark 数据帧直接输入到模型中。但是 dl4j-spark-ml 的 sbt 依赖项不起作用。我的 build.sbt 文件是：

scalaVersion := "2.11.8"

libraryDependencies += "org.deeplearning4j" %% "dl4j-spark-ml" % "0.8.0_spark_2-SNAPSHOT"

libraryDependencies += "org.deeplearning4j" % "deeplearning4j-core" % "0.8.0"

libraryDependencies += "org.nd4j" % "nd4j" % "0.8.0"

libraryDependencies += "org.nd4j" % "nd4j-native-platform" % "0.8.0"

libraryDependencies += "org.nd4j" % "nd4j-backends" % "0.8.0"

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.1"

libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.0.1"

有人可以从这里指导我吗？提前致谢。

【问题讨论】：

标签： scala apache-spark deeplearning4j nd4j

【解决方案1】：

您可以使用已读取 spark.ml 集成的快照。如果要使用快照，请添加 oss sonatype 存储库： https://github.com/deeplearning4j/dl4j-examples/blob/master/dl4j-examples/pom.xml#L16 撰写本文时的版本是： 0.8.1-快照

请使用示例存储库验证最新版本： https://github.com/deeplearning4j/dl4j-examples/blob/master/pom.xml#L21

您不能混合 dl4j 的版本。您尝试使用的版本非常已过时（超过一年）。请升级到最新版本。

可在此处找到新的 spark.ml 集成示例： https://github.com/deeplearning4j/deeplearning4j/tree/master/deeplearning4j-scaleout/spark/dl4j-spark-ml/src/test/java/org/deeplearning4j/spark/ml/impl

确保添加正确的依赖项，通常类似于 org.deeplearning4j:dl4j-spark-ml_${YOUR SCALA BINARY VERSION}:0.8.1_spark_${YOUR SPARK VERSION (1 or 2}-SNAPSHOT

【讨论】：

我试过使用 "org.deeplearning4j" %% "dl4j-spark-ml" % "0.8.0_spark_2-SNAPSHOT" 。但它仍然无法正常工作。我用完整的 build.sbt 文件编辑了我的问题。请检查一次。
我说 0.8.*1* 让我更明确地说：oss.sonatype.org/content/repositories/snapshots/org/… 它肯定存在。你不应该遇到任何问题。 ^^^
我必须使用resolvers += "scala-tools.org" at "https://oss.sonatype.org/content/repositories/snapshots/" 才能使其工作。谢谢你给的信息。但我想要的是使用 - org.deeplearning4j.spark.ml.classification.NeuralNetworkClassification 但似乎这个类不可用。你有什么想法吗？我想要的只是将我的 spark 数据框输入到 dl4j 模型中。
那是..这个新版本有什么作用？我对这里的问题有点困惑。github.com/deeplearning4j/deeplearning4j/blob/master/… 除此之外，我们现在不会也不会支持与您现在正在查看的内容相关的任何内容。它已经一岁多了。作为 deeplearning4j 的创建者，我可以告诉你。