【问题标题】:Input Spark Dataframe to DeepLearning4J model将 Spark Dataframe 输入到 DeepLearning4J 模型
【发布时间】:2017-06-13 09:55:48
【问题描述】:

我的 spark dataframe (df) 中有数据,它有 24 个特征,第 25 列是我的目标变量。我想在这个dataset 上安装我的dl4j 模型,它接受org.nd4j.linalg.api.ndarray.INDArray, org.nd4j.linalg.dataset.Datasetorg.nd4j.linalg.dataset.api.iterator.DataSetIterator 形式的输入。如何将我的 dataframe 转换为所需的类型?

我也尝试过使用 Pipeline 方法将 spark 数据帧直接输入到模型中。但是 dl4j-spark-ml 的 sbt 依赖项不起作用。我的 build.sbt 文件是:

scalaVersion := "2.11.8"

libraryDependencies += "org.deeplearning4j" %% "dl4j-spark-ml" % "0.8.0_spark_2-SNAPSHOT"

libraryDependencies += "org.deeplearning4j" % "deeplearning4j-core" % "0.8.0"

libraryDependencies += "org.nd4j" % "nd4j" % "0.8.0"

libraryDependencies += "org.nd4j" % "nd4j-native-platform" % "0.8.0"

libraryDependencies += "org.nd4j" % "nd4j-backends" % "0.8.0"

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.1"

libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.0.1" 

有人可以从这里指导我吗?提前致谢。

【问题讨论】:

    标签: scala apache-spark deeplearning4j nd4j


    【解决方案1】:

    您可以使用已读取 spark.ml 集成的快照。 如果要使用快照,请添加 oss sonatype 存储库: https://github.com/deeplearning4j/dl4j-examples/blob/master/dl4j-examples/pom.xml#L16 撰写本文时的版本是: 0.8.1-快照

    请使用示例存储库验证最新版本: https://github.com/deeplearning4j/dl4j-examples/blob/master/pom.xml#L21

    您不能混合 dl4j 的版本。您尝试使用的版本非常已过时(超过一年)。请升级到最新版本。

    可在此处找到新的 spark.ml 集成示例: https://github.com/deeplearning4j/deeplearning4j/tree/master/deeplearning4j-scaleout/spark/dl4j-spark-ml/src/test/java/org/deeplearning4j/spark/ml/impl

    确保添加正确的依赖项,通常类似于 org.deeplearning4j:dl4j-spark-ml_${YOUR SCALA BINARY VERSION}:0.8.1_spark_${YOUR SPARK VERSION (1 or 2}-SNAPSHOT

    【讨论】:

    • 我试过使用 "org.deeplearning4j" %% "dl4j-spark-ml" % "0.8.0_spark_2-SNAPSHOT" 。但它仍然无法正常工作。我用完整的 build.sbt 文件编辑了我的问题。请检查一次。
    • 我说 0.8.*1* 让我更明确地说:oss.sonatype.org/content/repositories/snapshots/org/… 它肯定存在。你不应该遇到任何问题。 ^^^
    • 我必须使用resolvers += "scala-tools.org" at "https://oss.sonatype.org/content/repositories/snapshots/" 才能使其工作。谢谢你给的信息。但我想要的是使用 - org.deeplearning4j.spark.ml.classification.NeuralNetworkClassification 但似乎这个类不可用。你有什么想法吗?我想要的只是将我的 spark 数据框输入到 dl4j 模型中。
    • 那是..这个新版本有什么作用?我对这里的问题有点困惑。github.com/deeplearning4j/deeplearning4j/blob/master/… 除此之外,我们现在不会也不会支持与您现在正在查看的内容相关的任何内容。它已经一岁多了。作为 deeplearning4j 的创建者,我可以告诉你。
    猜你喜欢
    • 1970-01-01
    • 2016-05-31
    • 1970-01-01
    • 2021-03-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多