使用苏打水将 Spark MLLib 算法集成到 H2O ai答案

【问题标题】：Integrating Spark MLLib algorithm to H2O ai using Sparkling water使用苏打水将 Spark MLLib 算法集成到 H2O ai
【发布时间】：2017-02-21 14:34:10
【问题描述】：

我正在尝试将 Spark MLLib 中的协作算法与 H2o Ai 集成，使用苏打水进行产品推荐。我点击了这个链接

http://spark.apache.org/docs/latest/mllib-collaborative-filtering.html

更新代码如下

System.setProperty("hadoop.home.dir", "D:\\backup\\lib\\winutils")
    val conf = new SparkConf()
      .setAppName("Spark-InputFile processor")
      .setMaster("local")

    val sc = new SparkContext(conf)

    val inputFile = "src/main/resources/test.data"

    val data = sc.textFile(inputFile)

    val ratings = data.map(x=>{
      val mapper = x.split(",")
      Rating(mapper(0).toInt,mapper(1).toInt,mapper(2).toDouble)
    })
    // Build the recommendation model using ALS
    val rank = 10
    val numIterations = 10
    val model = ALS.train(ratings, rank, numIterations, 0.01)



    // Save and load model
    model.save(sc, "target/tmp/myCollaborativeFilter")
    val sameModel = MatrixFactorizationModel.load(sc, "target/tmp/myCollaborativeFilter")

    val modelRdd = sameModel.recommendProductsForUsers(100)

    implicit val sqlContext = SparkSession.builder().getOrCreate().sqlContext
    import sqlContext.implicits._

    val modelDf = modelRdd.toDF("Rdd","Rdd1")




    @transient val hc = H2OContext.getOrCreate(sc)

    val h2oframe:H2OFrame = hc.asH2OFrame(modelDf)

当我在 Intellij 中运行代码时，出现以下错误

Exception in thread "main" java.util.NoSuchElementException: key not found: StructType(StructField(user,IntegerType,false), StructField(product,IntegerType,false), StructField(rating,DoubleType,false))
    at scala.collection.MapLike$class.default(MapLike.scala:228)
    at scala.collection.AbstractMap.default(Map.scala:59)
    at scala.collection.MapLike$class.apply(MapLike.scala:141)
    at scala.collection.AbstractMap.apply(Map.scala:59)
    at org.apache.spark.h2o.utils.ReflectionUtils$.vecTypeFor(ReflectionUtils.scala:132)
    at org.apache.spark.h2o.converters.SparkDataFrameConverter$$anonfun$3.apply(SparkDataFrameConverter.scala:68)
    at org.apache.spark.h2o.converters.SparkDataFrameConverter$$anonfun$3.apply(SparkDataFrameConverter.scala:68)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.Iterator$class.foreach(Iterator.scala:893)
    at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
    at scala.collection.IterableLike$class.foreach(IterableLike.scala:72)
    at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:234)
    at scala.collection.AbstractTraversable.map(Traversable.scala:104)
    at org.apache.spark.h2o.converters.SparkDataFrameConverter$.toH2OFrame(SparkDataFrameConverter.scala:68)
    at org.apache.spark.h2o.H2OContext.asH2OFrame(H2OContext.scala:132)
    at org.apache.spark.h2o.H2OContext.asH2OFrame(H2OContext.scala:130)
    at com.poc.sample.RecommendataionAlgo$.main(RecommendataionAlgo.scala:54)
    at com.poc.sample.RecommendataionAlgo.main(RecommendataionAlgo.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)

我该如何解决这个错误？

提前致谢。

【问题讨论】：

标签： apache-spark h2o sparkling-water

【解决方案1】：

modelRdd 将是 Tuple2<Object, Rating> 类型（或 Scala 中的等价物），Rating 不是我们（苏打水）提供自动转换的类型（它不是String, Double, Float etc.，也没有实现@987654326 @)。我们肯定需要在那里抛出更有意义的错误消息。

要解决此问题，而不是使用 Object, Rating 和 modelRdd.toDF("Rdd","Rdd1") 创建 DataFrame，您可以将其映射到具有 4 列 Object, user, product, rating 的 DF，然后使用 hc.asH2OFrame()。

【讨论】：

这解决了我的第一个问题。是否有完整示例的可靠链接可以从头到尾开始使用苏打水？
@mvg 我知道我们的文档有点落后 - 我们正在努力将其更新到 2.x，但我认为按照我们的 Github README 和标准火花实践。您觉得哪些部分具有挑战性？
我拿了这段代码github.com/h2oai/sparkling-water/blob/master/examples/src/main/… 并从中创建了 jar 文件并将其提交给 Spark-Submit 并启动 H2o 流。我在浏览器中打开它并卡在那里，因为它看起来更像一个配置工具。
@mvg 您能否发布一个新问题并提供更多详细信息（您如何创建 jar，您的 spark 提交命令是什么等）。
肯定会关闭这个问题并打开一个新问题。谢谢！！