【问题标题】:scala spark rdd joing two tables with the same idscala spark rdd 连接两个具有相同 id 的表
【发布时间】:2018-12-16 14:45:41
【问题描述】:

我有以下 rdds:

case class Rating(user_ID: Integer, movie_ID: Integer, rating: Integer, timestamp: String)
case class Movie(movie_ID: Integer, title: String, genre: String)

我在 scala 中将它们连接在一起,例如:

val m = datamovie.keyBy(_.movie_ID)
val r = data.keyBy(_.movie_ID)
val mr = m.join(r)  

我得到了像RDD[(Int, (Movie, Rating))]这样的结果 例如,如何打印评级为 5 的电影的图块。我不确定如何使用通过 join 创建的新 rdd!

【问题讨论】:

  • 请分享示例数据集。

标签: scala apache-spark rdd


【解决方案1】:

将它们转换为 spark 数据框并执行连接。您是否有特定原因想要保留 em RDD 的

val m = datamovie.toDF
val r = data.toDF
val mr = m.join(r, Seq("movie_id"), "left").where($"rating" === "5").select($"title")

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-09-06
    • 2016-09-07
    • 2021-11-25
    • 2020-11-26
    • 2022-01-11
    • 2015-10-18
    相关资源
    最近更新 更多