【发布时间】:2018-12-16 14:45:41
【问题描述】:
我有以下 rdds:
case class Rating(user_ID: Integer, movie_ID: Integer, rating: Integer, timestamp: String)
case class Movie(movie_ID: Integer, title: String, genre: String)
我在 scala 中将它们连接在一起,例如:
val m = datamovie.keyBy(_.movie_ID)
val r = data.keyBy(_.movie_ID)
val mr = m.join(r)
我得到了像RDD[(Int, (Movie, Rating))]这样的结果
例如,如何打印评级为 5 的电影的图块。我不确定如何使用通过 join 创建的新 rdd!
【问题讨论】:
-
请分享示例数据集。
标签: scala apache-spark rdd