【发布时间】:2017-05-09 19:42:29
【问题描述】:
我也有这样的 rdd
(aid, session, sessionnew, date)
(55-BHA, 58, 15, 2017-05-09)
(07-YET, 18, 5, 2017-05-09)
(32-KXD, 27, 20, 2017-05-09)
(19-OJD, 10, 1, 2017-05-09)
(55-BHA, 1, 0, 2017-05-09)
(55-BHA, 19, 3, 2017-05-09)
(32-KXD, 787, 345, 2017-05-09)
(07-YET, 4578, 1947, 2017-05-09)
(07-YET, 23, 5, 2017-05-09)
(32-KXD, 85, 11, 2017-05-09)
我想将具有相同辅助的所有内容拆分为一个新的 rdd,然后将其缓存以供以后使用,因此每个唯一辅助一个 rdd。我看到了其他一些答案,但他们正在将 rdds 保存到文件中。在内存中保存这么多 rdds 有问题吗?可能会在 30k+ 左右
我用 spark jobserver 保存缓存的 rdd。
【问题讨论】:
标签: scala apache-spark apache-spark-sql spark-jobserver