【发布时间】:2019-06-26 23:47:51
【问题描述】:
我有一个数据集
case class MyDS ( id: Int, name: String )
我想在不使用 collect 的情况下按顺序获取所有名称。
我浏览了各种帖子,我找到的唯一解决方案是收集。有没有更好的方法不使用收集来做到这一点
下面是我运行的代码,它编译但由于内存而出错
ds.collect().map(x => x.name)
我是 Scala 的新手,因此有些人可能会认为这个问题很愚蠢,但如果有人可以分享一些东西而不会对这个问题投反对票,我将不胜感激
【问题讨论】:
-
为什么需要收集Driver上的数据?是否存在阻止您以分布式方式使用“名称”的技术要求?
标签: scala apache-spark dataset seq