【发布时间】:2017-12-11 05:02:58
【问题描述】:
如果我只有 1 个内存为 25 GB 的执行程序,并且它一次只能运行一个任务,那么是否可以处理(转换和操作)1 TB 数据,如果是,那么它将如何读取以及中间数据在哪里会被存储吗?
对于同样的场景,如果 hadoop 文件有 300 个输入拆分,那么 RDD 中将有 300 个分区,那么在这种情况下,这些分区在哪里? 它会只保留在 hadoop 磁盘上,我的单个任务将运行 300 次吗?
【问题讨论】:
标签: apache-spark