【发布时间】:2015-07-10 00:40:27
【问题描述】:
所以假设我有一个具有 100 GB 内存的集群供 spark 使用。我有一个 2000 GB 的数据集,并且想要运行这个数据集的迭代应用程序。 200 次迭代。
我的问题是,当使用 .cache() 时,spark 会将前 100 GB 保留在内存中并执行 200 次迭代,然后再自动读取下一个 100 GB?
在内存限制范围内工作时,sparks 的优势非常明显,但在处理更大的数据集时,我并不完全确定 spark 和 yarn 是如何管理数据的。
【问题讨论】:
标签: memory apache-spark ram