【发布时间】:2014-08-19 02:48:44
【问题描述】:
据我所知,Spark 将每个节点的磁盘(HDFS)中的数据预加载到每个节点的 RDD 中进行计算。但正如我猜测的那样,MapReduce 必须也将数据从 HDFS 加载到内存中,然后在内存中进行计算。那么.. 为什么 Spark 更快? 只是因为每次 MapReduce 想要进行计算而 Spark 预加载数据时,MapReduce 都会将数据加载到内存中?非常感谢。
【问题讨论】:
-
也许你可以从这里找到答案stackoverflow.com/questions/32572529/…
标签: hadoop mapreduce apache-spark