【发布时间】:2018-07-03 12:14:58
【问题描述】:
在不讨论所有其他性能因素、磁盘空间和名称节点对象的情况下,复制因素如何提高 MR、Tez 和 Spark 的性能。
如果我们有例如 5 个数据节点,执行引擎将复制设置为 5 是否更好?什么是最好和最差的价值?
这对聚合、连接和仅映射作业有什么好处?
【问题讨论】:
-
数据局部性减少网络 I/O
标签: apache-spark hadoop mapreduce hdfs distributed-computing