【发布时间】:2014-05-26 07:40:52
【问题描述】:
如何编写map reduce代码
- 从表中选择 *
- 用于左外连接
因为 hive ql 需要很长时间。对于 1 GB 的数据,它需要将近 10 分钟。
combiner 和 shuffle 如何在内部工作?
【问题讨论】:
如何编写map reduce代码
因为 hive ql 需要很长时间。对于 1 GB 的数据,它需要将近 10 分钟。
combiner 和 shuffle 如何在内部工作?
【问题讨论】:
1) 您应该开始使用 EXPLAIN 或 EXPLAIN EXTENDED 命令,该命令显示 Hive 如何将查询转换为 Mapreduce 作业。
Hive 主要为以下操作启动 MapReduce 作业-
数据过滤、数据聚合(最小值、最大值、平均值)、表的联接/产品和交集、排序等。 您首先学习如何在 MapReduce 中实现上述算法/模式。
2) 我建议您阅读本书Join Algorithm using Map-Reduce,以更好地了解如何使用 MapR 连接数据集。 Hive 遵循相同的模式来连接表(数据集)。
3)Combiner、Shuffle 和 sort 阅读《Oreilly Hadoop The Definitive Guide Tom White - 第 6 章》一书
【讨论】: