如何为 hive 查询编写 mapreduce 代码答案

【问题标题】：how to write mapreduce code for hive query如何为 hive 查询编写 mapreduce 代码
【发布时间】：2014-05-26 07:40:52
【问题描述】：

如何编写map reduce代码

因为 hive ql 需要很长时间。对于 1 GB 的数据，它需要将近 10 分钟。

combiner 和 shuffle 如何在内部工作？

【问题讨论】：

【解决方案1】：

1) 您应该开始使用 EXPLAIN 或 EXPLAIN EXTENDED 命令，该命令显示 Hive 如何将查询转换为 Mapreduce 作业。

Hive 主要为以下操作启动 MapReduce 作业-

数据过滤、数据聚合（最小值、最大值、平均值）、表的联接/产品和交集、排序等。您首先学习如何在 MapReduce 中实现上述算法/模式。

2) 我建议您阅读本书Join Algorithm using Map-Reduce，以更好地了解如何使用 MapR 连接数据集。 Hive 遵循相同的模式来连接表（数据集）。

3）Combiner、Shuffle 和 sort 阅读《Oreilly Hadoop The Definitive Guide Tom White - 第 6 章》一书

【讨论】：