【问题标题】:how to write mapreduce code for hive query如何为 hive 查询编写 mapreduce 代码
【发布时间】:2014-05-26 07:40:52
【问题描述】:

如何编写map reduce代码

  1. 从表中选择 *
  2. 用于左外连接

因为 hive ql 需要很长时间。对于 1 GB 的数据,它需要将近 10 分钟。

combiner 和 shuffle 如何在内部工作?

【问题讨论】:

    标签: hadoop mapreduce hive


    【解决方案1】:

    1) 您应该开始使用 EXPLAIN 或 EXPLAIN EXTENDED 命令,该命令显示 Hive 如何将查询转换为 Mapreduce 作业。

    Hive 主要为以下操作启动 MapReduce 作业-

    数据过滤、数据聚合(最小值、最大值、平均值)、表的联接/产品和交集、排序等。 您首先学习如何在 MapReduce 中实现上述算法/模式。

    2) 我建议您阅读本书Join Algorithm using Map-Reduce,以更好地了解如何使用 MapR 连接数据集。 Hive 遵循相同的模式来连接表(数据集)。

    3)Combiner、Shuffle 和 sort 阅读《Oreilly Hadoop The Definitive Guide Tom White - 第 6 章》一书

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-07-31
      • 2021-11-04
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多