【问题标题】:Optimise Hive Query in order to avoid exceeded GC timeout exception优化 Hive Query 以避免超过 GC 超时异常
【发布时间】:2012-08-31 10:14:41
【问题描述】:

我在 Hive 中运行一个非常简单的查询,但我不断超过 GC 超时和 OOM 错误,

查询的形式

选择 a.field1 -- 选择大约 30 列! 从表 1 t1 在 t1.field2 = t2.field2 和 t1.date = '20120801' 上加入 table2 t2 在 t1.field7 = t2.field2 和 t1.date = '20120801' 上加入 table2 t3

我正在从此查询中选择大约 30 个字段。 table1 按日期分区,包含大约 300,000 条记录。 table2 包含大约 100 条记录。

有什么方法可以优化这个查询吗?

【问题讨论】:

    标签: exception optimization garbage-collection hive


    【解决方案1】:

    用 Mapjoin 玩了几个小时,终于让它工作了

    添加提示 SELECT /+ MAPJOIN(t2,t3)/

    查询现在在几秒钟内运行

    【讨论】:

      猜你喜欢
      • 2015-12-11
      • 2012-12-07
      • 1970-01-01
      • 1970-01-01
      • 2018-04-10
      • 2018-04-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多