【发布时间】:2012-08-31 10:14:41
【问题描述】:
我在 Hive 中运行一个非常简单的查询,但我不断超过 GC 超时和 OOM 错误,
查询的形式
选择 a.field1 -- 选择大约 30 列! 从表 1 t1 在 t1.field2 = t2.field2 和 t1.date = '20120801' 上加入 table2 t2 在 t1.field7 = t2.field2 和 t1.date = '20120801' 上加入 table2 t3
我正在从此查询中选择大约 30 个字段。 table1 按日期分区,包含大约 300,000 条记录。 table2 包含大约 100 条记录。
有什么方法可以优化这个查询吗?
【问题讨论】:
标签: exception optimization garbage-collection hive