【发布时间】:2017-07-07 16:29:30
【问题描述】:
我在 tableA.col1=tableB.col1 和 tableA.col2=tableB.col2 上运行类似 tableA 左连接 tableB 的配置单元查询。 tableA 有 18 亿条数据,tableB 有 3100 万条记录。现在我加入的最后一个减速器没有完成,它运行了很长时间。
可能是因为数据偏斜。我确实尝试了 MAPJOIN,但由于 tableA 的数据量很大,查询失败了。还有其他选择可以更好地处理吗?
我可以看到长时间运行的任务如下
reduce > copy task(attempt_1498868574233_185232_m_001336_0 succeeded at 8.94 MB/s) Aggregated copy rate(1121 of 2532 at 108.94 MB/s)
在这一步中它到底想做什么?
【问题讨论】:
-
@leftjoin,无需手动解决。 Hive 支持倾斜连接。
标签: performance hive