【发布时间】:2019-06-03 11:12:53
【问题描述】:
我们有一个在大约 5 TB 大小的表/视图上运行的简单查询。我们正在执行 ETL,最后通过添加分区将数据添加到核心表中。
但由于我们正在处理的数据非常庞大,因此查询会产生 4000 多个映射器和 1000 多个缩减器。查询也会运行 40 多分钟。
如何提高/减少资源利用率?
查询:
insert overwrite table dss.prblm_mtrc partition (LOAD_DT) select *, '2019-01-02' as LOAD_DT from dss.v_prblm_mtrc_stg_etl
【问题讨论】:
标签: hadoop hive hdfs query-optimization apache-tez