【发布时间】:2015-06-09 14:45:09
【问题描述】:
我注意到,当我的查询使用具有多个字段的“分组依据”时,Impala“估计的每主机要求”可能会增长。我想它会计算加入所需的最大资源:
EXPLAIN select field1, field2
from mytable where field1=123
group by field1, field2
order by field1, field2
limit 100;
我想知道是否有办法降低 Impala 的估计值,因为实际需要的资源 (300 MB) 远低于估计的数量 (300 GB)。
重要的是说“field1”和“field2”是String。
【问题讨论】:
-
您是否将 Impala 与 Llama 和 Yarn 一起使用,问题是 Impala 最终请求 300GB?
-
是的,我在有和没有 Llama 和 Yarn 的情况下都对其进行了测试。在这两种情况下,与实际使用的内存相比,估计的内存都非常大。重要的是说“field1”和“field2”是String。
标签: memory resources hadoop-yarn impala