【发布时间】:2013-05-29 10:16:06
【问题描述】:
我正在使用 4 个核心节点..
我正在使用 hive 对表运行查询。
各种查询似乎都在利用容量。
我的表由 8 个整数字段和大约 1000 行组成。
表格查询
从 tbl 中选择 avg(col1-col2); 从 tbl 中选择计数(*); 以及我尝试过的所有其他查询 正在生产
reducer 数量=1,mapper 数量=1
我尝试过使用 set mapred.reduce.tasks=4;
但它不起作用。
最奇怪的是,当我使用 mapred.job.tracker=local 时,这意味着本地节点本身上的一个 map 和一个 reduce,任务完成的速度是原来的两倍。
除一个之外的所有 reduce/map 插槽始终打开。
为什么增加容量并没有稍微改善执行时间? 我的数据样本是否太小以至于增加容量无关紧要,而本地化映射和缩减实际上可以缩短时间?
【问题讨论】:
-
我没有登录S3。如何检查tasktracjer是否正常工作?