运行 hive 查询，并收集作业信息

【问题标题】：Run hive queries, and collect job information运行 hive 查询，并收集作业信息
【发布时间】：2013-01-30 09:55:03
【问题描述】：

我想运行生成的 HIVE 查询列表。对于每个，我想检索 MR job_id（或 ids，如果有多个阶段）。然后，使用此 job_id，从作业跟踪器收集统计信息（累积 CPU、读取字节...）

如何从 bash 或 python 脚本发送 HIVE 查询，并检索 job_id(s)？

对于第二部分（收集作业的统计信息），我们使用的是 MRv1 Hadoop 集群，所以我没有 AppMaster REST API。我即将从 jobtracker web UI 收集数据。有更好的主意吗？

【问题讨论】：

【解决方案1】：

您可以通过运行此命令获取执行的作业列表，

hadoop 作业 - 列出所有

然后对于每个作业 ID，您可以使用以下命令检索统计信息， hadoop job -status job-id

为了将作业与查询相关联，您可以获取 job_name 并将其与查询匹配。像这样的东西， How to get names of the currently running hadoop jobs?

希望这会有所帮助。

【讨论】：