【问题标题】:Run hive queries, and collect job information运行 hive 查询,并收集作业信息
【发布时间】:2013-01-30 09:55:03
【问题描述】:

我想运行生成的 HIVE 查询列表。 对于每个,我想检索 MR job_id(或 ids,如果有多个阶段)。 然后,使用此 job_id,从作业跟踪器收集统计信息(累积 CPU、读取字节...)

如何从 bash 或 python 脚本发送 HIVE 查询,并检索 job_id(s)?

对于第二部分(收集作业的统计信息),我们使用的是 MRv1 Hadoop 集群,所以我没有 AppMaster REST API。我即将从 jobtracker web UI 收集数据。有更好的主意吗?

【问题讨论】:

    标签: hadoop automation hive


    【解决方案1】:

    您可以通过运行此命令获取执行的作业列表,

    hadoop 作业 - 列出所有

    然后对于每个作业 ID,您可以使用以下命令检索统计信息, hadoop job -status job-id

    为了将作业与查询相关联,您可以获取 job_name 并将其与查询匹配。 像这样的东西, How to get names of the currently running hadoop jobs?

    希望这会有所帮助。

    【讨论】:

    • hadoop 脚本已被 mapred 弃用,因此现在最好使用以下命令。 $ mapred job -status job-id
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-10-07
    • 1970-01-01
    • 2019-05-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多