【问题标题】:What is a job history server in Hadoop and why is it mandatory to start the history server before starting Pig in Map Reduce mode?什么是 Hadoop 中的作业历史服务器,为什么在 Map Reduce 模式下启动 Pig 之前必须启动历史服务器?
【发布时间】:2019-03-23 03:52:23
【问题描述】:

在以 map reduce 模式启动 Pig 之前,您总是必须在尝试执行 Pig Latin 语句时启动历史服务器,否则会生成下面提到的日志:

  2018-10-18 15:59:13,709 [main] INFO 
  org.apache.hadoop.mapred.ClientServiceDelegate - Application state 
  is completed. FinalApplicationStatus=SUCCEEDED. **Redirecting to job 
  history server**

  2018-10-18 15:59:14,713 [main] INFO  org.apache.hadoop.ipc.Client - 
  Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 
  time(s); retry policy is 

  RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 
  MILLISECONDS)

如上日志所示 Pig Execution engine is trying to connect with the history server 请解释一下作业历史服务器在Hadoop中的作用以及为什么需要与Pig中的历史服务器建立连接以进行Map Reduce工作

【问题讨论】:

    标签: hadoop mapreduce bigdata apache-pig history


    【解决方案1】:

    JobTracker 或 ResourceManager 将所有作业信息保存在内存中。对于已完成的作业,它会删除它们以避免内存不足。这些过去工作的跟踪委托给 JobHistory 服务器。

    Pig 客户端在其作业完成时提取作业计数器统计信息。 Stats 可能仍然存在于 JobTracker/ResourceManager 或 pig 可能需要询问 JobHistory 服务器。当 JobHistory 服务器关闭时,它会打印出这些日志消息,但最终客户端仍应成功但缺少统计信息。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-03-20
      • 2017-08-10
      • 2018-11-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多