【问题标题】:Hadoop map/reduce chainingHadoop map/reduce 链接
【发布时间】:2010-11-12 23:58:19
【问题描述】:

我想链接 2 个 Map/Reduce 作业。我正在尝试使用 JobControl 来实现相同的目的。我的问题是-

JobControl 需要 org.apache.hadoop.mapred.jobcontrol.Job 反过来又需要 org.apache.hadoop.mapred.JobConf 已弃用。如何解决这个问题来链接我的 Map/Reduce?

任何人都有更好的链接(级联除外)的想法。

【问题讨论】:

  • 我有同样的问题,我想知道你做了什么来解决这个问题?我最好只使用 hadoop 包而不是使用新包(以及不推荐使用的类:))
  • 我最终没有使用任何链接.. 结果我的问题复杂化了.. 但是我确实将已弃用的 JobConf 用于不同的任务,因为我无法访问任何其他任务日志方式。
  • 你为什么不分享你的解决方案?回答您自己的问题并接受该答案作为您问题的答案。
  • @Gumbo:我没有解决方案,因为我不需要任何链接。

标签: hadoop mapreduce


【解决方案1】:

您可以使用Riffle,它允许您将任意进程链接在一起(任何您粘贴其注释的东西)。

它有一个基本的依赖调度程序,所以它会为你安排和执行你的工作。它是 Apache 许可的。如果您是 Maven 用户,它也在 Conjars repo 上。

我是作者,编写它是为了让 Mahout 和其他自定义应用程序能够拥有一个也与级联流兼容的通用工具。

我也是Cascading 的作者。但是 Cascading 中的 MapReduceFlow + Cascade 对于大多数原始 MR 作业链都非常有效。

【讨论】:

    【解决方案2】:

    Cloudera 有一个名为Oozie 的工作流工具,可以帮助处理这种链接。仅仅让一项工作接二连三地运行可能有点矫枉过正。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2012-07-07
      • 2011-07-21
      • 2014-03-22
      • 1970-01-01
      • 2016-10-25
      • 2023-03-19
      • 1970-01-01
      相关资源
      最近更新 更多