【发布时间】:2013-02-06 13:51:47
【问题描述】:
我正在尝试通过三个步骤来实现一个 mapreduce 作业,并且在每个步骤之后,我都需要到目前为止所有步骤中的数据。有没有人有关于如何将映射器或减速器的结果保存到mrjob中的磁盘的示例/想法?
【问题讨论】:
我正在尝试通过三个步骤来实现一个 mapreduce 作业,并且在每个步骤之后,我都需要到目前为止所有步骤中的数据。有没有人有关于如何将映射器或减速器的结果保存到mrjob中的磁盘的示例/想法?
【问题讨论】:
您可以将多个输入传递给一个作业,只需将前一个作业的输出作为输入。
当您说要将结果保存到磁盘时,听起来您是在依赖将输出流式传输回标准输出?这种行为只是一种方便(并且可以关闭),MRJob 一切都会从磁盘反弹。
对于一个两阶段的工作,你可以这样做:
job1 = firstMR(['-r', mode, inputDir, '-o', outputDir, '--no-output'])
job1.set_up_logging()
with job1.make_runner() as runner1:
runner1.run()
firstOutput = runner1.get_output_dir()
job2 = secondMR(['-r', mode, firstOutput, anyOtherInput, '-o', finalOutputDir, '--no-output'])
job2.set_up_logging()
with job2.make_runner() as runner2:
runner2.run()
注意事项:
如果您遇到任何障碍,请告诉我,它应该相对简单。
【讨论】:
with job1.make_runner() as runner1: ,那么离开with范围后firstOutput目录不会被清理吗? job2 不应该在 job1 with 语句的范围内吗?参考:pythonhosted.org/mrjob/…