如何在 Hadoop 中迭代 MapReduce？（语言：python）答案

【问题标题】：How to iterate MapReduce in Hadoop? (lang: python)如何在 Hadoop 中迭代 MapReduce？（语言：python）
【发布时间】：2017-04-13 17:49:35
【问题描述】：

我写了一个 MapReduce 程序（mapper.py 和 reducer.py）来处理 Hadoop 中的 PageRank 问题。

我想迭代 MapReduce 大约 10 次迭代。如何将第一轮 MapReduce 的输出作为第二轮 MapReduce 的输入？

       1                    2                           10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result

【问题讨论】：

【解决方案1】：

您可以将 job1 的输出链接为 job2 的输入。

inputdir1 -> outputdir1 -> outputdir2 ... -> outputdir9 -> outputdir10

【讨论】：