【问题标题】:How to iterate MapReduce in Hadoop? (lang: python)如何在 Hadoop 中迭代 MapReduce? (语言:python)
【发布时间】:2017-04-13 17:49:35
【问题描述】:

我写了一个 MapReduce 程序(mapper.py 和 reducer.py)来处理 Hadoop 中的 PageRank 问题。

我想迭代 MapReduce 大约 10 次迭代。如何将第一轮 MapReduce 的输出作为第二轮 MapReduce 的输入?

       1                    2                           10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result

【问题讨论】:

  • Apache Spark GraphX 内置了 PageRank

标签: python hadoop mapreduce hadoop-streaming


【解决方案1】:

您可以将 job1 的输出链接为 job2 的输入。

inputdir1 -> outputdir1 -> outputdir2 ... -> outputdir9 -> outputdir10

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多