【发布时间】:2017-04-13 17:49:35
【问题描述】:
我写了一个 MapReduce 程序(mapper.py 和 reducer.py)来处理 Hadoop 中的 PageRank 问题。
我想迭代 MapReduce 大约 10 次迭代。如何将第一轮 MapReduce 的输出作为第二轮 MapReduce 的输入?
1 2 10
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result
【问题讨论】:
-
Apache Spark GraphX 内置了 PageRank
标签: python hadoop mapreduce hadoop-streaming