【发布时间】:2015-01-30 05:54:04
【问题描述】:
我对 hadoop 很陌生。
目前我有一个映射器、一个reducer 和一个combiner。
我可以做cat file | mapper.py | reducer.py | combiner.py 来产生结果。并且还原阶段是令人尴尬的并行化。那么,鉴于我有一个 hadoop 集群,谁能告诉我如何让它适应 hadoop 流?
【问题讨论】:
-
reducer和combiner如果操作在 reducer 中是可交换和关联的,则代码相同。你可以参考this
标签: python hadoop mapreduce hadoop-streaming