【发布时间】:2014-08-08 06:47:08
【问题描述】:
在 mapreduce 中的普通 wordcount 程序中,我们是否需要设置任何 shuffle 和 sort 方法,或者框架会处理这些?
【问题讨论】:
在 mapreduce 中的普通 wordcount 程序中,我们是否需要设置任何 shuffle 和 sort 方法,或者框架会处理这些?
【问题讨论】:
框架会处理这个问题。 混洗是将数据从映射器传输到reducer的过程,reducer按中间键(单词)的升序(字典)顺序减少数据。
您可以更改默认设置,但无需在字数统计程序中进行。 您只需要设置一个映射器和一个reducer 以及可选的(但确实有助于提高速度)一个组合器。
甚至不需要自己实现一个映射器和一个reducer,因为hadoop自带了wordcount mapper(TokenCounterMapper)和reducer(IntSumReducer,也可以用作combiner)这样的实现。
【讨论】: