【发布时间】:2013-03-28 00:53:16
【问题描述】:
我一直在查看 hadoop 的这个字数统计示例: http://hadoop.apache.org/docs/r1.0.4/mapred_tutorial.html#Source+Code
我对 Map 功能有点困惑。在显示的 map 函数中,它接受 LongWritable 类型的“键”,但该参数从未在 Map 函数的主体中使用。应用程序程序员希望 Hadoop 为这个密钥传递什么?如果 map 函数只是从一行文本或其他东西中解析值,为什么它需要一个键。有人可以给我一个输入需要键和值的例子吗?我只看到地图为 V1 -> (K2, V2)。
另外一个问题:在hadoop的实际实现中,它们是不是有多个reduction step?如果是这样,如果函数是 (K2, V2) -> (K3, V3),hadoop 如何多次应用相同的归约函数?如果再做一次reduction,需要把type (K3, V3)...
谢谢!
【问题讨论】: