Python开发MapReduce系列（一）WordCount Demo

　原创，转发请注明出处。

　　MapReduce是hadoop这只大象的核心，Hadoop 中，数据处理核心就是 MapReduce 程序设计模型。一个Map/Reduce 作业（job） 通常会把输入的数据集切分为若干独立的数据块，由 map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。因此，我们的编程中心主要是 mapper阶段和reducer阶段。

下面来从零开发一个MapReduce程序，并在hadoop集群上运行。
mapper代码 map.py：

 import sys
    
    for line in sys.stdin:
        word_list = line.strip().split(' ')    
        for word in word_list:
            print '\t'.join([word.strip(), str(1)])

View Code