【发布时间】:2013-07-10 02:29:34
【问题描述】:
我有一个主节点和两个数据节点,它们位于不同的服务器中。对于这两个数据节点,每个节点在自己的 HDFS 中都有一个日志文件。现在我想运行 Hadoop 在主节点上进行映射/减少,输入应该是来自两个数据节点的 HDFS 的两个日志文件。我可以这样做吗?如果可以,我该如何设置输入路径? (例如 hadoop jar wordcount.jar datanode1/input/logfile1 datanode2/input/logfile2 输出......像这样?)是否有可能来自不同服务器中不同datanode的HDFS的输入?
【问题讨论】: