【发布时间】:2016-05-08 18:54:15
【问题描述】:
我正在通过 hadoop 流运行 map reduce 作业,但它给了我一个错误“参数太多”。问题在于我在输入参数中传递了 1500 多个目录的输入。我无法减少输入文件的数量。
任何建议。
【问题讨论】:
-
你确定它有 1500 个目录吗?符合条件的输入数量应该是 INTEGER.MAX(在 java 中),这将是一个非常大的数字(2^31 -1)。这来自hadoop流jar的源代码——StreamJob.java。你能分享完整的错误细节吗?
-
好吧,我正在使用 hadoop 流,它抱怨命令行参数的数量。
-
Swapnil - 您能否分享更多详细信息,例如确切的命令和确切的错误消息。
-
hadoop streamjar -input dira,dirb,dirc.........
-
多个输入的格式为:hadoop jar hadoop-streaming.jar -input '/user/foo/dir1' -input '/user/foo/dir2' ...
标签: hadoop mapreduce hadoop-streaming