【发布时间】:2012-05-30 02:15:09
【问题描述】:
我有一个多阶段/作业 mapreduce 程序。我的第一个输入必须是 TextInputFormat,最后一个输出必须是 TextOutputFormat。我想要实现的是在第一个 Job 中将格式从 Text 转换为 SequenceFile。因此:
TextInputFormat
Job1.execute()
SequenceFileOutputFormat
SequenceFileInputFormat
Job2.execute()
SequenceFileOutputFormat
...
SequenceFileInputFormat
JobLast.execute()
TextOutputFormat
在所有示例中,我发现这是通过创建一个额外的作业来实现的,该作业只是将输入写入一个 SequenceFile,另一个读取 SequenceFile 并将其以不同的格式存储。这可以在不使用额外工作的情况下完成吗?我可以这样做吗:
conf.setInputFormat(TextInputFormat.class);
conf.setOutputFormat(SequenceFileOutputFormat.class);
当作业实际执行其计算时。我如何在不创建两个额外作业(写入和读取)的情况下实现这一点。
问题已解决,我在代码中的错误,对此感到抱歉。
【问题讨论】:
标签: hadoop format mapreduce transformation