【发布时间】:2010-01-24 18:33:19
【问题描述】:
我想构建一个 hadoop 应用程序,它可以从一个文件中读取单词并在另一个文件中搜索。
如果单词存在 - 它必须写入一个输出文件 如果单词不存在 - 它必须写入另一个输出文件
我在 hadoop 中尝试了一些示例。我有两个问题
两个文件每个大约 200MB。检查另一个文件中的每个单词可能会导致内存不足。有没有其他方法可以做到这一点?
如何将数据写入不同的文件,因为hadoop的reduce阶段的输出只写入一个文件。是否有可能有一个减少阶段的过滤器来将数据写入不同的输出文件?
谢谢。
【问题讨论】:
-
嗨,我必须实现几乎和你一样的东西,但我是 hadoop 初学者,真的无法做到这一点:/ 请你看看我的问题并给我一些反馈,我真的很挣扎,无法得到任何帮助:/ stackoverflow.com/questions/2986271/…