【发布时间】:2011-03-25 10:24:51
【问题描述】:
我的任务是为我的公司处理价值数 TB 的 SCM 数据。我建立了一个 hadoop 集群并有一个脚本来从我们的 SCM 服务器中提取数据。
由于我通过流接口批量处理数据,我遇到了 O'Reilly 的 Hadoop 书籍似乎没有解决的块大小问题:跨越两个块的数据会发生什么? wordcount 示例如何解决这个问题?到目前为止,为了解决这个问题,我们已经使输入文件小于 64mb。
在考虑 reducer 脚本时,问题又出现了;来自地图的聚合数据如何存储?减少时会出现问题吗?
【问题讨论】:
标签: filesystems hadoop