【发布时间】:2011-03-08 08:03:08
【问题描述】:
我有一个我希望分发的系统,我希望在其中以分布式方式处理许多非常大的不可分割的二进制文件。这些是几百 Gb 的数量级。由于各种固定的、特定于实现的原因,这些文件不能并行处理,而必须由同一进程按顺序处理直到结束。
该应用程序是用 C++ 开发的,所以我会考虑使用 Hadoop 管道将数据流进出。每个实例都需要按顺序处理 100Gb 到 200Gb 的自身数据(当前存储在一个文件中),并且应用程序当前(可能)受到 IO 限制,因此每个作业都完全在本地运行非常重要。
我非常热衷于 HDFS 来托管这些数据 - 自动维护冗余副本和在添加新节点时重新平衡的能力将非常有用。我也热衷于 map reduce,因为它计算简单,并且要求尽可能靠近数据托管计算。但是,我想知道 Hadoop 是否适合这个特定的应用程序。
我知道,为了表示我的数据,可以生成不可拆分的文件,或者生成巨大的序列文件(在我的情况下,单个文件的大小约为 10Tb - 我应该打包所有文件吗?我的数据合二为一)。因此 可能 使用 Hadoop 处理我的数据。但是,我的模型似乎不太适合 Hadoop:社区是否同意?或者有建议以最佳方式布置这些数据?甚至对于可能更适合该模型的其他集群计算系统?
这个问题可能与 hadoop 上的现有问题重复,但除了我的系统需要每个单个文件一个数量级或两个以上的数据(以前我看到过关于几个 Gb 的单个文件的问题在尺寸方面)。因此,如果之前已经回答过这个问题,请原谅我 - 即使对于这种大小的数据。
谢谢,
亚历克斯
【问题讨论】:
标签: hadoop mapreduce hdfs cluster-computing