【发布时间】:2011-01-09 19:51:29
【问题描述】:
我正在编写一个处理大量数据(千兆字节)的应用程序。我正在考虑将数据拆分到多个硬盘驱动器上并并行读取。我想知道我会遇到什么样的限制——例如,是否可以从 4 个或 8 个硬盘驱动器并行读取,如果磁盘 I/O 是限制因素,我将获得大约 4 或 8 倍的性能?我应该注意什么?指向相关文档的指针也很受欢迎——谷歌并没有出现太多。
编辑:我应该指出我已经研究过 RAID,但性能并没有我希望的那么好。我打算自己用 C/C++ 编写这个。
【问题讨论】:
-
“千兆字节”并不是很多数据,IMO;当你达到 TB 或至少 100 GB 左右时,我会开始考虑这个问题。在此之前,高效的数据结构远比数据分区重要。
-
再看RAID。具体来说,RAID 0 或 10。您是在浪费时间,因为 RAID 完全符合您的要求,而且做得更好。
标签: parallel-processing hard-drive