【发布时间】:2011-05-25 00:09:13
【问题描述】:
我需要同时处理大量文件(数千个不同的文件,每个文件的平均大小为 2MB)。
所有信息都存储在一个 (1.5TB) 网络硬盘上,可供大约 30 台不同的机器访问(读取)。为了提高效率,每台机器都将读取(和处理)不同的文件(有数千个文件需要处理)。
每台机器——在从 1.5TB 硬盘上的“传入”文件夹中读取文件后——将处理信息并准备将处理后的信息输出回 1.5 上的“已处理”文件夹TB驱动器。每个文件的处理信息与输入文件的平均大小大致相同(每个文件约 2MB)。
在构建这样一个操作时,是否有任何“做”和“不做”?有 30 台左右的机器同时读取(或写入)信息到同一个网络驱动器是否有问题? (注意:现有文件只会被读取,不会被追加/写入;新文件将从头开始创建,因此不存在多次访问同一文件的问题......)。 有没有我应该预料到的瓶颈?
(如果重要的话,我在所有机器上都使用 Linux、Ubuntu 10.04 LTS)
【问题讨论】:
-
这实际上取决于您对每个文件执行多少处理 - 太少,磁盘访问将成为您的瓶颈。
标签: linux networking hardware hard-drive