【发布时间】:2012-01-10 02:11:49
【问题描述】:
在我工作的公司,每天我们必须处理数千个文件,这需要几个小时。这些操作基本上是 CPU 密集型的,例如将 PDF 转换为高分辨率图像,然后创建许多不同大小的此类图像。
这些任务中的每一项都占用大量 CPU,因此我们不能简单地在同一台机器上启动多个实例,因为没有任何处理能力可用于所有任务。因此,完成所有事情需要几个小时。
在我看来,最明显的做法是对文件集进行分区,让更多机器同时处理它们(5、10、15 台机器,我还不知道需要多少台) .
我不想重新发明轮子并为任务创建管理器(我也不想麻烦),但我不确定应该使用哪个工具。
虽然我们没有大数据,但我首先研究了 Hadoop(我们在 Amazon 运行),它处理节点的能力似乎很有趣。但是,我不知道使用它是否有意义。我也在看 Hazelcast,但我对它或概念完全没有经验。
什么是完成这项任务的好方法?
【问题讨论】:
标签: hadoop mapreduce parallel-processing