【发布时间】:2015-05-25 21:00:38
【问题描述】:
我正在做一个需要同时运行多个作业(在不同数据上)的项目。
我有一个图表,其中包含许多大小很大的连接组件。我正在为每个连接的组件创建新工作并提交它。这些作业会同时运行还是会排队,并以 FIFO 优先级运行?
当然,我只能创建一个作业并将每个连接的组件发送到每个映射器/减速器,但这会导致程序运行缓慢,因为我正在对每个连接的组件进行大量计算(反转等)
【问题讨论】:
我正在做一个需要同时运行多个作业(在不同数据上)的项目。
我有一个图表,其中包含许多大小很大的连接组件。我正在为每个连接的组件创建新工作并提交它。这些作业会同时运行还是会排队,并以 FIFO 优先级运行?
当然,我只能创建一个作业并将每个连接的组件发送到每个映射器/减速器,但这会导致程序运行缓慢,因为我正在对每个连接的组件进行大量计算(反转等)
【问题讨论】:
除非没有依赖的作业,否则作业将根据集群中的资源可用性同时运行。
当提交更多涉及复杂计算的作业时,只有集群中的资源决定程序运行速度是慢还是快。
【讨论】: