【发布时间】:2017-11-26 23:20:56
【问题描述】:
我们目前正在使用 Datapipeline 中的 HadoopActivity 任务在 EMR 集群上运行并行 Spark 作业。默认情况下,较新版本的 EMR 集群将 spark 动态分配设置为 true,这将根据负载增加/减少所需的执行器数量。那么我们是否需要设置任何其他属性以及 spark-submit 例如核心数量、执行器内存等,还是让 EMR 集群动态处理它最好?
【问题讨论】:
-
如何使用 HadoopActivity 运行 Spark 作业?我正在使用 EmrActivity,但无法使用 Steps API 运行并行作业
标签: apache-spark parallel-processing emr amazon-data-pipeline