【发布时间】:2017-06-19 18:07:25
【问题描述】:
我在亚马逊的 EMR 集群上同时运行 3 个 Spark Streaming 进程。问题是这三个 Spark Streaming 作业之一基于toLocalIterator 进行处理:
dstreamdata.foreachRDD(entry => {
entry.toLocalIterator.foreach
我注意到它卡住了(看起来它缺少资源左右),但它没有返回任何错误,只是没有对数据进行任何处理。
我对每个作业使用spark-submit 的以下参数:
spark-submit --deploy-mode cluster --executor-cores 6 --executor-memory 10g --num-executors 2 --conf spark.yarn.submit.waitAppCompletion=false --queue queue_name_of_spark_job
知道如何在不更改代码的情况下解决此问题吗?
【问题讨论】:
标签: apache-spark spark-streaming