【发布时间】:2013-12-09 19:45:53
【问题描述】:
我正在使用 apache spark 0.8.0 处理一个大数据文件,并对RDD 执行一些基本的.map 和.reduceByKey 操作。
由于我使用的是具有多个处理器的单机,我在创建 SparkContext 时在主 URL 字段中提到了 local[8]
val sc = new SparkContext("local[8]", "Tower-Aggs", SPARK_HOME )
但每当我提到多个处理器时,作业都会随机卡住(暂停/停止)。卡住的地方没有确定的,只是随机的。有时它根本不会发生。我不确定它是否会在此之后继续,但它会卡住很长时间,之后我中止了工作。
但是当我只使用local 代替local[8] 时,作业可以无缝运行而不会卡住。
val sc = new SparkContext("local", "Tower-Aggs", SPARK_HOME )
我无法理解问题出在哪里。
我正在使用Scala 2.9.3 和sbt 来构建和运行应用程序
【问题讨论】:
-
我在 Spark 1.4.1 上看到了同样的问题。 @Vijay 你解决了吗?
-
我发现分配的进程 (k) 多于机器上的逻辑核心数通常会导致此问题。尝试给出较小的数字。 @YohanLiyanage
-
谢谢@Vijay。我会调查的。
标签: scala sbt apache-spark