【发布时间】:2017-10-19 21:01:49
【问题描述】:
我们已经编写了一些代码,通过使用 Spark 1.6.1 和 Scala 2.10 的 Scala 编写的 GraphX 加入和链接数据集。
如果我们在 spark-shell 中运行此代码,它将在 30 分钟内完成,其中有 10 个执行器、10g 内存和每个执行器 5 个 cpu。
如果我们使用 spark-submit 在一个胖 jar 中运行它,那么该过程会因内存不足错误而崩溃,并且需要一个半小时才能到达该点。
有人知道是什么原因造成的吗?
有人知道如何在 shell 中设置 SparkContext 和 SQLContext 吗?如果我们在设置自己的上下文时遗漏了任何可能导致 spark-submit 运行如此糟糕的问题?
【问题讨论】:
标签: scala apache-spark spark-graphx