【问题标题】:PySpark application creates many pyspark-shell sessionsPySpark 应用程序创建许多 pyspark-shell 会话
【发布时间】:2017-09-08 17:10:21
【问题描述】:

我已经开始使用 Python 开发 Spark。我正在开发一个使用 SparkML 线性回归 API 的应用程序。当我在 YARN 集群模式下提交作业时,在执行阶段,许多 pyspark-shell 应用程序都以 YARN 作为用户创建。我可以在 YARN UI 中看到它们。他们最终以成功状态完成,而我实际提交的主要应用程序随后以成功状态完成。这是预期的行为吗?这对我来说有点有趣,因为我创建了单例 sparkSession 实例并在整个应用程序中使用它,所以我不知道为什么会创建 pyspark-shell 会话/应用程序。

【问题讨论】:

  • 我也面临这个问题,似乎只发生在某些脚本上
  • 我遇到了同样的问题。你解决了@Sivaprasanna Sethuraman 的问题了吗?这就是我开始会话 SparkSession.builder.appName("app-name").getOrCreate() 的方式

标签: apache-spark pyspark apache-spark-ml


【解决方案1】:

直接的解决方案是使用 sparkContext 而不是 sparkSession。但是看看你的配置行会很有趣,看看你是如何创建会话的,以便能够知道为什么要创建多个应用程序。

我们刚刚从 Spark 1.6 更新到 Spark 2.2,所以我们还没有认真研究 sparkSessions(这是 2+ 中的新功能)。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-11-01
    • 2017-02-25
    • 1970-01-01
    • 2017-10-22
    • 1970-01-01
    • 2016-04-19
    • 2022-01-12
    • 1970-01-01
    相关资源
    最近更新 更多