【问题标题】:Difference between spark-submit vs. SparkSession in python script?python脚本中spark-submit与SparkSession的区别?
【发布时间】:2017-07-27 04:23:10
【问题描述】:

像这样使用 spark-submit 提交 python 脚本与简单地运行带有 python 可执行文件(并导入 SparkSession)的 .py 文件是否有优缺点,或者可能有不同的用例?

from pyspark.sql import SparkSession
spk = SparkSession.builder.master(master).getOrCreate()

基本上,通过python 而不是 spark-submit 运行脚本有什么不同。

【问题讨论】:

标签: apache-spark pyspark


【解决方案1】:

spark-submit 主要是一种方便的方法。它允许您在提交时设置所有所需的配置、环境变量和其他选项。

它还允许您设置 JVM 选项,这些选项无法在正在运行的虚拟机上设置。由于一旦创建 Spark 配置就初始化了 JVM,因此无法从正在运行的 Python 进程中执行相同的操作。

【讨论】:

  • 并行运行后,似乎使用 spark-submit,默认情况下日志记录更详细,并且 spark-submit 还处理失败和成功时的清理工作。
猜你喜欢
  • 1970-01-01
  • 2019-05-22
  • 1970-01-01
  • 2014-12-30
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-01-18
相关资源
最近更新 更多