【问题标题】:Execute pyspark code on dbfs on existing interactive databricks cluster在现有交互式数据块集群上的 dbfs 上执行 pyspark 代码
【发布时间】:2025-12-01 12:25:02
【问题描述】:

我正在研究 Azure Databricks。目前我的 Pyspark 项目在“dbfs”上。我配置了一个 spark-submit 作业来执行我的 Pyspark 代码(.py 文件)。但是,根据 Databricks 文档,火花提交作业只能在新的自动化集群上运行(可能是设计使然)。

有没有办法在现有的交互式集群上运行我的 Pyspark 代码?

我还尝试从 %sh 单元格中的笔记本运行 spark-submit 命令,但没有用。

【问题讨论】:

    标签: apache-spark pyspark databricks azure-databricks


    【解决方案1】:

    默认情况下,当您创建作业时,集群类型选择为“新建自动化集群”。

    您可以配置集群类型以在自动集群或现有交互式集群之间进行选择。

    配置作业的步骤:

    选择作业 => 点击集群 => 编辑按钮并选择“Existing interactive cluster”并选择集群。

    【讨论】:

    • 嗨。仅当工作类型是笔记本时才有效。如果它的 spark 提交作业,它就不起作用。请更改作业以执行 spark 提交任务以了解更改。
    • 您好,您可以使用作业使用 spark-submit 配置和执行 pyspark 代码。
    • 您好,感谢您的回复。是的,我们目前安排了一个 spark 提交作业来运行 Pyspark 代码。但似乎,火花提交作业不能在现有的交互式集群上运行。有没有办法在现有集群上运行 spark submit?