在现有交互式数据块集群上的 dbfs 上执行 pyspark 代码

【问题标题】：Execute pyspark code on dbfs on existing interactive databricks cluster在现有交互式数据块集群上的 dbfs 上执行 pyspark 代码
【发布时间】：2025-12-01 12:25:02
【问题描述】：

我正在研究 Azure Databricks。目前我的 Pyspark 项目在“dbfs”上。我配置了一个 spark-submit 作业来执行我的 Pyspark 代码（.py 文件）。但是，根据 Databricks 文档，火花提交作业只能在新的自动化集群上运行（可能是设计使然）。

有没有办法在现有的交互式集群上运行我的 Pyspark 代码？

我还尝试从 %sh 单元格中的笔记本运行 spark-submit 命令，但没有用。

【问题讨论】：

标签： apache-spark pyspark databricks azure-databricks

【解决方案1】：

默认情况下，当您创建作业时，集群类型选择为“新建自动化集群”。

您可以配置集群类型以在自动集群或现有交互式集群之间进行选择。

配置作业的步骤：

选择作业 => 点击集群 => 编辑按钮并选择“Existing interactive cluster”并选择集群。

【讨论】：

嗨。仅当工作类型是笔记本时才有效。如果它的 spark 提交作业，它就不起作用。请更改作业以执行 spark 提交任务以了解更改。
您好，您可以使用作业使用 spark-submit 配置和执行 pyspark 代码。
您好，感谢您的回复。是的，我们目前安排了一个 spark 提交作业来运行 Pyspark 代码。但似乎，火花提交作业不能在现有的交互式集群上运行。有没有办法在现有集群上运行 spark submit？