【问题标题】:Azure Databrics - Running a Spark Jar from Gen2 DataLake StorageAzure Databricks - 从 Gen2 Data Lake Storage 运行 Spark Jar
【发布时间】:2020-01-13 01:14:26
【问题描述】:

我正在尝试从 Azure Databrics 运行 spark-submit。目前我可以创建一个作业,将 jar 上传到 Databrics 工作区中,然后运行它。

我的查询是:

  1. 有没有办法访问 GEN2 DataLake 存储上的 jar 并从 Databrics 工作区甚至从 Azure ADF 进行 spark-submit? (因为工作区和 GEN2 存储之间的通信受到保护“fs.azure.account.key”)

  2. 有没有办法从 databrics 笔记本进行 spark-submit?

【问题讨论】:

标签: scala azure apache-spark azure-databricks


【解决方案1】:

有没有办法访问驻留在 GEN2 DataLake 存储和 从 Databrics 工作区,甚至从 Azure ADF 进行 spark-submit? (因为工作区和 GEN2 存储之间的通信是 protected "fs.azure.account.key") 不幸的是,您无法访问 jar 驻留在 Azure 存储上,例如 ADLS Gen2/Gen1 帐户。

注意: --jars、--py-files、--files 参数支持 DBFSS3 路径。

Jar 库通常存储在 dbfs:/FileStore/jars 下。

您需要在dbfs中上传库并作为jar活动中的参数传递。

更多详情请参考“Transform data by running a jar activity in Azure Databricks using ADF”。

有没有办法从 databricks 笔记本进行 spark-submit?

要回答第二个问题,您可以参考以下职位类型:

参考:SparkSubmit 和“Create a job

希望这会有所帮助。


如果这回答了您的问题,请点击“标记为答案”和“投票”。如果您有任何进一步的疑问,请告诉我们。

【讨论】:

  • 感谢您的回复。在我的帖子中,我提到我已经能够做到这一点。想要寻找一种方法来进行正常的 Spark 提交,就像我们从脚本或 Jupyter 笔记本中所做的那样。
【解决方案2】:

最后我想出了如何运行它:

  1. 您可以从 ADF 运行 Databricks jar,并将其附加到现有集群,该集群将在集群中配置 adls 键。

  2. 无法从笔记本进行 spark-submit。但是你可以在jobs中创建一个spark job,或者你可以使用Databricks Run Sumbit api,来做一个spark-submit。

【讨论】:

    猜你喜欢
    • 2019-09-10
    • 2020-07-21
    • 1970-01-01
    • 2021-10-02
    • 1970-01-01
    • 2020-01-01
    • 2020-12-01
    • 2019-12-02
    • 1970-01-01
    相关资源
    最近更新 更多