【问题标题】:Import a GitHub repo into Databricks community edition将 GitHub 存储库导入 Databricks 社区版
【发布时间】:2026-01-28 02:10:01
【问题描述】:

我正在尝试从 GitHub 中的公共存储库导入一些数据,以便从我的 Databricks 笔记本中使用它。

到目前为止,我尝试按照here 的描述将我的 Databricks 帐户与我的 GitHub 连接,但没有结果,因为似乎 GitHub 支持附带了一些非社区许可。当我尝试设置 GitHub 集成所需的 GitHub 令牌时收到以下消息:

之前在 Databricks 官方论坛上曾询问过相同的 question

在 databricks 社区版上导入和存储 GitHub 存储库的最佳方式是什么?

【问题讨论】:

    标签: apache-spark github databricks


    【解决方案1】:

    我设法使用笔记本本身的shell 命令解决了这个问题。为了第一次检索存储库,我通过 HTTPS 进行了git clone

    %sh git clone https://github.com/SomeDataRepo/TheData.git --depth 1 --branch=master /dbfs/FileStore/TheData/
    

    为什么不使用 SSH?嗯,SSH 需要设置 SSH 密钥,这在我的情况下是不需要的。

    最后,每次我需要新版本的数据时,我都会在执行程序之前执行git pull

    %sh git -C /dbfs/FileStore/TheData/ pull
    

    【讨论】:

      【解决方案2】:

      假设您在桌面上安装了 python,安装 databricks cli,将 git repo 克隆到本地,然后使用工作区 cli 将整个 repo 作为目录导入。

      https://docs.databricks.com/dev-tools/cli/workspace-cli.html

      【讨论】:

      • 您好,谢谢,社区版我没能做到这一点。 Databricks 门户不允许我创建 databricks cli 所需的令牌。你能确认它对你的情况有效吗?
      • 所以你有 Azure 许可证?我这里只指databricks社区版
      • 似乎不是社区版的选项