【问题标题】:Databricks: Download a dbfs:/FileStore File to my Local Machine?Databricks:将 dbfs:/FileStore 文件下载到我的本地计算机?
【发布时间】:2022-03-03 23:59:13
【问题描述】:

我正在使用 saveAsTextFile() 将 Spark 作业的结果存储在文件夹 dbfs:/FileStore/my_result 中。

我可以使用网络浏览器访问不同的“part-xxxxx”文件,但我想将所有文件下载到本地计算机的过程自动化。

我曾尝试使用 cURL,但找不到用于下载 dbfs:/FileStore 文件的 RestAPI 命令。

问题:如何将 dbfs:/FileStore 文件下载到本地计算机?

我正在使用 Databricks 社区版在大学教授大数据分析的本科模块。我在本地机器上安装了 Windows 7。我已检查 cURL 和 _netrc 文件是否已正确安装和配置,因为我设法成功运行了 RestAPI 提供的一些命令。

非常感谢您的帮助! 此致, 纳乔

【问题讨论】:

    标签: curl filesystems databricks


    【解决方案1】:

    有几个选项可以将 FileStore 文件下载到本地计算机。

    更简单的选择:

    • 安装Databricks CLI,使用您的Databricks 凭据对其进行配置,然后使用CLI 的dbfs cp 命令。例如:dbfs cp dbfs:/FileStore/test.txt ./test.txt。如果要下载整个文件夹的文件,可以使用dbfs cp -r
    • 从登录到 Databricks 的浏览器中,导航到 https://<YOUR_DATABRICKS_INSTANCE_NAME>.cloud.databricks.com/files/。如果您使用的是 Databricks 社区版,则可能需要使用稍微不同的路径。这种下载方法在FileStore docs中有更详细的描述。

    高级选项:

    • 使用DBFS REST API。您可以使用read API 调用访问文件内容。要下载大文件,您可能需要发出多个 read 调用来访问完整文件的各个块。

    【讨论】:

    • 嗨乔希,非常感谢你,你的回答解决了这个问题。我现在可以使用 CLI 访问这些文件。再次感谢你!纳乔
    • 嗨@Nacho Castiñeiras 你能分享一下步骤吗?我登录了,但在“用户设置”中没有看到“访问令牌”选项卡,我正在使用社区 Databricks”。谢谢
    • 您好@NachoCastiñeiras,我也很想知道,您究竟是如何让 CLI 与 Databricks 社区版一起工作的。我也将它用于我的大数据分析研讨会;-)
    【解决方案2】:

    从 Databricks DBFS 社区版下载小文件的最快方法:

    访问 Databricks 社区版时,链接如下:https://community.cloud.databricks.com/?o=<unique ID>

    将您的文件上传到文件夹FileStore > tables。然后下载链接将如下所示: https://community.cloud.databricks.com/files/tables/sample_file.csv?o=<your unique ID>

    最后一次测试于 2021 年 8 月 17 日

    【讨论】:

      【解决方案3】:

      使用浏览器,您可以访问文件存储中的单个文件。 您无法访问甚至列出目录。因此,您首先必须将一些文件放入文件存储中。如果您在“/FileStore/example_directory/”中有一个文件“example.txt”,您可以通过以下 URL 下载它:

      https://community.cloud.databricks.com/files/example_directory/example.txt?o=###

      在该 URL 中,“###”必须替换为您在社区版 URL 末尾找到的长数字(在您登录社区版帐户后)。

      添加评论·分享

      【讨论】:

      • 这没有帮助。我可以在 Filestore 中看到文件,但无法在本地下载。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-07-03
      • 2020-04-12
      • 1970-01-01
      • 1970-01-01
      • 2019-09-20
      • 2022-06-16
      • 2018-10-18
      相关资源
      最近更新 更多