【问题标题】:Entering a proper path to files on DBFS输入 DBFS 上文件的正确路径
【发布时间】:2021-12-04 06:16:06
【问题描述】:

我将文件上传到 DBFS:

/FileStore/shared_uploads/name_surname@xxx.xxx/file_name.csv

我尝试通过 pandas 访问它们,但我总是收到此类文件不存在的信息。 我尝试使用以下路径:

/dbfs/FileStore/shared_uploads/name_surname@xxx.xxx/file_name.csv
dbfs/FileStore/shared_uploads/name_surname@xxx.xxx/file_name.csv
dbfs:/FileStore/shared_uploads/name_surname@xxx.xxx/file_name.csv
./FileStore/shared_uploads/name_surname@xxx.xxx/file_name.csv

有趣的是,当我通过 dbutils.fs.ls 检查它们时,我看到了所有文件。

我找到了这个解决方案,我已经尝试过了:Databricks dbfs file read issue

将它们移至新文件夹:

dbfs:/new_folder/

我试图从这个文件夹中访问它们,但它仍然对我不起作用。唯一的区别是我将文件复制到了不同的地方。

我也检查了文档:https://docs.databricks.com/data/databricks-file-system.html

我使用 Databricks 社区版。

我不明白我做错了什么以及为什么会这样。 我没有任何其他想法。

【问题讨论】:

    标签: databricks databricks-community-edition


    【解决方案1】:

    /dbfs/ 挂载点在 Community Edition 上不可用(这是一个已知限制),因此您需要执行链接答案中的建议:

    dbutils.fs.cp(
      'dbfs:/FileStore/shared_uploads/name_surname@xxx.xxx/file_name.csv', 
      'file:/tmp/file_name.csv')
    

    然后使用/tmp/file_name.csv 作为 Pandas 函数的输入参数。如果您需要向 DBFS 写入内容,那么您可以采取其他方式 - 写入本地文件 /tmp/...,然后将该文件复制到 DBFS。

    【讨论】:

    • 谢谢,我是 Databricks 的新手。当我通过以下方式引用它时,它开始起作用:file:/tmp/fine_name.csv
    猜你喜欢
    • 2018-11-14
    • 2020-12-01
    • 2015-07-06
    • 1970-01-01
    • 1970-01-01
    • 2019-10-15
    • 1970-01-01
    • 2016-09-20
    相关资源
    最近更新 更多