【发布时间】:2019-07-28 18:17:24
【问题描述】:
我已经在 Databricks 中安装了一个 Blob 存储帐户,并且可以正常访问它,所以我知道它可以工作。
我想做的是列出给定路径中所有文件的名称..目前我正在这样做:
list = dbutils.fs.ls('dbfs:/mnt/myName/Path/To/Files/2019/03/01')
df = spark.createDataFrame(list).select('name')
但我遇到的问题是,它非常慢......因为该位置大约有 160,000 个 blob(存储资源管理器将其显示为 ~1016106592 字节,即 1Gb!)
这肯定不能拉下所有这些数据,我需要/想要的只是文件名..
blob 存储是我的瓶颈,还是我可以(以某种方式)让 Databricks 并行执行命令之类的?
谢谢。
【问题讨论】:
标签: python azure azure-blob-storage azure-databricks