【发布时间】:2021-11-13 03:19:17
【问题描述】:
在提取数据并转换基于 Azure ADLS gen2 存储帐户(分层)构建的数据湖的各个层时,我可以在容器或文件共享中组织文件。我们目前以原始格式“.csv”将原始文件提取到 RAW 容器中。然后,我们将这些文件合并到压缩 parquet 格式的 QUERY 容器中,以便我们可以使用 SQL Server 中的 Polybase 虚拟化所有数据。
据我了解,只能使用典型的 SMB/UNC 路径访问存储在文件共享中的文件。 在构建这样的数据湖时,是否应避免使用 ADLS 中的容器,以便获得能够通过文件共享访问这些相同文件的额外好处?
我确实注意到位于文件共享下的文件似乎不支持元数据键/值(除非它只是不通过 UI 公开)。除此之外,我想知道这两种类型之间是否还有其他真正的区别。
【问题讨论】:
-
It is my understanding that only files stored within File Shares can be accessed using the typical SMB/UNC paths- 直到最近才如此。需要注意的是,您现在也可以挂载 Blob 容器。更多详情请查看此链接:docs.microsoft.com/en-us/azure/storage/blobs/…. -
我读错了那个链接还是这个功能只适用于基于 Linux 的操作系统(不是 windows)
-
你是对的。这就是我在评论中使用“警告”一词的原因。我最近在 Azure Friday 上观看了一段视频,他们对此进行了更多讨论。您可能还想观看以获取有关此功能的更多信息和限制。
标签: azure architecture azure-data-lake-gen2 storage-file-share