【问题标题】:When ingesting into a data lake using ADLS Gen2, should files be stored in File Shares or Containers使用 ADLS Gen2 摄取到数据湖时,文件应该存储在文件共享还是容器中
【发布时间】:2021-11-13 03:19:17
【问题描述】:

在提取数据并转换基于 Azure ADLS gen2 存储帐户(分层)构建的数据湖的各个层时,我可以在容器或文件共享中组织文件。我们目前以原始格式“.csv”将原始文件提取到 RAW 容器中。然后,我们将这些文件合并到压缩 parquet 格式的 QUERY 容器中,以便我们可以使用 SQL Server 中的 Polybase 虚拟化所有数据。

据我了解,只能使用典型的 SMB/UNC 路径访问存储在文件共享中的文件。 在构建这样的数据湖时,是否应避免使用 ADLS 中的容器,以便获得能够通过文件共享访问这些相同文件的额外好处?

我确实注意到位于文件共享下的文件似乎不支持元数据键/值(除非它只是不通过 UI 公开)。除此之外,我想知道这两种类型之间是否还有其他真正的区别。

【问题讨论】:

  • It is my understanding that only files stored within File Shares can be accessed using the typical SMB/UNC paths - 直到最近才如此。需要注意的是,您现在也可以挂载 Blob 容器。更多详情请查看此链接:docs.microsoft.com/en-us/azure/storage/blobs/….
  • 我读错了那个链接还是这个功能只适用于基于 Linux 的操作系统(不是 windows)
  • 你是对的。这就是我在评论中使用“警告”一词的原因。我最近在 Azure Friday 上观看了一段视频,他们对此进行了更多讨论。您可能还想观看以获取有关此功能的更多信息和限制。

标签: azure architecture azure-data-lake-gen2 storage-file-share


【解决方案1】:

感谢@Gaurav在评论区分享知识。

(使用评论部分提供的详细信息发布答案以帮助其他社区成员。)

之前,只能使用典型的 SMB/UNC 路径访问存储在 Azure 存储文件共享中的文件。但最近,现在可以使用 NFS 3.0 协议挂载 Blob 容器。此Microsoft official document 提供分步指导。

限制:您只能从基于 Linux 的 Azure 虚拟机 (VM) 或在本地运行的 Linux 系统将容器装载到 Blob 存储中。不支持 Windows 和 Mac OS。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-09-01
    • 1970-01-01
    • 1970-01-01
    • 2021-10-20
    • 1970-01-01
    • 2021-03-26
    • 1970-01-01
    • 2021-08-03
    相关资源
    最近更新 更多