【问题标题】:Why is there Internal Stage in Snowflake?雪花为什么会有内部舞台?
【发布时间】:2022-01-24 01:36:28
【问题描述】:

内部阶段的概念具有误导性,或者我对此的解释不正确。请纠正我的理解。根据文档

  1. Snowflake 帐户可以托管在三个云平台 (AWS/Azure/GCP) 中的任何一个中。
  2. 因此,这意味着 Snowflake 架构的所有三层(存储、计算和云服务)都可以在任何这些选定的云平台上部署和管理。
  3. 现在 Snowflake 将云存储中数据文件的位置称为 Stage。所以参考第 2 点,因为存储总是部署在任何公共云(AWS/Azure/GCP)阶段理论上/隐含地指这些外部阶段总是对的? 如果这个解释是正确的,为什么首先会有内部阶段的概念。

【问题讨论】:

标签: snowflake-cloud-data-platform


【解决方案1】:

外部阶段由您(客户)管理,您可以随意安排文件/保护其中的文件。然后,当您想将数据从外部阶段加载到 Snowflake 中时,您只需引用这些外部阶段。

内部阶段由 Snowflake 管理,您可以将 PUT 文件放入其中,有关它们的所有其他内容均由 Snowflake 管理。 Snowflake 内部阶段的存储已从您那里抽象出来。当我说PUT 时,这是一个您可以使用 Snowflake CLI 运行的命令,该命令获取本地文件并将其上传到内部阶段。

至于为什么存在内部阶段?我想大概是这样的:

  • 为了灵活性,您可以使用 Snowflake 的内部 blob 存储(无论是什么),也可以使用自己的存储来暂存数据。

  • 您可以使用 Snowflake 并将数据快速加载到表中,而无需自己的 Blob 存储。

  • 它使非管理员用户更容易。 Snowflake 的最终用户可以将数据加载到他们自己的表中,而无需知道如何使用 s3/azure blob/GCS 等。每个用户都可以在~ 获得自己的内部小舞台区域,就像主目录一样。此外,每个表都有自己的内部阶段,您可以 put 进入。

【讨论】:

  • 感谢您的精彩解释。更清楚为什么 Snowflake 提供 Internal Staging 机制。
  • 很好的解释。这应该被接受为答案。@ajcoder
【解决方案2】:

Snowflake 独有的是 stage 的概念,它是数据加载到目标表之前的最后一个地方。

  1. 用户阶段,@~(内部)每个用户都有自己的,您可以使用桌面上的 PUT 命令将文件加载到那里,即从 prem 到云。这个位置也恰好是您存储工作表的位置!
  2. 表格阶段,@%(内部)每个表格都有一个,您可以将文件放在那里准备加载到表格中
  3. 命名阶段,@(内部或外部),当外部文件以您使用的任何方法(可能是 PUT)放在 S3 存储桶中时。在内部时,它们使用 PUT 加载到 Snowflake 自己的 S3 存储桶中。区别?如果文件在加载之前就在那里,您可以完全在外部管理内容,包括加密和压缩。如果是内部管理,Snowflake 会完成所有这些管理。

作为文件托管在外部或内部的所有内容都必须复制到 Snowflake 表中(COPY 命令),以利用 Snowflake 的专有微分区存储机制和零复制克隆等功能。或者,您仍然可以将文件作为外部阶段保存在 S3 存储桶中,但将文件作为外部表注册到 Snowflake 并能够在其上运行 SQL。它们是 csv、parquet、avro、orc 和 json。当然,你不会得到上面列出的好处。

基本上,在加载到 Snowflake 表之前,所有内容都是一个文件(顺便说一下,通过改进的压缩算法也可以实现更好的压缩)

供您阅读:https://docs.snowflake.com/en/user-guide/data-load-overview.html

【讨论】:

  • 不用担心,它回答了您的问题吗?如果有请投票,谢谢!
【解决方案3】:

内部阶段是 Snowflake 提供的存储空间,并向您收取费用。 外部阶段是对客户拥有和付费的存储的引用。

您说得对,这仍然是一个公共云资源,但除了 Snowflake 或 Snowflake 连接器之外,其他任何东西都无法访问内部阶段。因此,它是“内部的”。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2022-10-31
    • 2023-03-20
    • 2021-09-25
    • 2023-03-22
    • 1970-01-01
    • 1970-01-01
    • 2021-09-25
    • 2016-05-12
    相关资源
    最近更新 更多