【问题标题】:Snowflake - Putting large file into internal Snowflake StageSnowflake - 将大文件放入内部 Snowflake Stage
【发布时间】:2024-01-22 00:33:02
【问题描述】:

我目前正在尝试将一个大型、解压缩的 CSV 文件上传到内部雪花阶段。该文件为 500 GB。我运行了 put 命令,但看起来并没有发生太多事情。没有状态更新,它只是挂在那里。

有什么想法吗?这最终会超时吗?会完成吗?谁有预计的时间?

我很想尝试以某种方式杀死它。我目前正在将 500 GB 的大文件拆分为大约 1000 个小文件,我将对其进行压缩并并行上传(在阅读有关最佳实践的更多信息之后)。

【问题讨论】:

标签: csv osx-snow-leopard snowflake-cloud-data-platform


【解决方案1】:

根据雪花建议,请将文件拆分为多个小文件,然后将您的文件暂存到雪花内部阶段。(默认雪花会压缩文件)

然后尝试用多集群仓库运行复制命令,然后你会看到雪花的性能。

【讨论】:

    【解决方案2】:

    除非您指定了auto_compress=FALSE,否则 PUT 中的第 1 步是压缩文件,这在 500GB 上可能需要一些时间...
    使用parallel=<n> 会自动将文件分割成更小的块并并行上传——您不必自己分割源文件。 (但如果你愿意,你可以......)

    【讨论】: