【问题标题】:AWS S3 - Athena without gz compressionAWS S3 - 没有 gz 压缩的 Athena
【发布时间】:2026-01-19 06:35:02
【问题描述】:

我正在 AWS Athena 中使用以下语句创建一个表:

CREATE TABLE table2
WITH 
(
  format='JSON',
  external_location='s3://bucket/path'
) AS
SELECT field1, field2, field3, field4, field5, field6
FROM table1
ORDER BY field1, field2

但是,当我查看 external_location 时,我发现所有文件都被压缩为 gz 格式。是否可以关闭压缩?也就是说,只需将原始 JSON 写入 S3 存储桶。

【问题讨论】:

标签: amazon-s3 amazon-athena


【解决方案1】:

目前无法使用 Athena 的 CTAS 功能创建未压缩文件。对于 ORC 和 Parquet,您可以选择压缩类型,但对于所有其他格式,无论您喜欢与否,都将使用 gzip。

有点讽刺的是,虽然您无法解压缩 CTAS 输出,但无法压缩常规查询输出。

【讨论】:

  • 截至 2022 年 2 月,文本文件和 JSON 格式的 默认 压缩仍然是 GZIP,并且没有不使用压缩的选项。但是,对于 JSON、TSV、CSV 和自定义 SerDes,您可以将“write_compression”指定为 ZSTD、SNAPPY、GZIP 和 BZIP2。文档:docs.aws.amazon.com/athena/latest/ug/compression-formats.html