【发布时间】:2020-09-09 20:26:03
【问题描述】:
假设我在 AWS Glue 中注册了一个外部表,该表位于 S3 中并由 Athena 查询。 最佳做法是对数据进行分区。所以在正常情况下,我有两个看似相同的选择,
1. /data/_path/yyyy/mm/dd/col1/col2/data.parquet
2. /data/_path/col1/col2/yyyy/mm/dd/data.parquet
我假设 Athena 扫描/查询的数据对于给定的 col1 和/或 col2 都是相同的。 但是哪个更受欢迎,为什么?
【问题讨论】:
-
此问题中的信息不足,无法使答案有意义。哪种方案更好取决于
col-1和col-2是什么、生成数据的过程如何工作以及您将运行什么查询。
标签: amazon-web-services parquet aws-glue amazon-athena