【发布时间】:2018-11-19 17:44:40
【问题描述】:
我在 s3 上对数据进行了分区,我想通过频谱访问。当前格式文件结构类似:s3://bucket/dir/year=2018/month=11/day=19/hour=12/file.parquet
我通过解析我用于时间戳的字段ts,使用胶水对数据进行了分区。我将执行的大多数查询将在 ts 字段上进行,因为它们是比每日更精细的时间戳范围查询(可能跨越多天或少于一天,但通常涉及时间。
我将如何在我的数据上创建每小时(首选,如果需要,每天可以工作)分区,因此当我查询 ts(或另一个时间戳)字段时,它将正确访问分区。如果需要,我可以使用不同的分区重新创建我的数据。大多数示例/文档只是每天存储数据,并在查询中使用日期字段。
如果需要,我很乐意提供更多信息。
谢谢!
示例查询类似于:
SELECT * FROM spectrum.data
WHERE ts between '2018-11-19 17:30:00' AND '2018-11-20 04:45:00'
【问题讨论】:
-
请分享您的示例查询?
-
更新了原帖,如有不清楚之处请告知。
-
您解决了这个问题吗?我遇到了类似的问题
标签: amazon-redshift amazon-redshift-spectrum