【发布时间】:2020-12-15 06:20:43
【问题描述】:
我正在使用 parquet 文件格式从 2 个 redshift 表中导出数据。
unload ('select * from some_table')
to 's3://132cols/some_table/'
credentials 'aws_access_key_id=xxx;aws_secret_access_key=xxxx'
PARQUET
PARTITION BY (senderid) include;
unload ('select * from another_table')
to 's3://132cols/another_table/'
credentials 'aws_access_key_id=xxx;aws_secret_access_key=xxxx'
PARQUET
PARTITION BY (senderid) include;
数据按 senderid 分区,因此我可以看到 2 个文件夹,例如...
s3://132cols/some_table/senderid=abcd/
s3://132cols/another_table/senderid=abcd/
两个表具有相同的结构,并且两个表中都存在相同的 ID。 有没有办法合并这两个文件夹以查询与 Athena 中的两个表(或 redshift)中的发件人“abcd”相关的数据?
【问题讨论】:
-
尝试在
s3://132cols/之上创建一个表并运行查询。我认为它应该工作。但是试一试。 -
使用
ALLOWOVERWRITE,然后将表名作为一个分区(如果需要,还可以添加一个随机分区),如下所示:stackoverflow.com/a/62632562/5287221
标签: amazon-redshift presto amazon-athena