【发布时间】:2020-12-30 19:59:49
【问题描述】:
有一个 AWS Glue 爬虫,它正在创建一个数据目录,其中包含 S3 目录中的所有表,其中包含 parquet 文件。
我需要将这些文件/表的内容复制到 Redshift 表中。
我有几个表,其中 Redshift 不支持 Parquet 文件数据大小。 VARCHAR(6635) 是不够的。
在理想情况下,希望截断这些表。
如何使用 COPY 命令将此数据加载到 Redshift? 如果我使用频谱,我只能使用 INSERT INTO 从外部表到 Redshift 表,我知道这比批量复制要慢?
【问题讨论】:
标签: amazon-redshift parquet aws-glue