【发布时间】:2022-01-28 00:06:33
【问题描述】:
我有一组从S3 到AWS Redshift 的COPY 数据副本。
复制语句如下:
COPY {schema_name}.{table_name}
FROM '{s3_path}'
IAM_ROLE '{redshift_role}'
FORMAT AS PARQUET;
s3_path 中有 50 个文件,因此我运行 50 个副本,因为每个复制语句都针对路径中的每个文件运行。
即:
COPY {schema_name}.{table_name}
FROM 's3://bucket/a/parquet_file_part0.parquet'
IAM_ROLE '{redshift_role}'
FORMAT AS PARQUET;
COPY {schema_name}.{table_name}
FROM 's3://bucket/a/parquet_file_part1.parquet'
IAM_ROLE '{redshift_role}'
FORMAT AS PARQUET;
每个文件的权重30kb。
50 份副本所用的总时间约为 500 - 600 秒。 所以每个文件大约需要 10 秒。有没有一些提高复制速度的技巧?其他解决方案可能是 par_apply 副本并行运行
【问题讨论】:
标签: amazon-web-services amazon-s3 amazon-redshift