【发布时间】:2019-02-11 03:47:43
【问题描述】:
我在 S3 上有一堆 Parquet 文件,我想以最佳方式将它们加载到 redshift 中。
每个文件被分成多个块......将数据从 S3 加载到 Redshift 的最佳方式是什么?
另外,如何在 Redshift 中创建目标表定义?有没有办法从 Parquet 推断模式并以编程方式创建表?我相信有一种方法可以使用 Redshift 光谱来做到这一点,但我想知道这是否可以在脚本中完成。
感谢您的帮助!
我正在考虑使用所有 AWS 工具(例如 Glue、Lambda 等)以最佳方式(在性能、安全性和成本方面)来做到这一点。
【问题讨论】:
-
如果你打算使用glue,那么创建一个并直接在spectral中使用glue metastore。如果你想定期更新metastore,glue爬虫很有帮助
标签: amazon-web-services amazon-ec2 amazon-redshift parquet amazon-redshift-spectrum