【发布时间】:2019-06-13 10:52:37
【问题描述】:
MySQL 数据库中有一个users 表。
我们希望将数据迁移到亚马逊 S3 以使用 Amazon Redshift 进行进一步分析。
- 第 1 天 - 从 users 表中导出 10 行数据(总行数:10)
- 第 2 天 - 从 users 表中额外导出 2 行数据(总行数:12)
- 第 3 天 - 从 users 表中导出修改后的行和新行数据(总行数:13)
提议的 S3 数据文件夹/命名约定:
s3://data/users/YYYYMMDD/users-YYYYMMDDHHMMSS.csv
Amazon Redshift 按如下方式加载数据以查询用户的所有行:
create EXTERNAL TABLE redshift_users from s3://data/users
问题:
- 我们假设第 3 天修改的行将优先于第 1 天可用的数据?
- 如果在 Day4 删除了现有的 2 行,应该如何存储在 S3 中,Redshift 可以理解?
【问题讨论】:
标签: amazon-web-services amazon-s3 amazon-redshift etl amazon-redshift-spectrum