【问题标题】:How to model S3 storage for query using AWS RedShift Spectrum如何使用 AWS RedShift Spectrum 为 S3 存储建模以进行查询
【发布时间】:2019-06-13 10:52:37
【问题描述】:

MySQL 数据库中有一个users 表。

我们希望将数据迁移到亚马逊 S3 以使用 Amazon Redshift 进行进一步分析。

  • 第 1 天 - 从 users 表中导出 10 行数据(总行数:10)
  • 第 2 天 - 从 users 表中额外导出 2 行数据(总行数:12)
  • 第 3 天 - 从 users 表中导出修改后的行和新行数据(总行数:13)

提议的 S3 数据文件夹/命名约定:

s3://data/users/YYYYMMDD/users-YYYYMMDDHHMMSS.csv

Amazon Redshift 按如下方式加载数据以查询用户的所有行:

create EXTERNAL TABLE redshift_users from s3://data/users

问题:

  1. 我们假设第 3 天修改的行将优先于第 1 天可用的数据?
  2. 如果在 Day4 删除了现有的 2 行,应该如何存储在 S3 中,Redshift 可以理解?

【问题讨论】:

    标签: amazon-web-services amazon-s3 amazon-redshift etl amazon-redshift-spectrum


    【解决方案1】:

    回答你的问题:

    1. 您假设新行将自动优先于旧行 - 事实并非如此。您需要在您的数据中添加一个“processed_timestamp”列并在您的查询中对其进行处理——您的查询必须弄清楚如何仅获取最新的行(我为此使用窗口函数)。

    2. 通常,您无法从 S3 中明智地物理删除行。你需要结合上面的#1来实现一个逻辑删除过程。

    【讨论】:

      猜你喜欢
      • 2021-01-12
      • 2019-04-09
      • 1970-01-01
      • 2017-11-23
      • 2020-02-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多