【发布时间】:2018-07-02 19:10:46
【问题描述】:
Glue 从 JDBC 源在 s3 中创建 Parquet 文件。
架构:
col1 col2 时间戳
key1 val1 今天
key2 val2 今天
为今天创建的 Parquet 文件。可以被雅典娜查询。
源表(临时)的明天更新,即 key2 值已更改,并添加了另外两行。
架构:
col1 col2 时间戳
key2 val3 明天
key3 val4 明天
key4 val5 明天
为明天创建的新 Parquet 文件只有 3 行(key2、Key3、Key4)。
我们如何使用 Glue/Athena 使用目标表中的时间戳更新 key2 值..
期望的输出:
col1 col2 时间戳
key1 val1 今天
key2 val3 明天
key3 val4 明天
key4 val5 明天
【问题讨论】:
标签: amazon-web-services etl amazon-athena aws-glue