【发布时间】:2019-03-31 14:15:49
【问题描述】:
这应该很简单,但我无法理解。我需要进行选择以获取某些帐户的更新日期值。
我从这里开始,T1:
+----------+---------+
| date | account |
+----------+---------+
| 4/1/2018 | 1 |
| 4/1/2018 | 2 |
| 4/1/2018 | 3 |
| 4/1/2018 | 4 |
| 4/1/2018 | 5 |
+----------+---------+
然后在T2更新一些日期:
+----------+---------+
| date | account |
+----------+---------+
| 7/1/2018 | 1 |
| 7/1/2018 | 2 |
+----------+---------+
我怎样才能将这个输出输入到 T3 中,只更新那些帐户?
+----------+---------+
| date | account |
+----------+---------+
| 7/1/2018 | 1 |
| 7/1/2018 | 2 |
| 4/1/2018 | 3 |
| 4/1/2018 | 4 |
| 4/1/2018 | 5 |
+----------+---------+
我可以加入帐号,但是那些没有改变的呢?如何捕捉那些?
另外,T1 有大约 800 万条记录,因此性能是一个因素。从 Teradata 中提取,加载到 Hive。
谢谢!
【问题讨论】: