【发布时间】:2016-04-11 17:28:57
【问题描述】:
我有一个包含超过 TB 大小的历史数据的表,我每天都会收到 delta(更新的信息)记录,这些记录将以 GB 为单位并存储在 delta 表中。现在我想将增量记录与历史记录进行比较,并使用增量表中的最新数据更新历史表。
在 Hive 中执行此操作的最佳方法是什么,因为我要处理数百万行。我已经在网上搜索并找到了以下方法。
http://hortonworks.com/blog/four-step-strategy-incremental-updates-hive
但我认为这不是性能方面的最佳方法。
【问题讨论】:
标签: hadoop hive hiveql bigdata