【发布时间】:2018-02-13 10:01:46
【问题描述】:
我有一些 avro 格式 v1 的数据,并存储在 HDFS 的分区 dt=yyyymmdd 下。
现在数据维护在同一个分区下两个版本,v1和v2。
为两个不同的版本维护一个 Hive 表是否可行?
【问题讨论】:
标签: hadoop hive avro hortonworks-data-platform jackson-dataformat-avro
我有一些 avro 格式 v1 的数据,并存储在 HDFS 的分区 dt=yyyymmdd 下。
现在数据维护在同一个分区下两个版本,v1和v2。
为两个不同的版本维护一个 Hive 表是否可行?
【问题讨论】:
标签: hadoop hive avro hortonworks-data-platform jackson-dataformat-avro
Avro defines a schema evolution protocol
例如,如果 v2 只是简单地添加了一个具有默认值的字段,然后使用该架构更新表,它可以读取整个旧数据,因为它会简单地返回缺少的默认值。
如果你破坏了兼容性,你必须做一个单独的表,然后将两者合并以获得一致的结果集
【讨论】: