【发布时间】:2016-05-30 07:42:44
【问题描述】:
目前我们每天都删除表格并运行将数据加载到表格中的脚本。脚本需要 3-4 小时,在此期间数据将不可用。所以现在我们的目标是让分析师可以使用旧的配置单元数据,直到新的数据加载执行完成。
我在 hql 脚本中通过将每日数据加载到按 load_year、load_month 和 load_day 分区的配置单元表并通过删除分区删除昨天的数据来实现这一点。 但是,猪脚本可以实现相同的选择是什么?我们可以通过 pig 脚本更改表格吗?我不想在猪之后执行另一个 hql 来删除分区。 谢谢
【问题讨论】:
-
Pig 用于数据流......所以在为过程图片正确数据挑选数据时......
-
对不起。我没有得到你。我的问题与拾取数据无关,它与将数据存储在pig中以及通过pig存储删除旧数据之后。
标签: hive apache-pig