【发布时间】:2016-03-08 05:34:31
【问题描述】:
嗨,我第一次和 Pig 一起玩,很好奇如何处理将一个字段拆分为多个其他字段的问题。
我有一个包,A,如下所示:
grunt> Dump A;
(text, text, Mon Mar 07 12:00:00 CDT 2016)
我想做的是将日期时间字段拆分为多个字段,以便我可以探索数据集的分布并按星期几、月份、年份等进行分组。
我一直在研究 tokenize,但不确定这是否满足我的需求,因为我需要/想要将字段名称添加到包中或创建嵌套包。
有什么想法吗?
【问题讨论】:
标签: hadoop apache-pig