【发布时间】:2015-04-28 06:13:35
【问题描述】:
我正在尝试清理此员工志愿者数据。无法跟踪员工是否已经是注册志愿者,因此他可以注册为新志愿者并获得新的 VOLUNTEER_ID。我有一个数据输入,我可以将每个 VOLUNTEER_ID 与其 EMP_ID 联系起来。志愿者数据需要清理,这样我们才能弄清楚员工是如何从一个志愿者级别移动到另一个级别以及何时移动的。
业务逻辑是,当有重叠日期时,我们在 start_date 和 end_date 之间的时间范围内将最高级别分配给员工。
我发布了一个输入数据样本以及输出应该是什么。
是否可以使用 PIG 脚本来执行此操作?有人可以帮我吗
输入:
EMP_ID VOLUNTEER_ID V_LEVEL STATUS START_DATE END_DATE
10001 100 1 A 1/1/2006 12/31/2007
10001 200 1 A 5/1/2006
10001 100 1 A 1/1/2008
10001 300 3 P 3/1/2008 3/1/2008
10001 300 3 A 3/2/2008 12/1/2008
10001 1001 2 A 5/1/2008 6/30/2008
10001 1001 3 A 7/1/2008
10001 300 2 A 12/2/2008
需要输出:(输出中不需要 VOLUNTEER_ID,但在下面添加以显示选择了哪个 ID 用于输出,哪个没有)
EMP_ID VOLUNTEER_ID V_LEVEL STATUS START_DATE END_DATE
10001 100 1 A 1/1/2006 12/31/2007
10001 300 3 P 3/1/2008 3/1/2008
10001 300 3 A 3/2/2008 12/1/2008
10001 1001 2 A 5/1/2008 6/30/2008
10001 1001 3 A 7/1/2008
【问题讨论】:
标签: hadoop mapreduce apache-pig bigdata