【发布时间】:2013-01-11 12:10:11
【问题描述】:
我有一个 pig 脚本,我在其中加载一个数据集,将其放入两个单独的数据集,然后执行一些计算,最后向其中添加另一个计算字段。现在我想加入这两个数据集。
A = LOAD '/user/hdfs/file1' AS (a:int, b:int);
A1 = FILTER A BY a > 100;
A2 = FILTER A BY a <= 100 AND b > 100;
-- Now I do some calculation on A1 and A2
所以本质上,在计算之后,这是两者的架构:
{A1 : {a:int, b:int, type:chararray}}
{A2: {a:int, b:int, type:chararray}}
现在,在将其转储回 HDFS 之前,我想将两个数据集合并回来。 SQL 中的 UNION ALL 之类的东西。我该怎么做?
【问题讨论】:
-
另外,您可以使用 SPLIT (pig.apache.org/docs/r0.7.0/piglatin_ref2.html#SPLIT) 代替 FILTER 来优化脚本。
标签: hadoop apache-pig piglet