【发布时间】:2026-01-07 01:50:01
【问题描述】:
我想对列的子集执行 DISTINCT 操作。 documentation 说这可以通过嵌套的 foreach 实现:
您不能在字段子集上使用 DISTINCT;为此,请使用 FOREACH 和嵌套块首先选择字段,然后应用 DISTINCT(请参阅示例:嵌套块)。
对所有列执行 DISTINCT 操作很简单:
A = LOAD 'data' AS (a1,a2,a3,a4);
A_unique = DISTINCT A;
假设我有兴趣在 a1、a2 和 a3 上执行不同的操作。谁能提供一个示例,说明如何按照文档中的建议使用嵌套的 foreach 执行此操作?
这是输入和预期输出的示例:
A = LOAD 'data' AS(a1,a2,a3,a4);
DUMP A;
(1 2 3 4)
(1 2 3 4)
(1 2 3 5)
(1 2 4 4)
-- insert DISTINCT operation on a1,a2,a3 here:
-- ...
DUMP A_unique;
(1 2 3 4)
(1 2 4 4)
【问题讨论】:
-
您能否提供示例输入和预期输出?
-
好建议,我更新了问题。
标签: apache-pig