【发布时间】:2016-02-10 16:25:58
【问题描述】:
我正在寻找编写通用数据清理框架的方法,该框架根据为给定数据集配置的位置和类型清理整行。
从数据集中采样输入记录如下,
100| John | Mary | 10Sep2013 | 10,23,4
现在配置将基于位置(从索引 1 开始)。例如,在位置 2 修剪空格,在位置 4 转换为 hive 标准日期,在位置 5 删除逗号。这是在数据集级别配置的。
现在,如果这些必须插入 hive 或 pig,应该有一种方法可以让 hive\Pig UDF 接受整行作为输入。 UDF 应根据可配置的字段分隔符解析行,并根据位置应用字段\列特定操作。这样,对于此类基于行的操作,是否使用 pig 或 hive 或其他任何东西都无关紧要。我知道这有点涉及抽象 hive\pig 特定的行类型并提供基于位置的通用 getter。
为整行而不是每列调用 UDF 以加快处理速度也可能有意义。
有没有办法让 hive\pig UDF 接受整行文本作为输入?
【问题讨论】:
标签: hive apache-pig udf