【问题标题】:Reforming the Pig Latin Result改革 Pig Latin 的结果
【发布时间】:2014-05-30 09:56:45
【问题描述】:
我想修改猪拉丁语的结果。
对于一些拉丁语,比如说'dump table1',给我以下结果。
(Test 1,1.0,Link1 Link2 Link3) '\t' 存在在 Link1、Link2、Link3 之间。
我想修改看起来像的结果
(Test 1, Link1)
(测试 1,链接 2)
(测试 1,链接 3)
有谁知道我怎么做这个?
提前致谢。
【问题讨论】:
标签:
hadoop
apache-pig
latin
【解决方案1】:
您可以使用TOKENIZE 内置UDF,它会在您的字符串中为您提供一袋不同的标记。如果您拥有的唯一非字母数字字符是制表符,那么这将正常工作。只需FLATTEN 生成的包,您就会在不同的行中拥有不同的令牌,就像您想要的那样。
如果您的字符串比您显示的要复杂,并且您需要精确控制它们的拆分方式,您可以使用STRSPLIT,但这会返回一个元组,因此您需要将此元组转换为一个包在FLATTENing 之前。