【发布时间】:2015-11-19 10:46:50
【问题描述】:
Apache Pig - 如何从 CSV 文件中读取数据,数据可选用双引号括起来?
示例数据如下:
"Traditional",0.03,"Department, of Housing and Urban Development (HUD)",0.01
预期输出:
Traditional 0.03 Department, of Housing and Urban Development (HUD) 0.01
在上面的示例中,我们有 4 列。 2 用双引号括起来,2 不是,并且是浮点数据类型。此外,第三列在数据本身中有一个逗号。
请帮助我提供一些与 Pig 相关的 API(示例代码),这将有助于正确拆分数据并使用位置表示法处理它们,例如 $0、$1、$2、$3。
我已经从PiggyBank探索了CSVExcelStorage和CSVLoader,但我无法正确拆分。
【问题讨论】:
标签: apache-pig