【发布时间】:2015-03-29 22:24:03
【问题描述】:
我的 csv 文件在第一行有标题。将它们加载到 pig 会在任何后续函数(如 SUM)上造成混乱。截至今天,我首先对加载的数据应用过滤器以删除包含标题的行:
affaires = load 'affaires.csv' using PigStorage(',') as (NU_AFFA:chararray, date:chararray) ;
affaires = filter affaires by date matches '../../..';
我认为它作为一种方法有点愚蠢,我想知道是否有一种方法可以告诉猪不要加载 csv 的第一行,例如加载函数的“as_header”布尔参数。 我在文档上没有看到。最佳做法是什么?你平时是怎么处理的??
【问题讨论】:
标签: csv hadoop apache-pig