【发布时间】:2013-08-06 16:39:02
【问题描述】:
我有很多 CSV 文件,都带有标题行。这些文件看起来都相似:
name, gender, preference, ....
peter, m, soap, ...
paul, m, gel, ...
mary, f, soap, ...
.
.
.
但列位置和确切的标题名称可能会有些不同,例如。另一个文件可能如下所示:
"the preferences", "the name", "the gender",....
soap, peter, m, ...
gel, paul, m, ...
soap, mary, f, ...
.
.
.
我只想输出/存储标题包含单词“name”的列。这个专栏的定位我事先不知道,因为每个文件可以不一样。
所以,我需要将每个文件中的列与其标题名称相关联。我可以在 Pig 中执行此操作吗?
虽然我使用了两个FILTER 操作符(一个用于标头,一个用于数据),但是为此的数据不必读取两次吗?
【问题讨论】:
标签: performance header apache-pig