【发布时间】:2015-07-25 01:05:05
【问题描述】:
如果我在本地模式下运行 pig@hadoop(因为我不想使用 hdfs),那么它会以单线程/单进程模式处理我的脚本。如果我在伪模式下设置 hadoop(复制=1 的 hdfs),那么 pig@hadoop 不喜欢我的file:///...:
traj = LOAD 'file:///root/traj'
USING org.apache.pig.piggybank.storage.CSVExcelStorage(
';', 'NO_MULTILINE', 'UNIX', 'SKIP_INPUT_HEADER'
) AS
(
a1:chararray,
a2:long,
a3:long,
a4:float,
a5:float,
a6:float,
a7:chararray,
a8:float,
a9:chararray
);
c = FOREACH (GROUP traj ALL) GENERATE COUNT(traj);
dump c;
有没有办法告诉 pig@hadoop 以多核模式处理文件而不将文件放入 hdfs 中?
【问题讨论】:
标签: hadoop multiprocessing apache-pig