【发布时间】:2013-08-12 18:43:11
【问题描述】:
我可以看到 pig 可以原生读取 .bz2 文件,但我不确定它是否运行显式作业将 bz2 拆分为多个 inputsplit?谁能证实这一点?如果 pig 正在运行一项工作来创建输入拆分,有没有办法避免这种情况?我的意思是一种让 MapReduce 框架将 bz2 文件拆分为框架级别的多个输入的方法?
【问题讨论】:
-
问题是 pig 是否运行作业来预先拆分文件,然后在拆分文件上运行作业?
-
是的。感谢您要求澄清。我猜可能这取决于底层的 Hadoop?
标签: hadoop mapreduce apache-pig