【问题标题】:Pig Distributed cachePig 分布式缓存
【发布时间】:2015-03-22 07:12:41
【问题描述】:

getShipFilesgetCacheFilesEvalFunc 类中有什么区别?

假设此方法中指定的任何文件都可用于分布式缓存中的exec 方法

【问题讨论】:

    标签: apache-pig distributed-cache pig-udf


    【解决方案1】:

    getCacheFiles() 允许 UDF 指定它希望放置在分布式缓存中的 hdfs 文件列表。

    getShipFiles() 允许 UDF 指定它希望放置在分布式缓存中的本地文件列表。

    所以 getShipFiles 从本地文件中获取文件,而 Cache 从 HDFS 中获取文件。

    【讨论】: