【发布时间】:2015-04-16 14:56:38
【问题描述】:
我正在编写一个包含许多操作的冗长的 Pig Latin 脚本。有时,操作的唯一目的是获得一个中间关系X,该关系后来被转换或丰富为Y,在此X 不再感兴趣。 Pig 是否将X 物化在某处(例如在内存或 HDFS 中),我是否应该担心“释放”X?或者这是在 Pig 和 Hadoop 之间处理的?
额外问题:如果在 MapReduce 上的 Pig、Tez 上的 Pig 和 Spark 上的 Pig 之间对此类中间值的运行时处理存在任何有趣的差异,那么了解这一点也很高兴。
【问题讨论】:
标签: hadoop apache-pig