【问题标题】:Apache Pig - dispose of intermdiate aliases?Apache Pig - 处理中间别名?
【发布时间】:2015-04-16 14:56:38
【问题描述】:

我正在编写一个包含许多操作的冗长的 Pig Latin 脚本。有时,操作的唯一目的是获得一个中间关系X,该关系后来被转换或丰富为Y,在此X 不再感兴趣。 Pig 是否将X 物化在某处(例如在内存或 HDFS 中),我是否应该担心“释放”X?或者这是在 Pig 和 Hadoop 之间处理的?

额外问题:如果在 MapReduce 上的 Pig、Tez 上的 Pig 和 Spark 上的 Pig 之间对此类中间值的运行时处理存在任何有趣的差异,那么了解这一点也很高兴。

【问题讨论】:

    标签: hadoop apache-pig


    【解决方案1】:

    Pig 使用延迟执行来评估。惰性求值的一些特性是

    • 处理只发生在 DUMP/STORE 命令上
    • 允许重新排序以进行优化
    • 内存流水线

    Pig 解释器会在您提交查询后计算 DAG。您可以在 grunt shell 中使用 EXPLAIN 命令查看 pig 使用的执行计划。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-05-04
      • 1970-01-01
      • 2015-01-04
      相关资源
      最近更新 更多