【问题标题】:Why is spark.sql.orc.filterPushdown by default false in spark?为什么 spark.sql.orc.filterPushdown 在 spark 中默认为 false?
【发布时间】:2019-08-05 07:17:35
【问题描述】:

为什么spark中spark.sql.orc.filterPushdown默认值为false?

spark.sql.orc.filterPushdown 的值设置为true 是否会产生一些性能开销或者spark 的orc 读取功能存在一些限制?

【问题讨论】:

    标签: apache-spark apache-spark-sql orc


    【解决方案1】:

    这可能是因为 spark 与旧格式的 orc 集成不是很好,并且在某些情况下会导致问题。大多数这些问题似乎在 ORC(具有更好的矢量化)和 spark 2 的新格式中得到了修复。

    https://community.hortonworks.com/articles/148917/orc-improvements-for-apache-spark-22.html
    https://issues.apache.org/jira/browse/SPARK-14962
    https://community.hortonworks.com/questions/222760/spark-sql-limit-clause-performance-issues.html

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-09-28
      相关资源
      最近更新 更多