为什么 spark.sql.orc.filterPushdown 在 spark 中默认为 false？

【问题标题】：Why is spark.sql.orc.filterPushdown by default false in spark?为什么 spark.sql.orc.filterPushdown 在 spark 中默认为 false？
【发布时间】：2019-08-05 07:17:35
【问题描述】：

为什么spark中spark.sql.orc.filterPushdown默认值为false？

将spark.sql.orc.filterPushdown 的值设置为true 是否会产生一些性能开销或者spark 的orc 读取功能存在一些限制？

【问题讨论】：

标签： apache-spark apache-spark-sql orc

【解决方案1】：

这可能是因为 spark 与旧格式的 orc 集成不是很好，并且在某些情况下会导致问题。大多数这些问题似乎在 ORC（具有更好的矢量化）和 spark 2 的新格式中得到了修复。

https://community.hortonworks.com/articles/148917/orc-improvements-for-apache-spark-22.html
https://issues.apache.org/jira/browse/SPARK-14962
https://community.hortonworks.com/questions/222760/spark-sql-limit-clause-performance-issues.html

【讨论】：