【发布时间】:2019-08-05 07:17:35
【问题描述】:
为什么spark中spark.sql.orc.filterPushdown默认值为false?
将spark.sql.orc.filterPushdown 的值设置为true 是否会产生一些性能开销或者spark 的orc 读取功能存在一些限制?
【问题讨论】:
标签: apache-spark apache-spark-sql orc
为什么spark中spark.sql.orc.filterPushdown默认值为false?
将spark.sql.orc.filterPushdown 的值设置为true 是否会产生一些性能开销或者spark 的orc 读取功能存在一些限制?
【问题讨论】:
标签: apache-spark apache-spark-sql orc
这可能是因为 spark 与旧格式的 orc 集成不是很好,并且在某些情况下会导致问题。大多数这些问题似乎在 ORC(具有更好的矢量化)和 spark 2 的新格式中得到了修复。
https://community.hortonworks.com/articles/148917/orc-improvements-for-apache-spark-22.html
https://issues.apache.org/jira/browse/SPARK-14962
https://community.hortonworks.com/questions/222760/spark-sql-limit-clause-performance-issues.html
【讨论】: