【发布时间】:2018-06-02 19:46:03
【问题描述】:
在 Spark 2.2 中,谓词下推可用于压缩 Parquet 文件(例如 GZIP、Snappy)吗?
【问题讨论】:
标签: apache-spark parquet
在 Spark 2.2 中,谓词下推可用于压缩 Parquet 文件(例如 GZIP、Snappy)吗?
【问题讨论】:
标签: apache-spark parquet
是的,谓词下推适用于所有 Parquet 文件。这里重要的部分是 Parquet 上下文中的压缩意味着数据被压缩,但文件的元数据部分没有被压缩,而是始终以明文形式存储。这允许任何处理 Parquet 文件的处理器读取文件中每个块的统计信息,然后只加载它的相关部分。
【讨论】:
explain 会显示吗?想详细说明一些视觉效果吗?谢谢。