【发布时间】:2016-05-06 05:30:26
【问题描述】:
parquet 的谓词下推是否意味着只有需要的数据实际上是从磁盘加载的?
例如如果我创建了一个 spark 数据框并且只创建了 select 特定字段,是否会仅从磁盘读取这些字段?
【问题讨论】:
-
那种。如果可以的话,Spark 项目只获取所需的列,但这不是谓词下推的内容。谓词下推通常涵盖放在
WHERE子句中的条件。
标签: hadoop apache-spark parquet bigdata