【发布时间】:2021-08-25 20:29:09
【问题描述】:
我有使用 spark 创建的大约 30 GB 大小和数百个分区的配置单元外部表(以 parquet 格式存储的 s3 文件)。但是,我需要查询非分区列(例如 SUPPLIER_ID)上的数据以查看完整的事务历史记录,但不特定于期间或日期(分区列)。在我不确定 Hive 表中哪个分区数据属于这种情况下,如何确保这种查询模式?
【问题讨论】:
-
只是不按分区过滤,也不在groupby中包含分区
-
这将强制整个表扫描,其查询甚至可能无法完成
-
看我的回答
标签: apache-spark hive apache-spark-sql hiveql dremio