【发布时间】:2017-08-31 21:11:12
【问题描述】:
我的配置单元表将有通话记录数据。 该表的 3 列分别是 field1-CALL_DATE、field2-FROM_PHONE_NUM、field3-TO_PHONE
我会查询类似 1)我想获取特定日期之间的所有通话记录。 2) 我想获取 FROM_PHONE 电话号码在特定日期之间的所有通话记录。 2) 我想获取某个 TO_PHONE 电话号码在特定日期之间的所有通话记录。
我的表大小约为 6TB。
我可以知道我需要如何应用分区或分桶以提高所有查询的性能吗?
【问题讨论】:
标签: hadoop hive hiveql hadoop-partitioning