【发布时间】:2020-03-05 23:08:45
【问题描述】:
我们有一个类似/data/year/day/.csvfiles 结构的 hdfs 文件夹,
所以我们每天在 hdfs 文件夹中存储多个 csv 文件
例如/finance/2019/20190101/ multiple csv files。
同样,/finance/2019/ 中将有 365 个文件夹,一年 365 天。
我想在/finance/2019/ 之上创建一个 Hive 表,这样我就可以查询所有数据,但是我的创建表只有在我指定特定文件夹(例如/finance/2019/20190101/)时才有效,然后查询返回结果集。
如果我尝试创建位置为/finance/2019/ 的表,则该表无法检索任何数据,结果始终为 0。
【问题讨论】:
-
您还可以利用分区和分桶概念来获得更好的性能。