【发布时间】:2016-02-23 16:46:56
【问题描述】:
我在 HDFS 目录中有数千个 Avro 文件,格式为 yyyy/mm/dd/。在每个目录中可能有 200-400 个 .avro 文件,其中包含当天的数据。
当我创建一个 EXTERNAL 表时,我认为 LOCATION 属性假定一个文件...有没有办法将它指向一个文件目录并让它读取所有文件?
【问题讨论】:
-
LOCATION,如果设置为一个目录,将读取该目录下的所有文件。 -
包括子目录?
-
如果你也想处理子目录,你会想看看动态分区,假设你每天都很高兴成为一个分区,并且每天的文件夹中没有数据目录.