【发布时间】:2017-07-30 08:14:19
【问题描述】:
我有大约 1 万条记录(在 Java 中存储为 ArrayList)。我想将这些记录插入到 Impala。
我应该使用insert into table partition values 直接插入到impala。 (不知道一条sql语句可以插入多少条记录。)
或者我应该将这些记录写入 HDFS 然后alter impala 表?
首选哪种方式?或者有没有其他解决方案?
如果我每 5 分钟执行一次,如何避免一个分区(按小时分区)中出现这么多小文件?这些会在每个分区产生12个小文件,会不会影响查询速度?
【问题讨论】: