【问题标题】:Insert into Impala table vs write to HDFS插入 Impala 表与写入 HDFS
【发布时间】:2017-07-30 08:14:19
【问题描述】:

我有大约 1 万条记录(在 Java 中存储为 ArrayList)。我想将这些记录插入到 Impala。

我应该使用insert into table partition values 直接插入到impala。 (不知道一条sql语句可以插入多少条记录。)

或者我应该将这些记录写入 HDFS 然后alter impala 表?

首选哪种方式?或者有没有其他解决方案?

如果我每 5 分钟执行一次,如何避免一个分区(按小时分区)中出现这么多小文件?这些会在每个分区产生12个小文件,会不会影响查询速度?

【问题讨论】:

    标签: java arraylist impala


    【解决方案1】:

    你能做的最好的就是:

    1. 在 impala 中创建表作为与 HDFS 路由关联的外部表
    2. 直接在 HDFS 中进行插入,如果可能的话,每天,每小时可能很少
    3. 执行 invalidate metada $ TABLE_NAME 命令,使数据可见

    希望答案对你有用

    问候!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-01-05
      • 2014-07-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多