【发布时间】:2026-01-08 03:55:01
【问题描述】:
我正在尝试将数据加载到 Kudu 表但得到一个奇怪的结果。
在 Impala 控制台中,我从 Sqoop 导入的四个 HDFS 文件创建了一个外部表:
drop table if exists hdfs_datedim;
create external table hdfs_datedim
( ... )
row format
delimited fields terminated by ','
location '/user/me/DATEDIM';
A SELECT COUNT(*) 告诉我存在很多行。查询时数据看起来不错。
我使用标准的 select into 来复制结果
INSERT INTO impala_kudu.DATEDIM
SELECT * FROM hdfs_datedim;
SELECT COUNT(*) 告诉我 impala_kudu.DATEDIM 有四行(HDFS 中的文件数不是表中的行数。
有什么想法吗?
【问题讨论】:
-
你能做一个
select * from hdfs_datedim limit 10看看结果是否确实是正确的形式? -
是的。 'Select Count(*)' 返回 17,000 而不是 4。 'Select * ... limit 10' 返回十行看起来很完美。我也有同样的想法。源表看起来是正确的,但我很缺乏经验,很容易出错
-
这只发生在 kudu 表上吗?对我来说听起来像是一个错误。
-
我会尝试其他数据来源。好建议
标签: hdfs impala sqoop apache-kudu