【发布时间】:2015-09-30 16:09:21
【问题描述】:
“all_members”是 hive 中的一个表,有 10m 行和 1 列:“membership_nbr”。我想采样 3000 行。这就是我所做的:
hive>create table sample_members as select * from all_members limit 1;
hive>insert overwrite table sample_members select membership_nbr from all_members tablesample(3000 rows);
hive>select count(*) from sample_members;
OK 45000
如果我用 300 行替换 3000 行,结果不会改变 我是不是做错了什么?
【问题讨论】:
标签: hadoop hive sample sampling