【发布时间】:2016-03-09 09:14:20
【问题描述】:
我在 hive 中有一个大表,其中包含 15 亿个以上的值。其中一列是 category_id,它有大约 20 个不同的值。我想对表格进行采样,以便每个类别都有 1 百万个值。
我查看了 Random sample table with Hive, but including matching rows 和 Hive: Creating smaller table from big table 并想出了如何从整个表中获取随机样本,但我仍然无法弄清楚如何为每个 category_id 获取样本。
【问题讨论】: