【发布时间】:2014-12-04 11:02:10
【问题描述】:
我有一个具有这种结构的大型数据集(数百万条记录):
id | ident1 | ident2
1 A000001 B000001
2 A000001 B000002
................
99 A000001 B000099
.........
337 A000002 B000037
338 A000002 B000043
换句话说,对于每个 [ident1],我在 [ident2] 中有大量条目。我希望只能选择其中 20 个条目(如果少于 20 个,则全部选择)。
顺序并不重要:因此,如果给定的 ident1 有 100 个匹配的 [ident2],我想要前 20 个条目或 20 个随机条目,这都没关系。
提前致谢,p.
【问题讨论】:
标签: r data-manipulation