【发布时间】:2015-08-22 07:39:25
【问题描述】:
我有一个包含近 700 万个观测值的数据集,我想随机抽取数据样本来分析一个子集。我知道如何随机抽取数据样本:
index <- sample(7009728, 50000)
flights <- flight[index, ]
有没有办法获取随机样本,但一旦在我的数据集中创建,总是给我相同的随机样本?我希望不必依赖保存我的 R 项目就可以做到这一点。
【问题讨论】:
标签: r random random-seed
我有一个包含近 700 万个观测值的数据集,我想随机抽取数据样本来分析一个子集。我知道如何随机抽取数据样本:
index <- sample(7009728, 50000)
flights <- flight[index, ]
有没有办法获取随机样本,但一旦在我的数据集中创建,总是给我相同的随机样本?我希望不必依赖保存我的 R 项目就可以做到这一点。
【问题讨论】:
标签: r random random-seed
只需在创建索引之前使用set.seed:
> set.seed(1)
> index <- sample(7009728, 50000)
> head(index)
[1] 1861144 2608487 4015546 6366287 1413735 6297463
它设置随机数生成器种子并确保结果一致。
【讨论】: