如何在R中抽取数据集的样本[重复]答案

【问题标题】：How to take a sample of a data set in R [duplicate]如何在R中抽取数据集的样本[重复]
【发布时间】：2018-10-24 22:40:18
【问题描述】：

所以我有这个包含 18 个变量和大约 10,000,000 个观察值的数据集。该集合对于我的计算机来说太大了，因此我需要采集较小的数据样本来分析它。但是，我不想要一个随机样本。我的变量之一“tip_level”是一个具有两个级别的因素，“高”和“低”。有没有办法对 100,000 个观测值进行抽样，其中 50,000 个为“高”变量，50,000 个为“低”变量？

【问题讨论】：

数据集存储在哪里/如何存储？如果不进行分析，您是否有足够的内存来加载整个内容？
我不知道您要分析的具体是什么，但如果它是某种东西，它是否更适合SQL？
它在我的硬盘上，我可以将它加载到 r 中。只是用它做任何事情都需要永远完成。

标签： r

【解决方案1】：

假设你可以加载数据，怎么样

theseones <- c(sample(which(my_df$tip_level=="high"), 50000), 
               sample(which(my_df$tip_level=="low"), 50000))
my_df[theseones,]

【讨论】：

@12b345b6b78 - 这不仅仅是一个随机样本，而是根据要求按每个提示级别进行分层。