【问题标题】:How to take a sample of a data set in R [duplicate]如何在R中抽取数据集的样本[重复]
【发布时间】:2018-10-24 22:40:18
【问题描述】:

所以我有这个包含 18 个变量和大约 10,000,000 个观察值的数据集。该集合对于我的计算机来说太大了,因此我需要采集较小的数据样本来分析它。但是,我不想要一个随机样本。我的变量之一“tip_level”是一个具有两个级别的因素,“高”和“低”。有没有办法对 100,000 个观测值进行抽样,其中 50,000 个为“高”变量,50,000 个为“低”变量?

【问题讨论】:

  • 数据集存储在哪里/如何存储?如果不进行分析,您是否有足够的内存来加载整个内容?
  • 我不知道您要分析的具体是什么,但如果它是某种东西,它是否更适合SQL?
  • 它在我的硬盘上,我可以将它加载到 r 中。只是用它做任何事情都需要永远完成。

标签: r


【解决方案1】:

假设你可以加载数据,怎么样

theseones <- c(sample(which(my_df$tip_level=="high"), 50000), 
               sample(which(my_df$tip_level=="low"), 50000))
my_df[theseones,]

【讨论】:

  • @12b345b6b78 - 这不仅仅是一个随机样本,而是根据要求按每个提示级别进行分层。
猜你喜欢
  • 1970-01-01
  • 2012-05-01
  • 2021-02-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-07-27
  • 2011-04-27
相关资源
最近更新 更多