【发布时间】:2012-05-01 17:31:02
【问题描述】:
如果我在 R 中有一个大型数据集,我如何在考虑原始数据分布的情况下随机抽取数据样本,特别是如果数据是倾斜的并且只有 1% 属于次要类并且我想对数据进行有偏差的抽样?
【问题讨论】:
-
导入数据,找到“级别”的权重,然后让
sample处理剩下的事情。如果您可以缩小您的问题范围(至少有样本数据 - stackoverflow.com/questions/5963269/…),这将有所帮助。