随机样本，但按列中的某些值分组答案

【问题标题】：Random samples but grouped by certain values in columns随机样本，但按列中的某些值分组
【发布时间】：2017-04-15 10:59:39
【问题描述】：

我有一个大约 200k 行的数据集，如下所示：

Report ID | Month | Day | Year | Location ID | comments
1             4       1    2015       200          blah blah blah
2            11       3    2014       100          blah blah blah 
3             4       5    2015       203          blah blah blah
4             8      30    2012       204          blah blah blah
5            11       5    2013       204          blah blah blah
6            11       1    2015       100          blah blah blah  
7            11      10    2013       204          blah blah blah

我需要创建一个报告 ID 的随机样本，该样本具有均匀分布的位置 ID、年份和月份。我知道这并不是真正的随机样本，但是位置 ID 严重偏向某些位置，并且某些月份的报告比其他位置多得多。

我在 R 中尝试过各种采样和子设置技术，但他们似乎都想对整个数据集进行采样，我一直无法找到一种方法可以让样本提供 500 报告每个位置的 ID。更别说能说，在这500个里面，我想要年月的平均分配。有什么建议吗？

【问题讨论】：

stackoverflow.com/questions/21255366/…
你见过this吗？
这些把我带到了那里。谢谢！

标签： r random

【解决方案1】：

我能够使用 dplyr 并按照 Joshuagordon 先生留下的评论的引导到达那里。

mtcars %>% 
    group_by(cyl) %>%
    do(sample_n(.,2))

sample rows of subgroups from dataframe with dplyr

【讨论】：