【发布时间】:2017-04-15 10:59:39
【问题描述】:
我有一个大约 200k 行的数据集,如下所示:
Report ID | Month | Day | Year | Location ID | comments
1 4 1 2015 200 blah blah blah
2 11 3 2014 100 blah blah blah
3 4 5 2015 203 blah blah blah
4 8 30 2012 204 blah blah blah
5 11 5 2013 204 blah blah blah
6 11 1 2015 100 blah blah blah
7 11 10 2013 204 blah blah blah
我需要创建一个报告 ID 的随机样本,该样本具有均匀分布的位置 ID、年份和月份。我知道这并不是真正的随机样本,但是位置 ID 严重偏向某些位置,并且某些月份的报告比其他位置多得多。
我在 R 中尝试过各种采样和子设置技术,但他们似乎都想对整个数据集进行采样,我一直无法找到一种方法可以让样本提供 500 报告每个位置的 ID。更别说能说,在这500个里面,我想要年月的平均分配。有什么建议吗?
【问题讨论】:
-
你见过this吗?
-
这些把我带到了那里。谢谢!