【问题标题】:Random samples but grouped by certain values in columns随机样本,但按列中的某些值分组
【发布时间】:2017-04-15 10:59:39
【问题描述】:

我有一个大约 200k 行的数据集,如下所示:

Report ID | Month | Day | Year | Location ID | comments
1             4       1    2015       200          blah blah blah
2            11       3    2014       100          blah blah blah 
3             4       5    2015       203          blah blah blah
4             8      30    2012       204          blah blah blah
5            11       5    2013       204          blah blah blah
6            11       1    2015       100          blah blah blah  
7            11      10    2013       204          blah blah blah

我需要创建一个报告 ID 的随机样本,该样本具有均匀分布的位置 ID、年份和月份。我知道这并不是真正的随机样本,但是位置 ID 严重偏向某些位置,并且某些月份的报告比其他位置多得多。

我在 R 中尝试过各种采样和子设置技术,但他们似乎都想对整个数据集进行采样,我一直无法找到一种方法可以让样本提供 500 报告每个位置的 ID。更别说能说,在这500个里面,我想要年月的平均分配。有什么建议吗?

【问题讨论】:

标签: r random


【解决方案1】:

我能够使用 dplyr 并按照 Joshuagordon 先生留下的评论的引导到达那里。

mtcars %>% 
    group_by(cyl) %>%
    do(sample_n(.,2))

sample rows of subgroups from dataframe with dplyr

【讨论】:

    猜你喜欢
    • 2020-09-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-08-17
    • 2018-03-25
    • 1970-01-01
    • 2022-09-27
    • 2021-08-12
    相关资源
    最近更新 更多