采样数据框保持所有级别的因子变量答案

【问题标题】：Sampling data frames maintaining all levels of factor variables采样数据框保持所有级别的因子变量
【发布时间】：2020-08-12 21:03:58
【问题描述】：

我需要对一个数据框进行采样，以维护结果中的所有级别的因素。然后我想得到这个样本的补集——即那些不属于样本的行。我的最终目标是为回归分析创建训练和测试样本。为了成功地做到这一点，我需要确保所有级别的因子变量都在训练样本中得到体现。

我尝试过的方法（下面的示例代码）是使用 dplyr::group_by 结合 dplyr::slice_sample 然后 dplyr::anti_join 来获取测试样本。由于某种原因，它不起作用。要么我遗漏了有关这些功能应该如何工作的一些信息，要么它们的行为不符合预期。

我也尝试过基于this question 的方法。它们不起作用，因为 (1) 我需要保证多个因素的所有级别都得到了表示，并且 (2) 我想选择观察的一部分，而不是特定的数字。

示例代码

> library(tidyverse) 
> 
> set.seed(72)
> 
> data <- tibble(y = rnorm(100), x1 = rnorm(100), 
+   x2 = sample(letters, 100, T), x3 = sample(LETTERS, 100, T))
> data
# A tibble: 100 x 4
         y     x1 x2    x3   
     <dbl>  <dbl> <chr> <chr>
 1  1.37   -0.737 c     C    
 2  1.16    1.66  c     T    
 3  0.0344 -0.319 q     P    
 4  1.03   -0.963 k     C    
 5  0.636   0.961 i     H    
 6  0.319   0.761 g     L    
 7  0.216   0.860 u     M    
 8  1.31    0.887 g     M    
 9 -0.594   2.70  m     I    
10 -0.542   0.517 u     C    
# … with 90 more rows
> 
> train_data <- data %>%
+   group_by(x2, x3) %>%
+   slice_sample(prop = .7)
> train_data # clearly this is not what I want 
# A tibble: 8 x 4
# Groups:   x2, x3 [8]
       y     x1 x2    x3   
   <dbl>  <dbl> <chr> <chr>
1  1.23  -0.297 c     A    
2  1.11   0.689 e     O    
3  0.559  0.353 e     Z    
4 -1.65  -1.71  l     M    
5 -0.777  1.31  l     X    
6  0.784  0.309 s     E    
7  0.755 -0.362 u     X    
8 -0.768  0.292 v     H    
> 
> test_data <- data %>%
+   anti_join(train_data)
Joining, by = c("y", "x1", "x2", "x3")
> test_data # my goal was that the training data would have 70%  and the test data would have around 30% of the full sample.
# A tibble: 92 x 4
         y     x1 x2    x3   
     <dbl>  <dbl> <chr> <chr>
 1  1.37   -0.737 c     C    
 2  1.16    1.66  c     T    
 3  0.0344 -0.319 q     P    
 4  1.03   -0.963 k     C    
 5  0.636   0.961 i     H    
 6  0.319   0.761 g     L    
 7  0.216   0.860 u     M    
 8  1.31    0.887 g     M    
 9 -0.594   2.70  m     I    
10 -0.542   0.517 u     C    
# … with 82 more rows
> 
> reg <- lm(y ~ x1 + x2 + x3, train_data)
> predict(reg, newdata = test_data) # I obviously still have the same problem
Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) : 
  factor x2 has new levels a, b, d, f, g, h, i, j, k, m, n, o, p, q, r, t, w, x, y, z
> 
>

【问题讨论】：

一种方法是拒绝抽样。第 1 步：抽取样本，第 2 步检查是否存在所有因子水平。如果是，请继续，如果不是，则拒绝样品并再次抽取。
我确信有一种方法可以做到这一点，而无需求助于多次迭代，这会降低我的代码速度——尤其是当我有一个大数据集时。

标签： r dplyr sampling

【解决方案1】：

您的代码/方法没有任何问题。你没有足够的观察。有很多组中只有 1 行，当以 0.7 比例采样时，会将其向下舍入为 0。如果将样本更改为 1000 行，相同的代码可以正常工作而不会出错。

library(dplyr)
data <- tibble(y = rnorm(1000), x1 = rnorm(1000), 
                  x2 = sample(letters, 1000, T), x3 = sample(LETTERS, 1000, T))
train_data <- data %>%
  group_by(x2, x3) %>%
  slice_sample(prop = 0.7) 

test_data <- data %>%  anti_join(train_data)

reg <- lm(y ~ x1 + x2 + x3, train_data)
predict(reg, newdata = test_data)

如果在您的真实数据中，您的组只有 1 行，您可以对它们进行采样，以便选择 max of 1 或（0.7*组中的行数）。

train_data <- data %>% group_by(x2, x3) %>% sample_n(max(0.7*n(), 1))

（这里使用了sample_n，因为我不能在slice_sample中使用n()）。

【讨论】：

您的第二种方法有效。我仍然在使用 anti_join 时遇到问题，因为测试样本不包括未选择到训练数据中的所有观察结果，但这是一个不同的问题。

【解决方案2】：

我不得不将您的数据扩展到 10,000 行，以便为每个分类变量组合获得合理数量的观察结果。然后，我使用来自dplyr（1.0.1 版）的nest_by() 并对每个子集进行采样。

library(dplyr)    
set.seed(72)
data <- tibble(y = rnorm(10000), x1 = rnorm(10000), 
               x2 = sample(letters, 10000, T), x3 = sample(LETTERS, 10000, T)) 
train <- data %>% 
    nest_by(x2, x3, .key = "xy") %>% 
    mutate(sample = list(xy[sample(1:nrow(xy), 
                                   size = round(0.7*nrow(xy))),])) %>%
    select(-xy) %>%
    summarize(sample)
train
# A tibble: 6,975 x 4
# Groups:   x2, x3 [676]
   x2    x3         y      x1
   <chr> <chr>  <dbl>   <dbl>
 1 a     A     -0.539 -1.22  
 2 a     A     -0.664  0.453 
 3 a     A     -1.32  -0.831 
 4 a     A      0.765  0.258 
 5 a     A     -0.462  0.764 
 6 a     A      1.86  -0.0400
 7 a     A     -1.15   1.02  
 8 a     A      0.244 -0.823 
 9 a     A     -0.277 -0.744 
10 a     A      0.221 -0.292 
# ... with 6,965 more rows
test <- data%>%
    anti_join(train)
test
# A tibble: 3,025 x 4
       y     x1 x2    x3   
    <dbl>  <dbl> <chr> <chr>
 1  0.636  1.71  b     P    
 2  0.319 -0.851 b     K    
 3  1.31  -1.61  r     A    
 4 -1.03   0.436 a     B    
 5 -0.672 -1.43  g     O    
 6 -1.42  -0.637 l     L    
 7  0.879 -1.78  t     G    
 8  0.935 -1.44  g     C    
 9 -2.21  -0.842 v     F    
10 -1.00  -2.40  i     D    
# ... with 3,015 more rows

我可以毫无错误地运行您的lm() 和predict()。

如果您有旧版本的dplyr，这里有一种稍微不同的方式来制作train。

library(dplyr)
library(tidyr)
library(purrr)
train <-data %>%
  nest(x2, x3) %>%
  mutate(sample = map(data, function(df) {df[sample(1:nrow(df), round(0.7*nrow(df))),]}) %>%
  select(-data) %>%
  unnest(sample)

【讨论】：

仅供参考：这是stratified sampling，一种合法的采样技术。它有优点和缺点，但关于这些的问题属于 Cross Validated。
由于我接受的答案中解释的原因，您的方法不起作用。但是，通过在对 sample() 的调用中添加 size = max(.7 * nrow(xy), 1) 很容易使您的方法发挥作用。不过，我接受了另一个答案，只是因为我认为它更优雅。