【发布时间】:2020-01-25 17:42:17
【问题描述】:
我有一些关于 NFL 球员统计数据的数据。我想把它分成训练和测试数据集,其中的分割是基于观察年份的。
特别是,我的数据包含从 1999 年到 2019 年对球员统计数据的观察。我想随机选择 20% 的年份(4 年)数据作为我的测试集,然后将剩余 17 年的数据作为我的测试集训练集。
我现在拥有的是:
# Set seed
set.seed(43)
# Determine how many years of data should be in test
split <- round(nrow(as.data.frame(table(data$year)))*0.20)
# Pick (split) random years to keep as test
test_years <- sample(data$year, split)
我想知道的写法是:
train <- data where year is not in test_years
我该怎么做?
【问题讨论】:
标签: r machine-learning data-manipulation