【发布时间】:2016-07-28 16:57:10
【问题描述】:
我想将我的训练数据分成 70% 的训练、15% 的测试和 15% 的验证。我正在使用 caret 包的 createDataPartition() 函数。我将其拆分如下
train <- read.csv("Train.csv")
test <- read.csv("Test.csv")
split=0.70
trainIndex <- createDataPartition(train$age, p=split, list=FALSE)
data_train <- train[ trainIndex,]
data_test <- train[-trainIndex,]
有什么方法可以使用createDataPartition() 拆分为训练、测试和验证,就像下面的H2o 方法一样?
data.hex <- h2o.importFile("Train.csv")
splits <- h2o.splitFrame(data.hex, c(0.7,0.15), destination_frames = c("train","valid","test"))
train.hex <- splits[[1]]
valid.hex <- splits[[2]]
test.hex <- splits[[3]]
【问题讨论】:
-
进行两次拆分:(1) 将原始数据拆分为训练和临时数据,(2) 将临时数据拆分为测试和验证。
-
2017 年 8 月:R topepo.github.io/rsample 中现在有
rsample包
标签: r machine-learning classification r-caret