【发布时间】:2018-06-21 02:31:51
【问题描述】:
我有一组带有结果列的 CSV 要训练,还有一组没有结果列的测试 CSV。
library(h2o)
h2o.init()
train <- read.csv(train_file, header=T)
train.h2o <- as.h2o(train)
y <- "Result"
x <- setdiff(names(train.h2o), y)
model <- h2o.deeplearning(x = x,
y = y,
training_frame = train.h2o,
model_id = "my_model",
epochs = 5000,
hidden = c(50),
stopping_rounds=5,
stopping_metric="misclassification",
stopping_tolerance=0.001,
seed = 1)
test <- read.csv(test_file, header=T)
test.h2o <- as.h2o(test)
pred <- h2o.predict(model,test.h2o)
当我尝试使用测试数据预测结果时,我得到了一堆错误,例如:
1: In doTryCatch(return(expr), name, parentenv, handler) :
Test/Validation dataset column 'ColumnName' has levels not trained on: [ABCD, BCDE]
H2O 过去能够处理测试中存在的数据,但不能处理训练期间的数据。我在网上找到了一些他们说的帖子。但这对我不起作用。
如何避免这些错误,并预测测试数据的值?
【问题讨论】:
-
您能否通过使用公开可用的数据集将其转化为可重现的示例? H2O 应该忽略新的关卡,所以我不知道这里发生了什么(我之前没有看到过这个错误),如果它是一个错误,我们希望能够重现以便修复它。谢谢。
标签: r machine-learning classification h2o