【发布时间】:2021-09-29 11:14:15
【问题描述】:
我已将我的数据 (train.tsv) 分成 2 组(训练和验证集),即 X_train、y_train、X_validation、y_validation。
在特征选择之后,我已经放弃了 6 个特征。删除功能后:
X_train.shape, y_train.shape, X_validation.shape, y_validation.shape, X_test.shape
返回:
((59372, 40), (59372,), (14844, 40), (14844,), (10618, 46))
在 X_train 和 y_train 上拟合我的模型后,我已经在 X_validation 上预测了我的模型。
但我还想使用
在单独的保留集 (test.tsv) 上预测我的模型y_pred_on_testset = model.predict(X_test)
这个保留集本质上是我没有训练我的模型的看不见的数据。然而,这个保持集有 46 个特征(如上图 X_test.shape 所示)。
如果我也放弃了这个 test.tsv(测试集)上的 6 个功能,这是否有意义?我确信我可以在删除 6 个特征后在这个测试集上预测我的模型,否则它将返回错误:
ValueError:特征形状不匹配,预期:40,得到 46
因为我在 40 个特征上训练了我的模型,而不是 46 个。
我不确定是否应该继续删除这 6 个功能?由于测试集是我不应该修改的看不见的数据?
非常感谢任何建议,谢谢!
【问题讨论】:
标签: python