【发布时间】:2020-12-23 08:12:33
【问题描述】:
在 Kaggle 比赛中,我们有一个训练和测试数据集。因此,我们通常在训练数据集上开发一个模型,并使用算法看不到的测试数据集对其进行评估。我想知道如果只给我们一个数据集而没有任何测试数据集,那么验证回归问题的最佳方法是什么。我认为可能有两种方法:
-
第一步,导入数据集后,将其转换为训练和测试数据集,使用这种方法,直到最后一步,算法才能看到测试集。在进行预处理和特征工程之后,我们可以在训练数据集上使用交叉验证技术或使用 train-test-split 来改善我们模型的误差。最后,可以通过看不见的数据来检验模型的质量。
-
另外,我看到对于回归问题,一些数据科学家使用整个数据集进行测试和验证,我的意思是他们同时使用所有数据。
你能帮我看看哪种策略更好吗?特别是当招聘人员只给我们一个数据集并要求我们开发一个模型来预测目标变量时。
谢谢, 医学
【问题讨论】:
标签: regression data-science train-test-split