【发布时间】:2018-08-16 01:04:18
【问题描述】:
我目前正在研究一个问题,该问题比较三种不同机器学习算法在同一数据集上的性能。我将数据集划分为 70/30 个训练/测试集,然后使用 GridSearchCV 和X_train, y_train 对每个算法的最佳参数进行网格搜索。
第一个问题,我是想在训练集上执行网格搜索还是在整个数据集上执行网格搜索?
第二个问题,我知道 GridSearchCV 在其实现中使用了 K-fold,如果我在 GridSearchCV 中比较的所有三种算法都使用相同的X_train, y_train,这是否意味着我执行了交叉验证?
任何答案将不胜感激,谢谢。
【问题讨论】:
标签: python machine-learning scikit-learn cross-validation grid-search