【发布时间】:2015-11-03 23:57:21
【问题描述】:
在 sklearn 中,GridSearchCV 可以将管道作为参数,通过交叉验证找到最佳估计器。但是,通常的交叉验证是这样的:
也就是说,测试数据应该总是领先于训练数据。
我的想法是:
-
编写我自己的k-fold版本类并将其传递给GridSearchCV,这样我就可以享受管道的便利。问题是让 GridSearchCV 使用指定的训练和测试数据索引似乎很困难。
-
写一个新的类GridSearchWalkForwardTest,类似于GridSearchCV,正在研究grid_search.py源码,发现有点复杂。
欢迎提出任何建议。
【问题讨论】:
标签: python scikit-learn time-series cross-validation