【发布时间】:2013-05-29 06:56:34
【问题描述】:
给定一个包含 1000 个样本数据的样本数据集,假设我想对数据进行预处理以获得 10000 行数据,因此每个原始数据行都会导致 10 个新样本。此外,在训练我的模型时,我也希望能够执行交叉验证。 我拥有的评分函数使用原始数据来计算分数,因此我希望交叉验证评分也适用于原始数据而不是生成的数据。由于我将生成的数据提供给训练器(我使用的是 RandomForestClassifier),因此我不能依靠交叉验证来根据原始样本正确拆分数据。
我想做什么:
- 创建自定义特征提取器以提取特征以提供给分类器。
- 将特征提取器添加到管道并将其馈送到例如 GridSearchCv 中
- 实现一个自定义评分器,该评分器对原始数据进行操作,以便在给定一组选定参数的情况下对模型进行评分。
对于我想要完成的事情,有更好的方法吗?
我问这个与现在在Kaggle上进行的比赛有关
【问题讨论】:
标签: scikit-learn feature-extraction cross-validation