【发布时间】:2020-04-11 07:43:30
【问题描述】:
我想为使用 countVectorizer 提取特征的 LinearSVC 估计器生成学习曲线。 countVectorizer 也在应用一些特征选择步骤。
我可以做到以下几点:
在所有数据上拟合矢量化器,包括前 N 个特征的选择
使用这些特征拟合线性SVC
- 在 sklearn.model_selection.learning_curve() 中使用 linearSVC 作为估计器
但我认为这会导致信息泄露:基于所有数据的信息将用于为学习曲线中使用的较小集合选择特征。
这是正确的吗? 有没有办法使用内置的 sklearn.model_selection.learning_curve() 和 countVectorizer 而不会泄露信息?
谢谢!
【问题讨论】:
标签: scikit-learn