【发布时间】:2023-03-14 13:16:02
【问题描述】:
我正在处理 kaggle 上的房价竞赛。我有一个数据准备函数,它使用递归特征消除 (RFE) 进行特征选择,如下所示:
rfe = RFE(estimator=ElasticNet(), n_features_to_select=10)
X_selected = rfe.fit_transform(X, y)
X = pd.DataFrame(X_selected)
X, y = dataset.iloc[:,:-1], dataset.iloc[:,-1:] 的位置在我使用训练数据集时效果很好,但在我使用测试数据集时却不行,因为它没有 y 变量。
我的问题是,如何选择与使用训练数据集时相同的特征?
我在使用TruncatedSVD 进行降维时遇到了同样的问题:
svd = TruncatedSVD(n_components=30)
X_trans = svd.fit_transform(X)
X = pd.DataFrame(X_trans)
我有集合 X(训练)和集合 datasetTest(测试),我希望选择相同的特征。
【问题讨论】:
标签: python machine-learning scikit-learn feature-selection kaggle