【发布时间】:2015-01-13 03:16:36
【问题描述】:
我正在尝试通过评估我的回归系数输出来执行特征选择,并选择具有最高幅度系数的特征。问题是,我不知道如何获得各自的特征,因为只有系数从 coef._ 属性返回。文档说:
线性回归问题的估计系数。如果多个 在拟合期间传递目标(y 2D),这是一个 2D 数组 shape (n_targets, n_features),而如果只传递一个目标, 这是一个长度为 n_features 的一维数组。
我正在传入我的regression.fit(A,B),其中A 是一个二维数组,文档中的每个特征都有tfidf 值。示例格式:
"feature1" "feature2"
"Doc1" .44 .22
"Doc2" .11 .6
"Doc3" .22 .2
B 是我的数据目标值,只是与每个文档相关的数字 1-100:
"Doc1" 50
"Doc2" 11
"Doc3" 99
使用regression.coef_,我得到了一个系数列表,但没有得到它们对应的特征!我怎样才能获得这些功能?我猜我需要修改我的 B 目标的结构,但我不知道如何。
【问题讨论】:
标签: scikit-learn linear-regression feature-selection