【发布时间】:2017-03-05 22:21:20
【问题描述】:
我想对数字数据集使用属性选择。 我的目标是找到稍后将在线性回归中用于预测数值的最佳属性。
为了测试,我使用了从here(datasets-numeric.jar) 获得的 autoPrice.arff 使用 ReliefFAttributeEval 我得到以下结果:
Ranked attributes:
**0.05793 8 engine-size**
**0.04976 5 width**
0.0456 7 curb-weight
0.04073 12 horsepower
0.03787 2 normalized-losses
0.03728 3 wheel-base
0.0323 10 stroke
0.03229 9 bore
0.02801 13 peak-rpm
0.02209 15 highway-mpg
0.01555 6 height
0.01488 4 length
0.01356 11 compression-ratio
0.01337 14 city-mpg
0.00739 1 symboling
在使用 InfoGainAttributeEval 时(在将数字应用于名义过滤器之后)给我留下以下结果:
Ranked attributes:
6.8914 7 curb-weight
5.2409 4 length
5.228 2 normalized-losses
5.0422 12 horsepower
4.7762 6 height
4.6694 3 wheel-base
4.4347 10 stroke
4.3891 9 bore
**4.3388 8 engine-size**
**4.2756 5 width**
4.1509 15 highway-mpg
3.9387 14 city-mpg
3.9011 11 compression-ratio
3.4599 13 peak-rpm
2.2038 1 symboling
我的问题是: 我如何证明这两个结果之间的矛盾?如果这两种方法使用不同的算法来实现相同的目标(揭示属性与类的相关性),为什么一个说例如 engine-size 很重要,而另一个说不那么重要!?
【问题讨论】:
标签: machine-learning weka linear-regression