【问题标题】:Weka Attribute selection - justifying different outcomes of different methodsWeka 属性选择 - 证明不同方法的不同结果
【发布时间】:2017-03-05 22:21:20
【问题描述】:

我想对数字数据集使用属性选择。 我的目标是找到稍后将在线性回归中用于预测数值的最佳属性。

为了测试,我使用了从here(datasets-numeric.jar) 获得的 autoPrice.arff 使用 ReliefFAttributeEval 我得到以下结果:

Ranked attributes:
 **0.05793   8 engine-size**
 **0.04976   5 width**
 0.0456    7 curb-weight
 0.04073  12 horsepower
 0.03787   2 normalized-losses
 0.03728   3 wheel-base
 0.0323   10 stroke
 0.03229   9 bore
 0.02801  13 peak-rpm
 0.02209  15 highway-mpg
 0.01555   6 height
 0.01488   4 length
 0.01356  11 compression-ratio
 0.01337  14 city-mpg
 0.00739   1 symboling

在使用 InfoGainAttributeEval 时(在将数字应用于名义过滤器之后)给我留下以下结果:

Ranked attributes:
6.8914   7 curb-weight
5.2409   4 length
5.228    2 normalized-losses
5.0422  12 horsepower
4.7762   6 height
4.6694   3 wheel-base
4.4347  10 stroke
4.3891   9 bore
**4.3388   8 engine-size**
**4.2756   5 width**
4.1509  15 highway-mpg
3.9387  14 city-mpg
3.9011  11 compression-ratio
3.4599  13 peak-rpm
2.2038   1 symboling

我的问题是: 我如何证明这两个结果之间的矛盾?如果这两种方法使用不同的算法来实现相同的目标(揭示属性与类的相关性),为什么一个说例如 engine-size 很重要,而另一个说不那么重要!?

【问题讨论】:

    标签: machine-learning weka linear-regression


    【解决方案1】:

    没有理由认为 RELIEF 和信息增益 (IG) 应该给出相同的结果,因为它们测量不同的事物。

    IG 着眼于没有属性和有条件的熵之间的差异;因此,高度信息丰富的属性(相对于类变量)将是排名最高的。

    然而,RELIEF 会查看随机数据实例,并通过与“附近”数据实例进行比较来衡量该特征区分类别的能力。 请注意,relief 是更具启发性的(即,是一种更随机的)方法,并且您获得的值和排序取决于几个参数,这与 IG 不同。

    因此,我们不会期望优化不同数量的算法会给出相同的结果,尤其是当一个参数依赖于参数时。 但是,我想说实际上您的结果 非常相似:例如curb-weighthorsepower 在这两种方法中都非常接近顶部。

    【讨论】:

      猜你喜欢
      • 2019-03-29
      • 1970-01-01
      • 2013-04-20
      • 2022-08-10
      • 2011-09-30
      • 2021-06-19
      • 2015-01-30
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多