【问题标题】:Determine the attribute that influences the outcome most确定对结果影响最大的属性
【发布时间】:2015-01-14 14:57:55
【问题描述】:

我有一个 .csv 格式的数据集,如下所示:

NRC_CLASS,L1_MARKS_FINAL,L2_MARKS_FINAL,L3_MARKS_FINAL,S1_MARKS_FINAL,S2_MARKS_FINAL,S3_MARKS_FINAL,
FAIL,7,12,12,24,4,30,
PASS,49,36,46,51,31,56,
FAIL,59,35,42,18,18,45,
PASS,61,30,51,33,30,52,
PASS,68,30,35,53,45,54,
2,82,77,75,32,36,56,
FAIL,18,35,35,32,21,35,
2,86,56,46,44,37,60,
1,94,45,62,70,50,59,

第一栏讲的是总成绩:

FAIL - Fail
PASS - Pass class
1 - First class
2 - Second class
D - Distinction

接下来是每个学生在 6 个科目中的分数。

我是否可以找出哪个科目的表现对总体结果有影响?

我正在使用 Weka,并且曾经使用 J48 来构建一棵树。

J48分类器的总结是:

=== Summary ===

Correctly Classified Instances       30503               92.5371 %
Incorrectly Classified Instances      2460                7.4629 %
Kappa statistic                          0.902 
Mean absolute error                      0.0332
Root mean squared error                  0.1667
Relative absolute error                 10.8867 %
Root relative squared error             42.7055 %
Total Number of Instances            32963 

我还将标记数据离散化为 10 个 bin,并将 useEqualFrequency 设置为 true。现在J48的总结是:

=== Summary ===

Correctly Classified Instances       28457               86.3301 %
Incorrectly Classified Instances      4506               13.6699 %
Kappa statistic                          0.8205
Mean absolute error                      0.0742
Root mean squared error                  0.2085
Relative absolute error                 24.3328 %
Root relative squared error             53.4264 %
Total Number of Instances            32963 

【问题讨论】:

    标签: classification weka data-mining decision-tree unsupervised-learning


    【解决方案1】:

    首先,您可能需要为每个 NRC_CLASS 值量化一个值(甚至更好,使用 100 分中的实际分数)以提高属性测试的质量。

    从那里,您可能会使用属性选择(在 Weka Explorer 的选择属性选项卡中找到)来查找对整体成绩影响最大的属性。或许 CorrelationAttributeEval 作为属性评估器与 Ranker 搜索方法相结合可以帮助识别最重要的属性。

    希望对您有所帮助!

    【讨论】:

    • 您好,谢谢您的回复。将尝试并发布结果.. :)
    【解决方案2】:

    您似乎想确定每个属性的相对相关性。在这种情况下,您需要使用权重学习算法。 Weka 有几个,我只是用 Relief。转到选项卡选择属性,在属性评估器中,选择 ReliefF-AttributeEval,它将选择 选择具有结果类值的属性。 为您搜索方法。单击开始。 结果将包括排名的属性,排名最高的是最相关的。

    【讨论】:

      【解决方案3】:

      在具有 25 个属性的测试数据集 T 中,运行 i=1:25 轮,将第 i 个属性的值替换为随机值 (=noise)。将 25 轮中每一轮的测试性能与没有替换属性的情况进行比较,找出性能下降最多的一轮。

      如果发生最严重的性能下降,例如在第 13 轮中,这表明属性 13 是最重要的。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2014-12-19
        • 2015-04-20
        • 2015-08-17
        • 2011-01-18
        • 2013-02-08
        • 1970-01-01
        相关资源
        最近更新 更多