【问题标题】:What does the information gain measure show?信息增益测量显示什么?
【发布时间】:2015-11-03 22:16:43
【问题描述】:

我正忙于使用 r 中的 fSelector 包来使用 information.gain 函数测量信息增益。

我不确定输出给了我什么,因为有缺点,我了解 iris 数据集上的输出。

weights <- information.gain(cross_over ~ age + max_stake_scale + current_loyalty_status + lifespan + early_hours + morning + afternoon + evening, df

输出是:

attr_importance
age                           0.000000e+00
max_stake_scale               0.000000e+00
current_loyalty_status        2.968854e-04
lifespan                      1.523364e-02
early_hours                   0.000000e+00
morning                       0.000000e+00
afternoon                     0.000000e+00
evening                       0.000000e+00

响应变量是二元的,交叉与否,是或否。我不确定重要的功能是什么。

谢谢

【问题讨论】:

    标签: r machine-learning data-mining data-modeling


    【解决方案1】:

    信息增益告诉您通过了解特定功能的价值可以获得多少信息。对于二元分类问题,您需要 1 位信息来进行分类(因为有两种可能的结果);即特定特征的最大信息增益为 1。

    在您的情况下,几乎所有特征的信息增益都是 0,这意味着知道它们的值对决定数据的类别毫无帮助。非零值表示最重要的(尽管仍然非常缺乏信息)特性——lifespancurrent_loyalty_status。减号只是指数符号的一部分,即2.968854e-04 表示2.968854 * 10^-40.0002968854

    【讨论】:

    • 谢谢@Lars,我是不是使用了错误的特征选择方法?或者我应该在这样做之前对数据进行规范化吗?另外,您是说寿命和 current_loyality_status 是模型最重要的特征吗?我还有一些其他功能,它们是二进制和分类功能的混合,虽然我也只上传了一些获取有关值的信息。谢谢
    • 不,您正在按预期使用该方法,并且您正在获得有效的输出。我告诉你如何解释输出。
    • 太棒了,谢谢 - 所以当前的忠诚度状态是最重要的特征,而 0 的那些则不太重要。谢谢
    • 特别是 0 的那些不会告诉你任何事情。它们没用。
    猜你喜欢
    • 2010-12-23
    • 2010-12-27
    • 2011-07-24
    • 2015-09-30
    • 2011-06-01
    • 2017-06-27
    • 2018-04-12
    • 2016-01-30
    • 2014-10-17
    相关资源
    最近更新 更多