【问题标题】:Interpreting logistic regression coefficients of scaled features解释缩放特征的逻辑回归系数
【发布时间】:2020-10-01 14:03:42
【问题描述】:

我正在使用逻辑回归来估计足球/足球进球的概率。我有 5 个功能。我的目标值为 1(目标)或 0(无目标)。

一如既往,我在拟合模型之前已经对特征进行了缩放。我使用了 MinMaxScaler,它按如下方式缩放 [0-1] 范围内的所有特征: X_scaled = (x - x_min)/(x_max - x_min)

我的逻辑回归模型的系数如下:

coef = [[-2.26286643 4.05722387 0.74869811 0.20538172 -0.49969841]]

我的第一个想法是第二个特征是最重要的,其次是第一个。总是这样吗?

我读到“换句话说,对于‘第二个特征’增加一个单位,对数赔率的预期变化是 4.05722387。”在this site 上,但在那里,它们的特征被归一化,平均值为 50 和一些标准偏差。

如果我不缩放我的特征,模型的系数如下:

coef = [[-0.04743728 0.04394143 -0.00247654 0.23769469 -0.55051824]]

现在看来,第一个功能比第二个更重要。我在有关我的主题的文献中读到,这确实是真的。所以这让我很困惑。

我的问题是:

  • 我的哪些功能最重要,什么/为什么是找到它的最佳方法?
  • 如何解释缩放系数的含义?例如。特征 1 增加 1 米是什么意思?我可以在 MinMaxScaler 中扔 1 米,看看会出现什么结果并将其用作“一个 inut 增加”吗?
  • 最终概率是否会计算为y = 1/(1 + exp(-fx))fx = intercept + feature1*coef1 + feature2*coef2 + ... (所有特征都已缩放)。

【问题讨论】:

  • 很好的问题,但它缺少一些代码。请也发布您的一些代码。您似乎混淆了特征和样本。
  • 这是Cross ValidatedData Science 的更好问题

标签: python logistic-regression coefficients interpretation


【解决方案1】:

我的哪些功能最重要,什么/为什么是找到它的最佳方法?

查看几个版本的边际效应计算。比如看overview/discussion in a blogStata's exampleresources for R

如何解释比例系数的含义?例如。特征 1 增加 1 米是什么意思?我可以在 MinMaxScaler 中扔 1 米,看看会出现什么并将其用作“一个 inut 增加”吗?

解释取决于您计算的边际效应。当您谈论一个单位的 X 增加/减少概率或优势比等的变化时,您只需要考虑缩放。

最终概率是否真的会计算为 y = 1/(1 + exp(-fx)) 与 fx = intercept + feature1coef1 + feature2coef2 + ...(与所有特征都已缩放)。

是的,只是特征 x 是按比例衡量的。

【讨论】:

    猜你喜欢
    • 2018-12-03
    • 2019-10-11
    • 1970-01-01
    • 2021-09-10
    • 2014-01-19
    • 2021-06-10
    • 2014-08-06
    • 2019-02-12
    • 2016-05-15
    相关资源
    最近更新 更多