【发布时间】:2020-10-01 14:03:42
【问题描述】:
我正在使用逻辑回归来估计足球/足球进球的概率。我有 5 个功能。我的目标值为 1(目标)或 0(无目标)。
一如既往,我在拟合模型之前已经对特征进行了缩放。我使用了 MinMaxScaler,它按如下方式缩放 [0-1] 范围内的所有特征: X_scaled = (x - x_min)/(x_max - x_min)
我的逻辑回归模型的系数如下:
coef = [[-2.26286643 4.05722387 0.74869811 0.20538172 -0.49969841]]
我的第一个想法是第二个特征是最重要的,其次是第一个。总是这样吗?
我读到“换句话说,对于‘第二个特征’增加一个单位,对数赔率的预期变化是 4.05722387。”在this site 上,但在那里,它们的特征被归一化,平均值为 50 和一些标准偏差。
如果我不缩放我的特征,模型的系数如下:
coef = [[-0.04743728 0.04394143 -0.00247654 0.23769469 -0.55051824]]
现在看来,第一个功能比第二个更重要。我在有关我的主题的文献中读到,这确实是真的。所以这让我很困惑。
我的问题是:
- 我的哪些功能最重要,什么/为什么是找到它的最佳方法?
- 如何解释缩放系数的含义?例如。特征 1 增加 1 米是什么意思?我可以在 MinMaxScaler 中扔 1 米,看看会出现什么结果并将其用作“一个 inut 增加”吗?
- 最终概率是否会计算为
y = 1/(1 + exp(-fx))和fx = intercept + feature1*coef1 + feature2*coef2 + ...(所有特征都已缩放)。
【问题讨论】:
-
很好的问题,但它缺少一些代码。请也发布您的一些代码。您似乎混淆了特征和样本。
-
这是Cross Validated 或Data Science 的更好问题
标签: python logistic-regression coefficients interpretation