【问题标题】:Why is my Sklearn LogistricRegression model predicting 100% correctly?为什么我的 Sklearn LogisticRegression 模型预测 100% 正确?
【发布时间】:2020-06-26 08:35:14
【问题描述】:

我有一个 3420 行 x 13 列的 Pandas DataFrame,我试图预测标签“FTR”是 1 还是 0。为此,我使用 Scikit learn 的 LogisticRegression。我的问题是我的模型预测 100% 正确,这似乎是不正确的。我有以下代码:

dataCopy = dataCopy[['FTHG', 'FTAG', 'FTR', 'HTGS', 'ATGS', 'HTGC', 'ATGC', 'HTP', 'ATP', 'HomeTeamLP', 'AwayTeamLP', 'MW', 'HTGD', 'ATGD', 'DiffPts', 'DiffFormPts', 'DiffLP']]

X_all = dataCopy.drop(['FTR'],axis=1)
y_all = dataCopy.FTR

X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size=0.3)

LogReg = LogisticRegression()
LogReg.fit(X_train, y_train)
y_pred = LogReg.predict(X_test)

print(classification_report(y_test, y_pred))

打印出分类报告显示:

如果有人能告诉我为什么我得到 100%,我将不胜感激,因为它看起来不正确。

【问题讨论】:

  • 有时可以清楚地分离类和数据输入而没有噪音。如果您对此不满意,请向我们展示您的完整管道,包括您的数据。

标签: python python-3.x pandas scikit-learn logistic-regression


【解决方案1】:

您检查过逻辑回归权重吗?这是LogReg 逻辑回归中的coef_ 属性。有可能它使用其中一个特征进行预测的次数要多于其他特征。如果是这种情况,那么该功能是否可以合理地包含在培训中?

根据所提供的信息,很难准确诊断出发生了什么。

【讨论】:

    猜你喜欢
    • 2019-01-28
    • 1970-01-01
    • 2017-07-31
    • 2017-05-31
    • 2017-10-28
    • 2021-12-27
    • 2019-07-23
    • 2021-02-27
    • 2020-04-01
    相关资源
    最近更新 更多