交叉表和混淆矩阵在 Python 中导致不一致答案

【问题标题】：Crosstab and confusion_matrix results disagreement in Python交叉表和混淆矩阵在 Python 中导致不一致
【发布时间】：2020-03-30 05:20:07
【问题描述】：

我需要使用 Python 中的交叉表函数生成混淆矩阵（作为练习）。我一直在使用各种数据集进行此操作，效果很好，但这次我遇到了一个奇怪的问题。

数据集分为训练集和测试集（X_train, y_train, X_test, y_test）。测试集是构成响应变量的一系列 0 和 1。我对训练集进行了逻辑回归，并预测了测试集的值：

logit1 = sm.Logit(y_train, X_train).fit()
pred = logit1.predict(X_test)

然后，我使用 0.5 的截止值对响应的值进行分类，结果我有一系列与 y_test (2500) 长度相同的 0 和 1。这个系列叫做 res，现在我想用交叉表创建混淆表：

cross_table = pd.crosstab(y_test, res, rownames=['Actual'], colnames=['Predicted'], margins=True)

但这给了我下表，加起来不等于 2500：

Predicted  0.0  1.0  All
Actual                  
0.0        413   52  465
1.0        140   20  160
All        553   72  625

当我使用 sklearn 中的confusion_matrix 函数时，我得到了正确的总数 2500：

confusion_matrix(y_test, res)

array([[1817,  110],
       [ 369,  205]])

我的交叉表有什么问题？？？

包：

from pandas import Series, DataFrame
import pandas as pd
import statsmodels.api as sm
from sklearn.metrics import confusion_matrix

完整代码：

# indexes of train and test were provided in external files:
train = pd.read_csv('/Users//train.csv')
test = pd.read_csv('/Users//test.csv')

X_train = X.iloc[train.values[:,0],:]
X_test = X.iloc[test.values[:,0],:]

y_train = y[train.values[:,0]]
y_test = y[test.values[:,0]]

logit1 = sm.Logit(y_train, X_train).fit()
pred = logit1.predict(X_test)

res = []
for i in pred:
    if i >= 0.5:
        each = 1
    else:
        each = 0
    res.append(each)

res = Series(res)

cross_table = pd.crosstab(y_test, res, rownames=['Actual'], colnames=['Predicted'], margins=True)

d = confusion_matrix(y_test, res)

建议编辑：

cross_table = pd.crosstab(y_test, res, rownames=['Actual'], 
colnames=['Predicted'], margins=True,dropna=False)

Predicted   0.0  1.0   All
Actual                    
0.0         413   52  1927
1.0         140   20   574
All        2186  315  4377

【问题讨论】：

标签： python machine-learning classification confusion-matrix

【解决方案1】：

虽然我仍然不知道为什么上述方法不起作用，但我想出了需要进行哪些更改才能使其起作用。包含预测的对象 res 需要保存为数组：

import numpy as np

res = np.array(res)
cross_table = pd.crosstab(y_test, res, rownames=['Actual'], colnames=['Predicted'], margins=True)

Predicted     0    1   All
Actual                    
0          1817  110  1927
1           369  205   574
All        2186  315  2501

与confusion_matrix的结果相同。

【讨论】：

【解决方案2】：

如果我这样做：

import numpy as np
import pandas as pd
data = np.array([1, 1, 0, 0, 0])
data2 = np.array([1, 0, 0, 0, 1])
y_test =  pd.Series(data) 
res = pd.Series(data2)

然后运行：pd.crosstab(y_test, res, rownames=['Actual'], colnames=['Predicted'], margins=True)

我明白了：

这是正确的。

还有：

from sklearn.metrics import ocnfusion_matrix
confusion_matrix(y_test, res)

给我正确的输出，所以错误在其他地方。

【讨论】：