泊松模型（二元响应）评估指标答案

【问题标题】：Poisson Model (Binary Response) Evaluation Metrics泊松模型（二元响应）评估指标
【发布时间】：2020-12-01 13:19:08
【问题描述】：

我不确定要在我的模型中使用的正确评估指标，希望得到您的建议。

型号信息：
我在一个数据集上用 Python 拟合了一个 GLM Poisson 模型，其中每行数据在 0 到 1 之间具有不同的曝光度，并且响应变量是二进制的。例如，前 4 行数据的曝光和响应在数据框中可能如下所示：

曝光：0.345, 0.123, 0.8, 0.00387....

回复：0, 1, 0, 0.....

我的模型有 6 个因子，均显示出统计学意义。模型预测在0.01到6之间。

我最初使用Mean_Square_Error 和R2_Score 作为评估指标（见下面的代码），但我得到了奇怪的结果。我得到了Mean Square Error: 0.01 和R2_Score: 0.03，这是一个很差的分数。如果我没有将Model_Prediction 乘以Exposure，我得到一个负数R2_Score。

from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

print("Mean Square Error")
print(round(mean_squared_error(Response,  Model_Prediction * Exposure),2))

print("R2_Score")
print(round(r2_score(Response,  Model_Prediction * Exposure),2))

我的问题是：

我是否错误地使用了mean_squared_error 和r2_score？
鉴于响应为 0/1，我可以在 Poisson 回归问题中使用 ROC 和 AUC 吗？

【问题讨论】：

标签： python glm poisson auc mse

【解决方案1】：

不清楚您是如何在代码中获得 Model_prediction，但一般来说，泊松回归适用于计数变量，因此预测可以高于 1。如果您的数据中 1 的比率不是非常小（>10%），我预计会有相当数量的预测高于 1。可以将它用于二元结果，但是，它更常用于估计组风险比，这是回归的系数。我建议尝试 Logistic Regression，它具有回归的 logit 转换并使结果介于 0 和 1 之间（解释为正二元结果的概率）。很好的讨论在这里https://stats.stackexchange.com/questions/18595/poisson-regression-to-estimate-relative-risk-for-binary-outcomes?noredirect=1&lq=1

【讨论】：