【发布时间】:2021-04-15 20:25:06
【问题描述】:
这是与 StackExchange 的交叉发布。
我目前正在对常见的 Kaggle Titanic 生存率竞赛进行一些初步的探索性数据分析,并想知道如何解释我在下面制作的以下热图相关图。
我理解正相关(与 pearsons r 系数有关)——因为随着 X 的增加,Y 也会增加,并且越接近 +1 表示强的正线性关系。
但是对于负相关值,我很困惑,因为根据我的理解(这可能是错误的,如果是这样,请纠正我)关系是倒置的——所以随着 X 的增加,Y 往往会减少,这意味着如果一个值接近 -1那么这是一个很强的负线性关系。
我正在努力从下面的热图中解释这一点。包含我试图预测的二进制结果的特征是特征 Survived 其余列是用于预测的数字列。
在这里我们可以看到 Age/Survived = -0.06 和 SibSp/Survived = -0.03
我如何解释这个?我这样说是否正确:
- 随着年龄的减少,存活率增加(弱负相关)
- 随着 SibSp 的减少,存活率增加(弱负相关)
作为旁注,如果值是 -0.90 如此接近 -1 - 我该如何正确解释解释,例如:年龄减少,然后存活率增加?
【问题讨论】:
标签: python machine-learning statistics seaborn