【问题标题】:How to interpret negative correlations on a heatmap (or in general)?如何解释热图(或一般)上的负相关?
【发布时间】:2021-04-15 20:25:06
【问题描述】:

这是与 StackExchange 的交叉发布。

我目前正在对常见的 Kaggle Titanic 生存率竞赛进行一些初步的探索性数据分析,并想知道如何解释我在下面制作的以下热图相关图。

我理解正相关(与 pearsons r 系数有关)——因为随着 X 的增加,Y 也会增加,并且越接近 +1 表示强的正线性关系。

但是对于负相关值,我很困惑,因为根据我的理解(这可能是错误的,如果是这样,请纠正我)关系是倒置的——所以随着 X 的增加,Y 往往会减少,这意味着如果一个值接近 -1那么这是一个很强的负线性关系。

我正在努力从下面的热图中解释这一点。包含我试图预测的二进制结果的特征是特征 Survived 其余列是用于预测的数字列。

在这里我们可以看到 Age/Survived = -0.06 和 SibSp/Survived = -0.03

我如何解释这个?我这样说是否正确:

  • 随着年龄的减少,存活率增加(弱负相关)
  • 随着 SibSp 的减少,存活率增加(弱负相关)

作为旁注,如果值是 -0.90 如此接近 -1 - 我该如何正确解释解释,例如:年龄减少,然后存活率增加?

【问题讨论】:

    标签: python machine-learning statistics seaborn


    【解决方案1】:

    您基本上是正确的,但您对接近于零的相关性给予了过多的重视。

    首先你需要记住这个皮尔逊相关线性相关。 这意味着像直线一样的 X 和 Y 具有正斜率具有Corr=1,具有负斜率具有Corr=-1

    如果存在其他字符串相关性,例如 y = X^2,则 pearson 的相关性会很差并且会产生误导。

    就您的结果而言,survivedSibSp 之间-0.035 的相关性如此之低,我会说这些特征几乎没有相关性(在线性意义上)。

    如果是-0.9,我会说显着,虽然幸存者的数量在增加,但SibSp 却以强线性关系减少。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-10-28
      • 1970-01-01
      • 2010-10-18
      • 1970-01-01
      • 2016-02-17
      相关资源
      最近更新 更多