【问题标题】:Investigate correlations between a big amount of binary variables and a metric variable调查大量二元变量和度量变量之间的相关性
【发布时间】:2019-02-12 13:46:31
【问题描述】:

我正在尝试调查一个包含大约 260 个二进制变量和一个度量的数据集。这些是分类变量的虚拟变量,我想对度量变量进行回归。

如何可视化它们?

我首先尝试了 plot(),但无法在整个数据集上使用它,即使我只使用一个视图,我也无法解释它们。

我尝试了pairs(),但出现了输出:

'plot.new() 中的错误:图边距太大'

我也尝试了 sjPlot 包中的 sjp.corr(),但它太小并且无法解释。

我在处理这样的数据方面并没有什么经验,你会推荐我什么?您如何分析和解释数据(甚至是非图形数据)?您是否建议不要尝试以图形方式解释它?如果我尝试以非图形方式进行调查并使用 Hmisc 包的命令 rcorr(),我也遇到了问题。然后我只有一个 3 x 260 的表,它省略了 258 行?我能做什么?

很抱歉,我不能给你看数据:(但如果你还能给我一些建议,我会很高兴

【问题讨论】:

  • 嗨 Guybrush,欢迎来到 SO!如果你不能展示你的数据,你可以给我们一些假数据复制粘贴到我们的 R 中,尝试复制你的问题。
  • @Guybrush 关于这些数据你想知道什么?
  • @s_t 谢谢!我不确定我是否能够告诉您如何重现具有代表性的数据集。很抱歉。
  • @Salman 我认为这是最糟糕的答案,但我不知道。我对数据进行了回归,但 R² 很差,有人建议我查看相关性,以了解如何对数据进行聚类以改进它。是的,我知道,通常你首先看一下相关性......;)我真正的问题可能是(老实说)我不知道我在寻找什么。
  • @Guybrush 对你有帮助吗?

标签: r binary correlation


【解决方案1】:

您没有向我们提供数据,但从您的情节中我可以得到一些分数

  1. 您有 2 个特征,其中一个是二进制 (1,0),另一个是 0 到 600 之间的整数。
  2. 当另一个特征在 0 到 150 之间时,两个 0 和 1 的频率更高。

因此,鉴于上述信息,我为自己生成了一个随机数据集,并根据我的数据回答您的问题。

dt<-data.frame(binary=sample(c("0","1"),100,replace = T ),
               price=rnbinom(100, 100,0.5 )  )

在我的数据集中,binary 是一个只能包含 1 或 0 的字符串。价格是一个数值。

我可以做的第一件事是研究price 特征,了解它的直方图,它可以帮助我了解它的分布。

library(ggplot2)
ggplot(dt,aes( x=price, fill=binary ))+
  geom_histogram( position="identity", alpha=.5)+
  geom_density()

结果是:

下一步,我希望比较 1 和 0 的频率

library(ggplot2)
ggplot(dt,aes(binary,fill=binary))+
  geom_bar()

它显示了它们的频率:


我怀疑回归是否是获得预测的好选择。我想说,这里最好的选择是使用rpart进行分类

library(rpart)
model<-rpart(binary~price,dt, method="class"  )

但是,不要忘记将testtrain 数据分开。

【讨论】:

    猜你喜欢
    • 2015-06-12
    • 1970-01-01
    • 2021-01-19
    • 2017-11-25
    • 2020-10-24
    • 1970-01-01
    • 2021-11-25
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多