调查大量二元变量和度量变量之间的相关性答案

【问题标题】：Investigate correlations between a big amount of binary variables and a metric variable调查大量二元变量和度量变量之间的相关性
【发布时间】：2019-02-12 13:46:31
【问题描述】：

我正在尝试调查一个包含大约 260 个二进制变量和一个度量的数据集。这些是分类变量的虚拟变量，我想对度量变量进行回归。

如何可视化它们？

我首先尝试了 plot()，但无法在整个数据集上使用它，即使我只使用一个视图，我也无法解释它们。

我尝试了pairs()，但出现了输出：

'plot.new() 中的错误：图边距太大'

我也尝试了 sjPlot 包中的 sjp.corr()，但它太小并且无法解释。

我在处理这样的数据方面并没有什么经验，你会推荐我什么？您如何分析和解释数据（甚至是非图形数据）？您是否建议不要尝试以图形方式解释它？如果我尝试以非图形方式进行调查并使用 Hmisc 包的命令 rcorr()，我也遇到了问题。然后我只有一个 3 x 260 的表，它省略了 258 行？我能做什么？

很抱歉，我不能给你看数据:(但如果你还能给我一些建议，我会很高兴

【问题讨论】：

嗨 Guybrush，欢迎来到 SO！如果你不能展示你的数据，你可以给我们一些假数据复制粘贴到我们的 R 中，尝试复制你的问题。
@Guybrush 关于这些数据你想知道什么？
@s_t 谢谢！我不确定我是否能够告诉您如何重现具有代表性的数据集。很抱歉。
@Salman 我认为这是最糟糕的答案，但我不知道。我对数据进行了回归，但 R² 很差，有人建议我查看相关性，以了解如何对数据进行聚类以改进它。是的，我知道，通常你首先看一下相关性......；）我真正的问题可能是（老实说）我不知道我在寻找什么。
@Guybrush 对你有帮助吗？

标签： r binary correlation

【解决方案1】：

您没有向我们提供数据，但从您的情节中我可以得到一些分数

您有 2 个特征，其中一个是二进制 (1,0)，另一个是 0 到 600 之间的整数。
当另一个特征在 0 到 150 之间时，两个 0 和 1 的频率更高。

因此，鉴于上述信息，我为自己生成了一个随机数据集，并根据我的数据回答您的问题。

dt<-data.frame(binary=sample(c("0","1"),100,replace = T ),
               price=rnbinom(100, 100,0.5 )  )

在我的数据集中，binary 是一个只能包含 1 或 0 的字符串。价格是一个数值。

我可以做的第一件事是研究price 特征，了解它的直方图，它可以帮助我了解它的分布。

library(ggplot2)
ggplot(dt,aes( x=price, fill=binary ))+
  geom_histogram( position="identity", alpha=.5)+
  geom_density()

结果是：

下一步，我希望比较 1 和 0 的频率

library(ggplot2)
ggplot(dt,aes(binary,fill=binary))+
  geom_bar()

它显示了它们的频率：

我怀疑回归是否是获得预测的好选择。我想说，这里最好的选择是使用rpart进行分类

library(rpart)
model<-rpart(binary~price,dt, method="class"  )

但是，不要忘记将test 和train 数据分开。

【讨论】：