【发布时间】:2020-02-10 00:21:09
【问题描述】:
如果给我一个包含许多变量的大型数据集,是否可以确定其中任何两个是独立的还是依赖的?假设我除了统计研究之外对数据一无所知。
查看相关性/协方差是否能够确定这一点?
这样做的目的是确定哪些变量最适合用于机器学习来预测特定结果。我有一些变量之间的相关性为 0.40 - 0.50,但我不确定是否高度相关 == 依赖性。
谢谢
【问题讨论】:
-
哪些是(内)因变量取决于您!也许阅读en.wikipedia.org/wiki/Linear_regression 以确保您使用的是标准术语
标签: python statistics data-science cross-validation