R中的主成分分析（共线预测变量）和预测函数答案

【问题标题】：Principal Component Analysis (collinear predictors) and predict function in RR中的主成分分析（共线预测变量）和预测函数
【发布时间】：2021-07-26 05:32:56
【问题描述】：

我有一个包含 3 个共线预测变量的数据集。我最终提取了这些预测变量并使用主成分分析来减少多重共线性。我想要的是使用这些预测器进行进一步的建模。

使用predict函数并获取3个共线预测变量的值并使用预测值进行进一步分析是否不正确？
或者由于前两个轴捕获了大部分方差（演示数据集中的 70% 和实际数据集中的 96%），我是否应该只使用前两个轴的值而不是 3 个预测值进行进一步分析？

#Creating sample dataset
df<- data.frame(ani_id = as.factor(1:10), var1 = rnorm(500), var2=rnorm(500),var3=rnorm(500))

### Principal Component Analysis
myPCA1 = prcomp(df[,-1],data = df , scale. = TRUE, center = TRUE)
summary(myPCA1)

这是我运行时从演示数据集中得到的结果

> summary(myPCA1)
Importance of components:
                          PC1    PC2    PC3
Standard deviation     1.0355 1.0030 0.9601
Proportion of Variance 0.3574 0.3353 0.3073
Cumulative Proportion  0.3574 0.6927 1.0000

这表明前两个轴捕获了几乎 70% 的方差。

现在执行以下操作是否正确？

## Using predict function to predict the values of the 3 collinear predictors
axes1 <- predict(myPCA1, newdata = df)
head(axes1)

subset1 <- cbind(df, axes1)
names(subset1)

### Removing the actual 3 collinear predictors and getting a dataset with the ID and 3 predictors who are no long collinear
subset1<- subset1[,-c(2:4)]

summary(subset1)

## Merge this to the actual dataset to use for further analysis in linear mixed effect models

感谢您的帮助！ :)

PS- 我确实读过https://stats.stackexchange.com/questions/72839/how-to-use-r-prcomp-results-for-prediction/72847#72847

但仍然不确定。这就是我在这里问的原因。

【问题讨论】：

标签： r pca multicollinearity

【解决方案1】：

使用预测函数并获取3个共线预测变量的值并使用预测值进行进一步分析是否不正确？

是的。值与myPCA1$x相同

或者由于前两个轴捕获了大部分方差（演示数据集中为 70%，实际数据集中为 96%），我是否应该仅使用前两个轴的值而不是 3 个预测值进行进一步分析？

我个人只使用第一个轴（但它解释了至少 70%）。但是，我认为使用多个没有任何问题。第二轴与第一轴正交。我想我的警告是，您必须了解 PCA 轴在您的预测变量方面代表什么（例如，预测变量 1 是沿着 PCA1 还是 PCA2 增加或减少？）。包含第三个变量会增加模型中预测变量的数量，并且您必须质疑额外 30% 的变化与潜在的模型过度拟合相比，哪些地方值得包含或不值得包含？

也不确定这是stackoverflow的问题还是交叉验证的问题。

【讨论】：

真的！我实际上忘记了 predict 只提取了值，所以真的没有什么区别。 >> 第二个问题，你说的是70%，假设3个轴加起来是70%，剩下的可以忽略吗？
70% 是我的任意截断值。我确信有文献建议类似的阈值或截止值。如果三个轴加起来达到 70%，那么您可以在以后的模型中忽略另一个轴。就像我之前提到的，我的警告是，您必须了解 PCA 轴在您的预测变量方面代表什么。