如何使用两个样本 t 检验计算 R 中每个特征的 p 值答案

【问题标题】：How to calculate p-values for each feature in R using two sample t-test如何使用两个样本 t 检验计算 R 中每个特征的 p 值
【发布时间】：2018-02-06 05:41:03
【问题描述】：

我有两个数据框案例和控件，我执行了两个样本 t 检验，如下所示。但是我正在从（1299 个特征/列）的特征集中进行特征提取，所以我想计算每个的 p 值特征。基于为每个特征生成的 p 值，我想拒绝或接受原假设。

谁能向我解释如何解释以下输出以及如何计算每个特征的 p 值？

t.test(New_data_zero,New_data_one)
    Welch Two Sample t-test

data:  New_data_zero_pca and New_data_one_pca
t = -29.086, df = 182840000, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.02499162 -0.02183612
sample estimates:
 mean of x  mean of y 
0.04553462 0.06894849

【问题讨论】：

标签： r statistics

【解决方案1】：

看看 ?t.test。 x 和 y 应该是向量而不是矩阵。因此该函数会自动将它们转换为向量。假设列是特征并且两个矩阵具有相同的特征，您想要做的是：

pvals=vector()
for (i in seq(ncol(New_data_zero))){
 pvals[i]=t.test(New_data_zero[,i], New_data_one[,i])$p.value
}

然后您可以查看 pvals（可能以对数刻度）并经过多次假设检验校正（请参阅 ?p.adjust）。

【讨论】：

【解决方案2】：

让我们也解决这种方法来发现您的功能之间的差异非常糟糕的想法。即使这 1299 个特征之间的所有影响实际上都为零，您也会发现 *在所有可能的 1299 个 2 路比较中的 0.05 个结果显着，这使得该策略实际上毫无意义。在继续之前，我强烈建议看一下介绍性统计文本，尤其是关于家庭类型 I 错误率的部分。

【讨论】：