【问题标题】:How to calculate p-values for each feature in R using two sample t-test如何使用两个样本 t 检验计算 R 中每个特征的 p 值
【发布时间】:2018-02-06 05:41:03
【问题描述】:

我有两个数据框案例和控件,我执行了两个样本 t 检验,如下所示。但是我正在从(1299 个特征/列)的特征集中进行特征提取,所以我想计算每个的 p 值特征。基于为每个特征生成的 p 值,我想拒绝或接受原假设。

谁能向我解释如何解释以下输出以及如何计算每个特征的 p 值?

t.test(New_data_zero,New_data_one)
    Welch Two Sample t-test

data:  New_data_zero_pca and New_data_one_pca
t = -29.086, df = 182840000, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.02499162 -0.02183612
sample estimates:
 mean of x  mean of y 
0.04553462 0.06894849 

【问题讨论】:

    标签: r statistics


    【解决方案1】:

    看看 ?t.test。 x 和 y 应该是向量而不是矩阵。因此该函数会自动将它们转换为向量。假设列是特征并且两个矩阵具有相同的特征,您想要做的是:

    pvals=vector()
    for (i in seq(ncol(New_data_zero))){
     pvals[i]=t.test(New_data_zero[,i], New_data_one[,i])$p.value
    }
    

    然后您可以查看 pvals(可能以对数刻度)并经过多次假设检验校正(请参阅 ?p.adjust)。

    【讨论】:

      【解决方案2】:

      让我们也解决这种方法来发现您的功能之间的差异非常糟糕的想法。即使这 1299 个特征之间的所有影响实际上都为零,您也会发现 *在所有可能的 1299 个 2 路比较中的 0.05 个结果显着,这使得该策略实际上毫无意义。在继续之前,我强烈建议看一下介绍性统计文本,尤其是关于家庭类型 I 错误率的部分。

      【讨论】:

        猜你喜欢
        • 2017-07-11
        • 2019-04-25
        • 1970-01-01
        • 1970-01-01
        • 2019-09-09
        • 2020-09-05
        • 2019-08-23
        • 1970-01-01
        • 2023-03-23
        相关资源
        最近更新 更多