用于多组比较的 Python 中的 T 检验答案

【问题标题】：T-Test in Python for multiple group comparisons用于多组比较的 Python 中的 T 检验
【发布时间】：2020-02-17 15:17:15
【问题描述】：

我想在 python 中进行一个简单的 t 检验，但我想比较所有可能的组。假设我有以下数据：

import pandas as pd

data = {'Category': ['cat3','cat2','cat1','cat2','cat1','cat2','cat1','cat2','cat1','cat1','cat1','cat2','cat3','cat3'],
        'values': [4,1,2,3,1,2,3,1,2,3,5,1,6,3]}
my_data = pd.DataFrame(data)

我想根据所有可能的类别组合的 t 检验计算 p 值，它们是：

cat1 vs. cat2
cat2 vs. cat3
cat1 vs. cat3

我可以通过以下方式手动执行此操作：

from scipy import stats

cat1 = my_data.loc[my_data['Category'] == 'cat1', 'values']
cat2 = my_data.loc[my_data['Category'] == 'cat2', 'values']
cat3 = my_data.loc[my_data['Category'] == 'cat3', 'values']

print(stats.ttest_ind(cat1,cat2).pvalue)
print(stats.ttest_ind(cat2,cat3).pvalue)
print(stats.ttest_ind(cat1,cat3).pvalue)

但是有没有更简单直接的方法来做到这一点？类别的数量可能因情况而异，因此需要计算的 t 检验的数量也会有所不同...

最终输出应该是一个 DataFrame，每个比较都有一行，并且值：category1 |类别2 | p 值，在这种情况下应该如下所示：

cat1 | cat2 | 0.16970867501294376
cat2 | cat3 | 0.0170622126550303
cat1 | cat3 | 0.13951958313684434

【问题讨论】：

您是否有理由进行一系列 t 检验，而不是单个 anova？

标签： python pandas scipy t-test

【解决方案1】：

考虑跨类别遍历itertools.combinations：

from itertools import combinations
...

def ttest_run(c1, c2):
    results = stats.ttest_ind(cat1, cat2)
    df = pd.DataFrame({'categ1': c1,
                       'categ2': c2,
                       'tstat': results.statistic,
                       'pvalue': results.pvalue}, 
                       index = [0])    
    return df

df_list = [ttest_run(i, j) for i, j in combinations(mydata['Category'].unique().tolist(), 2)]

final_df = pd.concat(df_list, ignore_index = True)

【讨论】：