临床模型研究中,模型的构建是最基本和最关键的步骤,其中,模型应该如何如何纳入自变量,纳入哪些自变量,是至关重要的问题。
尤其在多元回归分析中(如常用的线性回归、逻辑回归、Cox比例风险回归模型),自变量的筛选常常出现混乱和错误的情况,因此本文整理了前沿的自变量筛选相关方法和规则,希望对各位同仁有所帮助:

【临床研究】---多元回归分析中的变量筛选问题

统计方法选择的思考路径:

研究目的 ➡️ 可分析的变量 ➡️ 数据类型 ➡️ 分析方法


1、不同类型变量的纳入方法

Different values, different ways。
变量的类型,将决定纳入方法的选择策略;

1)变量的分类

【临床研究】---多元回归分析中的变量筛选问题
其中,连续变量可以转换为分类变量进行研究。

2)常用方法

基本变量类型:
计量资料(可以测量的、有单位的,g.身高、体重、年龄等)
计数资料:二分类、多分类(可以数个数的,g.性别:可以数出男多少人、女多少人等)
等级资料(程度呈递进的,g.一些实验室检验结果:可分为-、+、++、+++)
【临床研究】---多元回归分析中的变量筛选问题

先关注“因变量”(Y)再关注"自变量"(X1,X2,X3…)


2、变量筛选方法的归纳

1)变量筛选的一般流程:

逐个变量:单因素回归分析

分析P值:依据样本量大小情况调整P值选择范围
A、通常情况下,P值的范围在0.05-0.2之间,无统一标准
B、样本量过大,可控制p<0.05
C、如果样本量过小,可控制p<0.2

纳入规则:将单因素回归分析中p值<?(②中规则)的自变量纳入最终回归方程。

在实际研究和文献中,常使用以上选取方法。

2)常用统计学软件:

统计学家常建议使用软件中自动筛选自变量,如IBM SPSS;;SAS,SPSS,STATA,Minitab,Eviews, R Programming Language……

IBM SPSS中的Logistic回归和Cox回归模块,给出了7种变量筛选的方法:

①条件参数估计似然比检验 :(向前:条件)
②最大偏似然估计的似然比检验 :(向前:LR)
③Wald卡方检验 :(向前:Wald)
④条件参数估计似然比检验 :(向后:条件)
⑤最大偏似然估计的似然比检验 :(向后:LR)
⑥Wald卡方检验 :(向后:Wald)
⑦Enter法 :(变量全部纳入)

实际研究中,酌情考虑选取。


3、变量筛选遵循的基本原则

虽选取自变量强调因人而异、依据具体情况而定,但依然遵循一些基本准则。

1)足够的统计学效能:

依据以下经验判断该变量是否满足统计学效能的标准:

一个单变量因素至少应该需对应20个有效样本量的存在。

例如:在COX回归分析中,收集了10个与预后相关的变量。
那么:至少应该有200个患者出现了研究所定义的终点事件,如死亡。
(有效样本:出现了终点事件的样本,并不是患者量,患者量不一定为有效样本。)

2)依据临床研究报告的以往经验筛选:

不满足足够统计学效能的原则时,参考以往研究文献中的常用方法和流程: 单因素分析-----分析p值----纳入回归模型

3)结合临床知识筛选:

有些变量在单因素分析时,因为没有达到设定的变量筛选准则,因此被排除在多因素回归模型之外,但在临床上,已经确认量该变量与某种疾病的临床预后是相关的,出于临床专业角度考虑,此变量应该纳入回归模型之中。

【举例说明】
在某项前列腺癌预后因素分析的研究中,作者并未发现Gleason评分与预后显著相关,而临床知识指明的是Gleason评分与前列腺癌患者的预后显著相关,此时应该怎样做出取舍呢?
答案显而易见,对于那些已知的确定与某疾病预后显著相关的变量,即便未达到我们设定的统计学筛选标准,我们也应该纳入回归模型,这么做的考量即是从临床专业角度筛选变量。


综上所述,筛选变量时,统筹考虑统计学上的单因素分析结果➕已知临床专业知识决定 ➡️ 纳入回归方程的变量。当然,单因素分析结果和临床因素,样本量和统计效能理应综合考虑。


4、变量筛选的基本共识

变量筛选也并非毫无章法可言,回顾顶级医学杂志发表的文章,其中有关变量筛选的方法大体考虑以下5点:

1)结合临床专业知识:

医学统计一定不能脱离临床,这是最基础的考量。
根据临床知识,已知的确定与结局发生相关的变量应该纳入回归模型,而不去过多考虑其统计学参数。

2)根据单因素分析结果筛选变量:

①单因素分析P值“显著”的变量放入多元回归方程。
②所谓P值“显著”一般设定为p<0.1,或p<0.05或p<0.2
③依据样本量的大小对p值作出调整:
样本量足够大,p值调小;
样本量不足,p值调大,更保守一点。

3)根据混杂因素“Z”对试验因素或暴露因素“X”的影响大小筛选变量:

①先观察,调整“Z”与不调整“Z”,“X”对因变量“Y”的作用是否有变化。

先运行仅纳入“X”的基本模型,记录回归系数β1,再在该模型中加入“Z”,看β1变化多大,通常认为β1变化超过10%则需要调整该变量,否则不需要。

②这种方法与根据单因素分析结果筛选变量的差别在于:这里把混杂因素对试验因素的影响量化。
这种方法也并非是完美的,“Z”和“X”对“Y”的影响也同样可能受到其他混杂因素的影响。

4)决定最终纳入模型的变量个数:

“折中”考虑:统计效能 + 变量筛选
①样本量足够大,统计效能足够,可以借助软件实现自动筛选变量,并可以筛选出适合的独立影响结果的变量。
②变量很多,而样本量很少时,考虑“折中”。

5)其他方法:

根据模型参数:决定系数R^2,AIC,似然比对数、C-Statistics等等。。

相关文章:

猜你喜欢
相关资源
相似解决方案