【临床研究】---多元回归分析中的变量筛选问题

统计方法选择的思考路径：

1、不同类型变量的纳入方法

1)变量的分类
2)常用方法

2、变量筛选方法的归纳

1）变量筛选的一般流程：
2）常用统计学软件：

3、变量筛选遵循的基本原则

1）足够的统计学效能：
2）依据临床研究报告的以往经验筛选：
3）结合临床知识筛选：

4、变量筛选的基本共识

1）结合临床专业知识：
2）根据单因素分析结果筛选变量：
3）根据混杂因素“Z”对试验因素或暴露因素“X”的影响大小筛选变量：
4）决定最终纳入模型的变量个数：
5）其他方法：

临床模型研究中，模型的构建是最基本和最关键的步骤，其中，模型应该如何如何纳入自变量，纳入哪些自变量，是至关重要的问题。
尤其在多元回归分析中（如常用的线性回归、逻辑回归、Cox比例风险回归模型），自变量的筛选常常出现混乱和错误的情况，因此本文整理了前沿的自变量筛选相关方法和规则，希望对各位同仁有所帮助：

【临床研究】---多元回归分析中的变量筛选问题

统计方法选择的思考路径：

研究目的 ➡️ 可分析的变量 ➡️ 数据类型 ➡️ 分析方法

1、不同类型变量的纳入方法

Different values, different ways。
变量的类型，将决定纳入方法的选择策略；

1)变量的分类

【临床研究】---多元回归分析中的变量筛选问题
其中，连续变量可以转换为分类变量进行研究。

2)常用方法

基本变量类型：
①计量资料（可以测量的、有单位的，g.身高、体重、年龄等）
②计数资料：二分类、多分类（可以数个数的，g.性别：可以数出男多少人、女多少人等）
③等级资料（程度呈递进的，g.一些实验室检验结果：可分为-、+、++、+++）
【临床研究】---多元回归分析中的变量筛选问题

先关注“因变量”（Y）再关注"自变量"(X1,X2,X3…)

2、变量筛选方法的归纳

1）变量筛选的一般流程：

①逐个变量：单因素回归分析

②分析P值：依据样本量大小情况调整P值选择范围
A、通常情况下，P值的范围在0.05-0.2之间，无统一标准
B、样本量过大，可控制p<0.05
C、如果样本量过小，可控制p<0.2

③纳入规则：将单因素回归分析中p值<？（②中规则）的自变量纳入最终回归方程。

在实际研究和文献中，常使用以上选取方法。

2）常用统计学软件：

统计学家常建议使用软件中自动筛选自变量，如IBM SPSS；；SAS，SPSS，STATA，Minitab，Eviews， R Programming Language……

IBM SPSS中的Logistic回归和Cox回归模块，给出了7种变量筛选的方法：

①条件参数估计似然比检验：（向前：条件）
②最大偏似然估计的似然比检验：（向前：LR）
③Wald卡方检验：（向前：Wald）
④条件参数估计似然比检验：（向后：条件）
⑤最大偏似然估计的似然比检验：（向后：LR）
⑥Wald卡方检验：（向后：Wald）
⑦Enter法：（变量全部纳入）

实际研究中，酌情考虑选取。

3、变量筛选遵循的基本原则

虽选取自变量强调因人而异、依据具体情况而定，但依然遵循一些基本准则。

1）足够的统计学效能：

依据以下经验判断该变量是否满足统计学效能的标准：

一个单变量因素至少应该需对应20个有效样本量的存在。

例如：在COX回归分析中，收集了10个与预后相关的变量。
那么：至少应该有200个患者出现了研究所定义的终点事件，如死亡。
（有效样本：出现了终点事件的样本，并不是患者量，患者量不一定为有效样本。）

2）依据临床研究报告的以往经验筛选：

不满足足够统计学效能的原则时，参考以往研究文献中的常用方法和流程：单因素分析-----分析p值----纳入回归模型

3）结合临床知识筛选：

有些变量在单因素分析时，因为没有达到设定的变量筛选准则，因此被排除在多因素回归模型之外，但在临床上，已经确认量该变量与某种疾病的临床预后是相关的，出于临床专业角度考虑，此变量应该纳入回归模型之中。

【举例说明】
在某项前列腺癌预后因素分析的研究中，作者并未发现Gleason评分与预后显著相关，而临床知识指明的是Gleason评分与前列腺癌患者的预后显著相关，此时应该怎样做出取舍呢？
答案显而易见，对于那些已知的确定与某疾病预后显著相关的变量，即便未达到我们设定的统计学筛选标准，我们也应该纳入回归模型，这么做的考量即是从临床专业角度筛选变量。

综上所述，筛选变量时，统筹考虑统计学上的单因素分析结果➕已知临床专业知识决定 ➡️ 纳入回归方程的变量。当然，单因素分析结果和临床因素，样本量和统计效能理应综合考虑。

4、变量筛选的基本共识

变量筛选也并非毫无章法可言，回顾顶级医学杂志发表的文章，其中有关变量筛选的方法大体考虑以下5点：

1）结合临床专业知识：

医学统计一定不能脱离临床，这是最基础的考量。
根据临床知识，已知的确定与结局发生相关的变量应该纳入回归模型，而不去过多考虑其统计学参数。

2）根据单因素分析结果筛选变量：

①单因素分析P值“显著”的变量放入多元回归方程。
②所谓P值“显著”一般设定为p<0.1，或p<0.05或p<0.2
③依据样本量的大小对p值作出调整：
样本量足够大，p值调小；
样本量不足，p值调大，更保守一点。

3）根据混杂因素“Z”对试验因素或暴露因素“X”的影响大小筛选变量：

①先观察，调整“Z”与不调整“Z”，“X”对因变量“Y”的作用是否有变化。

先运行仅纳入“X”的基本模型，记录回归系数β1，再在该模型中加入“Z”，看β1变化多大，通常认为β1变化超过10%则需要调整该变量，否则不需要。

②这种方法与根据单因素分析结果筛选变量的差别在于：这里把混杂因素对试验因素的影响量化。
这种方法也并非是完美的，“Z”和“X”对“Y”的影响也同样可能受到其他混杂因素的影响。

4）决定最终纳入模型的变量个数：

“折中”考虑：统计效能 + 变量筛选
①样本量足够大，统计效能足够，可以借助软件实现自动筛选变量，并可以筛选出适合的独立影响结果的变量。
②变量很多，而样本量很少时，考虑“折中”。

5）其他方法：

根据模型参数：决定系数R^2，AIC，似然比对数、C-Statistics等等。。