流行病学和临床研究中,探索某疾病的发病原因或影响因素可以说是最常见的一种研究目的,而用于此研究的 logistic 回归,也成了流行病学和临床研究中广泛应用的方法。
上一期“数据统计的理解和应用(九)线性回归”我们已经领略了多重线性回归在影响因素分析中的作用,但多重线性回归的因变量只能是定量变量。而实际中我们常会遇到对“发病与否”、“有无疗效”等二分类或多分类变量的影响因素分析,这种情况下多重线性回归已经不再适用了,logistic 回归则是合理的选择。
logistic 回归与多重线性回归很像,只是因变量的形式不同,它们的分析过程、分析策略都是类似的。从实际的角度来看,logistic 回归结果比多重线性回归具有更加明确的解释意义,它通过优势比(odds ratio,OR)这一广为人知的指标,使理论与实际完美地结合,使得疾病发生危险不再仅是一个理论层面的概念,而是一个可以理解的危险程度。
本次主要介绍的内容为logistic回归的分析策略。
logistic 回归也称为 logit 模型,是对分类变量进行回归分析时最为常用的一种方法。与多重线性回归类似,logistic 回归也是研究自变量对因变量影响的方法,不过这里的因变量必须是分类变量。由于分类变量可以是二分类或多分类,因此logistic回归也有多种形式。
当因变量是二分类时,称为二分类 logit 模型(binary logit model)。当因变量为无序多分类时,称为多分类 logit 模型(polytomous logit model)或多项 logit 模型(multinomial logit model)。当因变量是有序多分类时,称为有序 logit 模型(ordinal logit model)或累积比数 logit 模型(cumulative odds logit model)或比例优势模型(proportional odds model)。
logistic回归模型的表达形式为:
P表示暴露于某种状态下的结局发生(如发病、死亡等)概率。logit P是一种变量变换方式,表示对P进行 logit 变换,也就是根据P值求出
值。a为常数项,表示自变量均为0时 logit P的估计值。bi为偏回归系数,表示其他自变量不变的条件下,Xi每变动一个单位,logit P的改变量。如果将b变为指数形式EXP(b),则EXP(bi)等于优势比OR,表示事件发生与不发生的比值,该值越大,表示事件发生的可能性越大。
可以看出,logistic 回归与多重线性回归的自变量既可以是定量变量,也可以是分类变量。它们的区别主要在于模型左边,多重线性回归中,等式左边直接就是因变量本身,而logistic回归模型中,等式左边没有直接用P作为因变量,而是将其进行了logit 变换,以 logit P作为因变量。这主要是因为P是一个概率,范围只能在0~1之间,而根据P值求得的
值则可以取任意值。这就变的跟多重线性回归很相似,多重线性回归分析的很多优点就可以被利用了。
(1)疾病危险因素探索,这是流行病学和临床研究常见的用途。如病例对照研究,人群分为病例组和对照组两组,调查相关的影响因素,然后采用logistic 回归进行疾病影响因素分析。
(2)用于疾病判别和预测。logistic 回归是一个概率模型,可用于分析筛选对疾病发生影响较大的指标,然后根据这些指标的值做出判别,判断是否患有某种疾病,或者说发生某病的概率有多大。
(3)用于对干预的评价,此处用到了协变量回归,即干预措施为分组,两组人群的基线因素均衡,如果基线因素不均衡,则需要把不均衡的因素加入到多因素 logistic 回归中辅以矫正,以此来说明处理因素对结局的影响。
logistic 回归目的是通过最大似然估计(maximum likelihood estimation,MLE)求解常数项和偏回归系数,建立回归模型,以用于判别、预测等用途。主要可包括以下几个步骤:
1.应用条件检查
Y为二分类或多分类变量,而对X不要求。
2.单因素分析和多因素分析
数据分析一般均可从详细的单因素分析开始,尽管单因素分析有时并不是必需的,但它确实可以提供很多关于数据分布特征的信息,因此还是值得提倡的。单因素分析的主要目的:一是探索自变量进入模型的形式,以便更好地描述因变量与自变量的关系;二是在样本较小而自变量较多的情况下,可以将一些可能无意义的变量剔除掉,以减少多因素分析中的变量数目,保证结果的稳定和简洁。
多因素分析要比单因素分析更为复杂,需要考虑各个变量之间的相关性。如果有的自变量之间存在较强的相关性,可能会影响模型的稳定性。logistic 回归的多因索分析也可以采用变量筛选方法,如向前选择法、向后剔除法、逐步选择法等在 logistic 回归中仍然适用。逐步回归则备受科研人员青睐。
3.模型参数估计和检验
模型检验包括总体检验及每个参数分别检验。总体检验是对整个模型的检验,采用的检验方法有似然比(likelihood ratio)检验、得分(score)检验和 Wald χ2检验,目的是检验模型总体是否有统计学意义。
模型中各参数的单独检验采用的是 Wald χ2 检验,根据 χ2 值和P值判断自变量是否有统计学意义。Wald χ2 检验对标准误的依赖很大,如果标准误相对参数估计值很大,就会产生一个较小的 χ2 值和较大的P值。因此 logistic 回归分析的样本含量不宜太小,否则会使估计结果不稳定,产生大的标准误,使本来可能有意义的变量变得无统计学意义。一般认为Y是较小样本量为自变量个数的10倍及以上,方能支撑模型,较少样本的那一组应该占总样本的20%及以上,否则模型将不理想。
4.模型诊断
logistic 回归模型与多重线性回归模型一样,自变量之间也会存在多重共线性,也可能存在异常值等问题,因此也需要进行共线性诊断和异常点检查。
5.模型评价
模型拟合优度的评价指标主要有 Pearson χ2、Deviance、Hosmer-Lemeshow 指标、AIC指标等。
Pearson χ2通过比较模型预测与实际观测的事件发生和不发生的频数来检验模型成立的假设,χ2值小表示预测值与观测值之间没有显著性差别,可认为模型较好地拟合了数据。
Hosmer-Lemneshow指标类似于Pearson x 和 Deviance,但它主要用于含连续自变量的模型的拟合优度评价。当模型中加入连续自变量后,Pearson χ2 和 Deviance 不再适用于拟合优度评价,最好采用 Hosmer-Lemeshow 指标。
AIC指标是根据所设模型的最大似然值,并考虑到自变量与样本含量对似然值的影响而得出的一个指标,可用于比较不同样本的模型或非嵌套关系的模型。在其他条件相同时,一个模型的AIC值越小说明模型拟合越好。
6.模型解释
模型建立后,更重要的是对模型进行解释。如果模型与实际相悖,需要对分析过程仔细审核,看到底是数据收集有问题还是分析思路有问题。
logistic 回归模型中的偏回归系数经过指数转换后与优势比OR联系起来,有了更为实际的解释意义。OR=e^β,OR在很多情况下可作为相对危险度(relative risk,RR)的近似估计。具体的模型中,如果自变量为二分类变量,OR反映了暴露与非暴露相比的发病(或死亡等结局)风险有多高。如果自变量为多分类,需要先指定某一类为参照,OR表示某一类别与参照组相比的发病或死亡风险。
本期的分享到这里就结束了,下期我们再进行案例讲解,
记得点个"赞"哦~
— THE END —