SPSS软件在医学科研中的应用-Logistic回归分析

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(三)Logistic回归分析的适用条件
1.经典的Logistic回归分析,要求因变量为二分类变量。但是 其 变量也可以为多分类变量(SPSS中Multinomial Logistic 菜单) 。
2.样本不能完全线性可分(完全线性可分是指L=1,此时模型有 无 限多组解,回归系数的估计是不确定的)
2. 通常情况下,自变量为二分类变量时,可以当作连续变 量进入模型(常用0、1或者1、2赋值) ,也可以通过 “categorical”来指定哑变量。但是,对多分类变量应该 通过“categorical”来指定哑变量,而不宜直接作为连续 变量处理。 多元线性回归分析与 Logistic 回归分析都是实际工作中 常 用的方法,用于影响因素分析时,多元线性回归的因 变量 是连续变量,而 Logistic 回归的因变量是分类变 量;两种 方法的自变量可为连续变量或分类变量,当为 分类变量 时,均需相应的哑变量(二分类变量例外) 。
5.模型拟合的优良性指标
( 1 )拟合分类表( Classification Table ) 根据 Logistic 回归 型,对样本重新判别分类,符合率越高, 模型拟合越好。注意:Logistic回归用于判别分类很粗劣,此 法仅作参考。 (2)最大似然函数值L。 SPSS提供了-2Log Likelihood,此值越小越好( L 1) 。 6.OR与RR Logistic 回归模型中, OR=EXP() 。 当某种疾病 的发病率或死亡率很低时,ORRR
后退法筛选变量
后退法筛选变量
每步的模型检验、 -2Log likelihood 及拟合分类表
后退法筛选变量
不在模型中的变量
Logistic回归模型为:
Log P 1.358 1.832 x1 2.140 x3 1 P
逐步前进法筛选变量
逐步前进法筛选变量
不在模型中的变量
Logistic回归模型为:
根据模型,病情严重程度与治疗方法对患者的治愈情况有影响;其 中病情严重组相对于不严重组,OR=0.203(病情严重的患者,其 治愈的概率是病情不严重的患者的0.203倍) ,95%置信区间为 (0.038 , 1.092) (此区间包括 1 ,缺乏实际意义) ;旧疗法组相对于 新疗法组, OR= 0.103, (接受旧疗法的患者,其治愈的概率是接 受新疗法的患者的0.103倍) ,95%置信区间为(0.019,0.553)
P=P(y=1|x),为发病概率;1-P=P(y=0|x),为不发 病概率。0为常数项, 1 , 2 ….. m分别为m个 自变量的回归系数。 模型估计方法:最大似然法(Maximum Likelihood Method) 。构造似然函数( Likelihood function ) L= P(y=1|x) P(y=0|x),通过迭代法估计一组参数 (0, 1 , 2 ….. m)使L达到最大。
(二)Logistic回归分析的基本原理
1. 变量特点 因变量:二分类变量,若令因变量为 y ,则常 用y=1表 示 “ 发病 ” , y = 0 表示 “ 不发病 ” (在病例对照研究中,分 别表示病例组和对照组) 。 自变量:可以为分类变量,也可以为连续变量。
2.Logistic模型
Log P 0 1 x1 2 x2 ...... m xm 1 P
-2Log likelihood=40.597
经统计学检验,模型2=13.951,P=0.003,Logistic回 归 模型有显著性。
拟合分类表
符合率为 70.0%
回归系数 标准误 Wald值
P值
OR
OR置信区间
Logistic回归模型为:
Log P 1.595 x1 2.273 x3 1 P
Options对话框
OR的95%置信区间
对模型的检验
结论:经统计学检验,2=11.852,P=0.003,Logistic模型有显著 性。 高氟区、干预区与低氟区相比,患病率均有差异(P<0.05) 。
3.样本量不能太小。有研究表明,样本量不应小于200。否则回 归 系数的估计是有偏性的。
例:比较新疗法与旧疗法治疗某种疾病的疗效。现对 40例患者随机分组,分别接受新疗法和旧疗法治疗。 根据专业知识,患者的病情严重程度、年龄对疗效也 有影 响。如何评价新旧疗法的疗效(见数据文件 logistic.sav ) ? ( 注 : 作 为 举 例 , 本 例 样 本 量 仅 为 40 例,由于样本量太小,Logistic回归的结论仅作为参 考)
Log P 1.358 1.832 x1 2.140 x3 1 P
应用Logistic回归分析时的注意事项
1. Logistic 回归是乘法模型,这一点,在结果解释时需 要慎重。 对于自变量(X1,X2) ,OR12=EXP(1+2)=OR1×OR2
例:某研究调查胃癌发病的危险因素,得到 “ 有不良饮食习 惯 相对于“无不良饮食习惯”的OR=2.6, “喜吃卤食和盐渍 食物” 对于 “ 不吃卤食和盐渍食物 ” 的 OR=2.4 。那么根据 Logistic 归,“有不良饮食习惯且喜吃卤食和盐渍食物”相 对于“无不良 食习惯且不吃卤食和盐渍食物”的 OR=2.6×2.4=6.24,得出此 论时需要考虑:从专业知识上 是否合理?
3. Logistic 回归模型中,连续变量的 OR 值通常缺乏实际 意 义。为方便结果解释,通常将连续变量转换为分类变 量,再 解释相应的OR。
附录:Logistic回归分析的其他应用 回顾:
分类变量的假设检验——完全随机设计的多个样本比较 假设检验的目的 推断多个总体率是 否相等 结果解释 当P0.05,拒绝H0时,总的说来各组有差别,但并不意味着 任何两组都有差别:可能是任何两者间都有差别,也可能其 中某两者间有差别,而其它组间无差别。目前尚无公认的进 一步两两比较的方法(可考虑采用Logistic回归) 。
SPSS软件在医学科研中的应用
计算机实习(SPSS10.0)
何平平
北大医学部流行病与卫生统计学系
实习六
Logistic回归分析
(一)Logistic回归分析的任务
影响因素分析 在流行病学研究中,logistic回归常用于疾病 的危险 因素分析,logistic回归分析可以提供一个重要的指标: OR。
变量说明:Y:治愈情况,1= 治愈;0= 未治愈; ; X1:病 情严重程度,0=不严重,1=严重;X2:年龄。 X3:治疗 方法,0=新疗法,1=旧疗法。
二值 Logistic回归
因变量
协变量(自变量)
注:此处将X1、X3看作为连续变量;采用Enter 法。
OR的95%置信区间
对模型的检验
例:某省从3个水中氟含量不同的地区随机抽取10~12 岁 儿童,进行第一恒齿患病率的调查(见数据文件 p231.sav) ,问3个地区儿童第一恒齿患病率是否不 同?
变量说明:group:组别,1=高氟区,2=干预区,3=低 氟区;effect:1=患龋,2=未患龋;freq:频数。
患龋率
Peaபைடு நூலகம்son 卡方值
3.自变量的相对重要性分析 衡量变量相对重要性的指标 (1)Wald值:(i /SE(i ))2,近似2分布,用于检验自 变 量的显著性。 ( 2 )对自变量作显著性检验的概率 P 值。 当 Wald 值越 大,P值越小时,自变量的影响就越大。 4. 自变量的筛选 与多元线性回归分析类似,有 Forward 法 (实际上是逐 步向前法) 、Backward法(默认方法为Enter,即所有 自 变量一次全部进入方程) 。
P值
经2检验, 2=10.489,P=0.005,可以认为:总的来说三个地区 患龋情况有差别。
如何进一步判断哪两个地区有差别?
二值Logistic 回归
在进行Logistic回归分析之前,需要用freq变量 进行加权
Categorical对话框
以低氟区为参照,其他两个地区与低氟区进行比较。
另法:将X1、X3指定为分类变量。
另法:将X1、X3指定为分类变量。
注:变量编码发生 了变化:0 0.5, 1 -0.5
与前述结果相比,X1与X3的回归系数符号发生了变化,结果解释有 所不同:病情不严重组相对于严重组, OR= 4.928(病情不严重的 患者,其治愈的概率是病情严重的患者的 4.928 倍) ;新疗法组相对 于旧疗法组, OR=9.707, (接受新疗法的患者,其治愈的概率是 接受旧疗法的患者的9.707倍) 。 注:对于二分类变量,可以当作连续变量处理,也可以指定为 分 类变量,但要注意结果解释。
相关文档
最新文档