基于R软件的Logistic回归实证分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于R 软件的Logistic 回归实证分析
应用统计 章程 1220120484
摘要:Logisic 回归模型是研究响应变量为非连续变量时的一种重要分析方法,但它的计算依赖于统计软件。
本文通过实证对使用R 软件处理Logistic 模型做出简要分析。
引言:线性回归模型是定量分析和数据挖掘中最常用的统计分析方法之一,但线性回归分析一般要求响应变量是连续变量、数据分布为正态分布等条件。
在实际分析研究中,经常遇到的是非连续的响应变量,即分类响应变量,如经济学研究中所涉及的是否购买某种商品、流行病学中研究的某些条件下是否会患病等。
在研究二分变量与诸多自变量之间的相互关系时,通常选用Logistic 回归模型。
1、Logistic 回归
Logistic 模型是由比利时生物学家Verhulst 于1838年提出,最早是为了研究人口问题而对Malthus 方程做出的改进,起初并没有引起重视,后来美国人口学家Pear 在研究美国人口问题时再次提出这个方程才使其开始流行,故现代文献中常称之为Verhulst-pearl 阻碍方程。
该模型之所以称为Logistic 模型,是因为其有某种推理的含义。
一般的Logistic 模型形式如下:
()
()()
12n 011n 011n P Y=1|x ,x ,exp x x 1exp x x ββββββ+++=++++n n …,x …… 对上式做logit 变换,Logistic 回归模型可以写成:
011n p logit(p)=ln()=x x 1-p
βββ+++n … 由于Logistic 回归模型涉及较复杂的数学理论,数据统计分析的计算往往较为复杂,一般无法用手工计算,只能在计算机上实现。
在统计软件方面,常用的有SAS 、SPSS 、S-PLUS 等,但这些软件大多是商业性的,需要支付昂贵的购买费用。
而R 软件是一款免费的统计软件,它提供了有弹性的、互动的环境来分析、展示数据,且提供若干统计程序包以及一些集成统计计算工具和函数,使得用户可以灵活机动地进行数据分析,简化了数据分析过程。
它可以完成大多数模型的统计计算,并帮助用户分析计算结果。
本文将结合实例,展示如何在R 软件中实现对Logistic 模型的统计分析。
2、Logistic 模型的拟合
回归模型的拟合主要是求模型中的参数估计值,Logistic 模型的参数估计通常采用极大似然法(maximum likelihood ,ML )。
极大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大来求解相应的参数值,所得到的估计值称为参数的极大似然估计值。
极大似然估计具有一致性、有效性和正态性等很好的统计性质,样本数据越大时,其估计值就越精确。
鉴于Logistic 模型时基于二项分布族的广义线性模型,因此在R 软件中可通过glm 语句建立回归关系,再用summary 语句得到其详细结果。
在得到模型拟合结果后,还可用
influence.measures 语句进行影响分析,通过该语句直接得到像cook 距离、帽子矩阵对角元值等基本量。
再通过函数运算可得到其他统计量,进而进行诊断分析。
3、案例分析:
资料为50位急性白血病人是否存活Y 、入院后取得的淋巴浸润等级X1、以及出院后有无巩固治疗X2。
根据该数据,用R 软件拟合Logistic 模型,具体结果如下:
x1<-c(0,2,2,2,2,0,0,2,2,0,2,0,0,0,0,0,0,0,0,2,0,0,0,0,0,2,0,0,0,0,0,2,0,2,0,0,2,0,2,0,0,0,2,0,0,2,0,0,0,0)
x2<-c(0,0,0,0,0,0,1,0,0,0,1,0,0,0,1,0,1,1,1,1,1,0,1,1,1,0,0,0,0,0,0,0,1,0,1,1,1,0,1,0,0,1,1,1,1,1,1,1,1,1)
y<-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1)
life<-data.frame(x1,x2,y)
log<-glm(y~x1+x2,family=binomial,data=life)
summary(log)
输出的结果为:
Call: glm(formula = y ~ x1 + x2, family = binomial, data = life)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.6849 -0.5950 -0.3033 0.7442 1.9073
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.6419 0.6381 -2.573 0.010082 *
x1 -0.7070 0.4282 -1.651 0.098750 .
x2 2.7844 0.7797 3.571 0.000355 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 67.301 on 49 degrees of freedom
Residual deviance: 46.718 on 47 degrees of freedom AIC: 52.718
Number of Fisher Scoring iterations: 5
根据软件输出的结果,得到:
12p ln(
)=-1.6419-0.7070x 2.7844x 1-p
+ 即 ()()
1212exp -1.6419-0.7070x 2.7844x P 1exp -1.6419-0.7070x 2.7844x +=++ 进一步地,用R 软件还可以进行预测分析:
pre<-predict(log,data.frame(x1=2,x2=0))
p<-exp(pre)/(1+exp(pre));p
输出得到结果0.04496518
pre<-predict(log,data.frame(x1=2,x2=1))
p<-exp(pre)/(1+exp(pre));p
输出得到结果0.4325522
比较上述两个结果可见,当入院后取得的淋巴浸润等级x1=2时,出院后继续进行巩固治疗(x2=1),则病患存活的概率是没有巩固治疗时的9.62倍。
接下来,再对模型进行诊断,在程序窗口输入influence.measures(log),回车后可以得到一些结果,其中cooks、hii这两列分别为cook距离、帽子矩阵对角元值。
进一步地,还可以再R软件中计算pearson残差、Score统计量、似然距离、学生化残差等。
根据得到的诊断统计量,就可以进行诊断分析。
4、小结
通过上述实证分析,尝试着用R软件研究了现实中的问题。
从中可以看出,在研究此类响应变量为非连续变量的问题时,用Logistic模型是非常有效的,而利用R软件进行Logistic模型的统计分析则非常方便,如果数据较多,可以考虑直接以Excel表格的形式导入,这样可以进一步减少工作量。
参考文献:
[1]施朝健,张明铭.Logistic模型回归分析[J].计算机辅助工程,2005(3).
[2]金水高.Logistic回归方法的正确应用及结果的正确解释[J].中华预防医学杂志,2003(3).
[3]光琳.Logistic模型统计分析的R软件实现[J].连云港师范高等专科学校学报,2011(4).
[4]王怀亮.基于R软件的回归模型建模[J].黑龙江对外经贸,2010(11).。