广义线性模型_一_陈希孺
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:1002-1566(2002)05—0054—08
广义线性模型(一)
陈希孺
(中国科学院研究生院,北京 100039)
摘 要:本讲座是广义线性模型这个题目的一个比较系统的介绍。主要分3部分:建模、统计分析
与模型选择和诊断。写作时依据的主要参考资料是L.Fahrmeir等人的《Multivariate Statistical
Modeling Based on G eneralized Linear Models》。
关键词:广义线性模型;建模;统计分析;模型选择和诊断
中图分类号:O212文献标识码:A
形式上,广义线性模型是常见的正态线性模型的直接推广(见本讲座§1.1,(一))。它可适用于连续数据和离散数据,特别是后者,如属性数据,计数数据。这在实用上,尤其是生物,医学和经济、社会数据的统计分析上,有重要的意义。本讲座是关于这个题目的一个比较系统的介绍。
广义线性模型的个别特例起源很早。Fisher在1919年曾用过它。最重要的Logistic模型,在20世纪四五十年代曾由Berkson,Dyke和Patterson等人使用过。1972年Nelder和Wedderburn在一篇论文中引进广义线性模型一词,自那前后以来研究工作逐渐增加。1983年McCullagh和Nelder出版了系统论述此专题的专著(见下)并于1989年再版,研究论文数以千计。
本讲座是应用取向,分3部分:建模、统计分析与模型选择和诊断。写作时依据的主要参考资料是L.Fahrmeir等《Multivariate Statistical Modeling Based on G eneralized Linear Models》, Springer,1994,以及McCullagh等的《G eneralized Linear Models》,1989年第2版,Chapman& Hill。此领域的专著一般都不涉及严格的数学推导。本讲座在建模过程及统计方法的导出等方面,力求在数学上交待清楚,但因性质所限,也不涉及一些非常繁琐的证明。对这方面有兴趣的读者应参阅有关的杂志论文,可从下面的论文入手:L.Fahrmeir等:Consistency and asymptotic normality of the maximum likelihood estimator in generalized linear models Ann. Statist,1985,342—368。
第一部分 建模
§1.1 一维广义线性回归
(一)定义
设有因变量Y,自变量x。Y为一维,x一般为多维。通常的线性回归有以下几个特征:
1.E(Y)=μ=z′(x)β(线性,线性指对β,非X),z(x)为x的已知(向量)函数,z′表示转置(本讲义中“′”都表示转置,不是导数),z′(x)常简记为z′。
2.x,z(x),Y都是取连续值的变量,如农作物的产量,人的身高体重之类。
3.Y 的分布为正态,或接近正态之分布。
广义线性回归从以下几方面推广:
1.E (Y )=μ=h (z ′
β),h 为一严格单调,充分光滑的函数。h 已知,g =h -1(h 的反函数)称为联系函数(link function )。有g (μ)=z ′
β。2.x ,z (x ),Y 可取连续或离散值,且在应用上更多见的情况为离散值,如{0,1},{0,1,2……}等
3)例如,x 为1维,z (x )可以是(1,x ),(1,x ,x 2),(1,e x )等。若x =(x 1,x 2)′,z (x )可以是
(1,x 1,x 2)′,(1,x 1,x 2,x 21,x 2
2,x 1x 2)等。
3.Y 的分布属于指数型,正态是其一特例。这里考虑的Y 为一维,故属于一维指数型。其形式为:
c (y )exp (θy -b (θ
))d μ(y ),θ∈Θ(参数空间)(1.1)θ为参数,称为自然参数。b (θ)为θ的已知函数。μ为一测度(不一定是概率测度),常见的有两种可能:
a.当Y 为连续变量时,d
μ(y )为Lebesgue 测度:d μ(y )=dy ;b.当Y 为离散变量时,Y 取有限个值a 1,…,a m 或可列个值a 1,a 2,…,这时
μ({a i })=1,i =1,…,m ;或μ({a i })=1,i =1,2…(1.2)故
∫
d
c c (y )exp (θy -b (θ))dy =1,一切θ∈Θ(连续情况)(1.3)
[c ,d ](或(c ,d ),[c ,d )等)为Y 的取值区间,可为(-∞,∞
),(0,∞),(-∞,0)或任何其它有限或无限区间。
或
6i
c (a i
)exp (θa
i
-b (θ))=1,一切θ∈Θ(离散情况)(1.4)
在这一情况,c (a i )exp (θa i -b (θ
))为Y 取a i 的概率(参数为θ时)若Y 有分布(1.1),则
E Y = b (θ
)(=db (θ)/d θ),V ar (Y )=b ≈
(θ)(=d 2b (θ)/d θ2
)(1.5)
事实上,在(1.3)两边对θ求导,有
∫
d
c (y - b (θ))c (y )exp (θy -b (θ))dy =0(1.6)
注意到在(1.3),以及E (Y )=
∫
d
c
yc (y )exp (θy -b (θ))dy ,得(1.5)第一式———此处及以
下在积分号下求导的合法性没有问题。再在(1.6)时两边对θ求导,有
∫
d
c (y - b (θ))2
c (y )exp (θy -b (θ
))dy -b ≈
(θ)∫
d
c
c (y )exp (θy -b (θ
))dy =0此时左边第一项为V ar (Y ),第二项为b ≈
(θ
)。故得(1.5)第2式。例1.1研究一些因素(自变量)对“剖腹产后是否有感染”的影响。
Y =1,有感染0,无感染
x =(x (1),x (2),x (3)):
x (1)=
1,剖腹事先未计划
0,剖腹事先计划