第3章-广义线性模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ˆ 模型为 ln p 21.28 1.64 x ˆ 1 p
当x=15时,估计y=1的概率约为0.97,即年收入为15万元的家庭 有私家车的可能性约为97%.
2015/10/9
主编:费宇
14
3.3 对数线性模型
• 1.模型的定义 • 设y服从参数λ为的泊松分布,则μ=E(y)=λ,采 用对数联结函数,即
0
0 0 … 0 1 1
11
13 55 … 53 42 28
33
34 35 … 58 59
19
24 31 … 13 12
18
24 30 … 36 37
1
1 1 … 1 1
19
11 74 … 0 10
主编:费宇
18
2. 模型的参数估计和检验
• 采用R软件中的广义线性模型过程glm( )来 建立泊松对数线性模型并对模型的系数进 行显著性检验.程序如下:
主编:费宇
2015/10/9
19
运行以上程序可得如下结果:
Call: glm(formula = y ~ x1 + x2 + x3, family = poisson(link = log), data = data3.2) Deviance Residuals: Min 1Q Median 3Q Max -6.0569 -2.0433 -0.9397 0.7929 11.0061 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.9488259 0.1356191 14.370 < 2e-16 *** x1 0.0226517 0.0005093 44.476 < 2e-16 *** x2 0.0227401 0.0040240 5.651 1.59e-08 *** x3 -0.1527009 0.0478051 -3.194 0.0014 ** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 2122.73 on 58 degrees of freedom Residual deviance: 559.44 on 55 degrees of freedom AIC: 850.71 Number of Fisher Scoring iterations: 5
2015/10/9
主编:费宇
17
表3.2 Breslow癫痫数据
No x1 x2 x3 y No x1 x2 x3 y
1 2
11 11
31 30
0 0
14 14
31 32
19 10
20 30
1 1
7 13
3
4 5 … 28 29 30
2015/10/9
6
8 66 … 47 76 38
25
36 22 … 22 18 32
m( ) ln ( ) 0 1 x1 k xk
这个广义线性模型称为泊松对数线性模型.
2015/10/9
主编:费宇
15
例3.2(数据文件为eg3.2)
表3.4 Breslow癫痫数据
No 1 2 3 4 5 ... 25 26 27 28 29
2015/10/9
x1 11 11 6 8 66 ... 55 9 10 47 76
yi 2 / 2 1 yi2 2 exp [ ln(2 )] 2 2 2
与(3.1)对照可知
2 y 1 , 2 , ai ( ) 2 , b( ) ,ci ( yi , ) [ i2 ln(2 2 )] 2 2
2015/10/9
主编:费宇
4
3.1 广义线性模型概述
1.广义线性模型的定义: (1)随机成分:设y1,y2,…,yn是来自于指数分布族 的随机样本,即yi的密度函数为
i yi b( ) f ( yi , i , ) exp ci ( yi , ) ai ( ) (3.1)
• 其中ai(.) ,b(.),ci(.) 是已知函数,参数αi是典则 参数,ϕ是散度参数.
2015/10/9
主编:费宇
5
1.广义线性模型的定义:
• (2)联结函数:设yi的均值为μi而函数m(.)是单
调可微的联接函数,使得
m(i ) x
T i
(i 1,, n)
(3.2)

T T ( , , , ) x (1, x , , x ) 0 1 k 是未 其中 i i1 ik 是协变量,
知参数向量.
2015/10/9
主编:费宇
6
指数分布族
• 正态分布 • 二项分布 • 泊松分布
2015/10/9
主编:费宇
7
2.正态线性回归模型
• 正态分布属于指数分布族,其密度函数为
f ( yi , , 2 ) 1 exp 2 ( yi ) 2 2 2 2 1 (3.3)
主编:费宇 中国人民大学出版社
2015/10/9
主编:费宇
1
第3章 广义线性模型
• 3.1 广义线性模型概述 • 3.2 Logistic模型 • 3.3 对数线性模型
2015/10/9
主编:费宇
2
3.1 广义线性模型概述
• 第2章我们研究了多元线性模型,该模型的一 个重要假定是因变量是连续型的变量(通常 假定服从正态分布),但在许多情况下,这种假 定并不合理,例如下面这两种情况. • (1)结果变量可能是类型变量.二值分类变量 和多分类变量.(比如:是/否,差/一般/良好/优 秀等)显然都不是连续型变量.
#eg3.2 广义线性模型: 泊松对数线性模型 #打开数据文件eg3.2.xls,选取A1:E60区域,然后复制 data3.2<-read.table(‚clipboard‛,header=T) #将eg3.2.xls数据读入到 data3.2中 glm.ln<-glm(y~x1+x2+x3,family=poisson(link=log),data=data3.2) #建立y关 于#x1,x2,x3的泊松对数线性模型 summary(glm.ln) #模型汇总,给出模型回归系数的估计和显著性检验等
2015/10/9
主编:费宇
13
2. 模型的参数估计和检验
> yp<-predict(glm.logit,data.frame(x=15)) > p.fit<-exp(yp)/(1+exp(yp));p.fit #估计x=15时y=1的概率 1 0.9665418
容易看出:回归模型的回归系数在5%水平上显著,于是得回归
2015/10/9
主编:费宇
3
3.1 广义线性模型概述
• (2) 结果变量可能是计数型变量(比如:一周交通事 故的数目)这类变量都是非负的有限值,而且它们 的均值和方差通常是相关的(一般线性模型假定因 变量是正态变量,而且相互独立). • 普通线性回归模型(2.3)假定因变量y服从正态分布, 其均值满足关系式:μ=Xβ,这表明因变量的条件均 值是自变量的线性组合. • 本章介绍两种常见的广义线性模型:Logistic模型与 对数线性模型.
2
2015/10/9
主编:费宇
8
2. 正态线性回归模型
• 只要取联结函数为 m(i ) i xiT
(i 1,, n) ,则正
态线性回归模型满足广义线性模型的定义.
• 类似的,容易验证,二项分布和泊松分布都属
于指数分布族. • 下面介绍实际中应用广泛的两种广义线性 模型:Logistic模型和对数线性模型.
主编:费宇
10
例3.1(数据文件为eg3.1)
表3.1 某地区源自文库5个家庭的调查数据
年收入 年收入 年收入 是否有车 是否有车 是否有车 (万元) (万元) (万元) 15 1 25 1 12 0 20 1 12 0 15 1 10 0 10 0 9 0 12 1 15 1 8 0 8 0 7 0 10 0 30 1 22 1 22 1 6 0 7 0 24 1 16 1 16 1 9 0 22 1 18 1 10 0 36 1 21 1 18 1 7 0 7 0 30 1 24 1 9 0 6 0 6 0 6 0 13 0 11 0 20 1 23 1 18 1 16 1 10 0
x2 20 30 18 24 30 ... 32 26 21 36 37
x3 1 1 1 1 1 ... 1 1 1 1 1
y 7 13 19 11 74 ... 15 51 6 0 10
16
主编:费宇
例3.2(数据文件为eg3.2)
• 这个数据是robust包中的Breslow癫痫数据 (Breslow,1993).我们讨论在治疗初期的八周 内,癫痫药物对癫痫发病数的影响,响应变量 为八周内癫痫发病数(y) ,预测变量为前八周 内的基础发病次数(x1),年龄(x2)和治疗条件 (x3),其中治疗条件是二值变量, x3=0表示服 用安慰剂, x3=1表示服用药物. 根据这个数据 建立泊松对数线性模型并对模型的系数进 行显著性检验.
2015/10/9
主编:费宇
9
3.2 Logistic模型
• 1.模型定义 设yi服从参数为pi的二项分布,则μi =E(yi)=pi 采用逻辑联结函数,即
pi m( i ) log it(pi ) log xiT 1 pi
这个广义线性模型称为Logistic模型.
2015/10/9
2015/10/9
主编:费宇
12
运行以上程序可得如下结果:
Call: glm(formula = y ~ x, family = binomial, data = data3.1) Deviance Residuals: Min 1Q Median 3Q Max -1.21054 -0.05498 0.00000 0.00433 1.87356 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -21.2802 10.5203 -2.023 0.0431 * x 1.6429 0.8331 1.972 0.0486 * Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 62.3610 on 44 degrees of freedom Residual deviance: 6.1486 on 43 degrees of freedom AIC: 10.149 Number of Fisher Scoring iterations: 9
2015/10/9
主编:费宇
11
2. 模型的参数估计和检验
• 采用R软件中的广义线性模型过程glm( )可以完成 回归系数的估计,以及模型回归系数的显著性检验. 程序如下:
#eg3.1广义线性模型:Logistic模型 #打开数据文件eg3.1.xls,选取A1:B46区域,然后复制 data3.1<-read.table("clipboard",header=T) #将eg3.1.xls数据读入到data3.1中 glm.logit<-glm(y~x,family=binomial,data=data3.1) #建立y关于x的logistic回归#模型,数据为data3.1 summary(glm.logit) #模型汇总,给出模型回归系数的估计 和显著性检验等 yp<-predict(glm.logit,data.frame(x=15)) p.fit<-exp(yp)/(1+exp(yp));p.fit #估计x=15时y=1的概率
x2 31 30 25 36 22 ... 30 40 19 22 18
x3 0 0 0 0 0 ... 0 0 0 0 1
y 14 14 11 13 55 ... 143 6 10 53 42
No 31 32 33 34 35 ... 55 56 57 58 59
x1 19 10 19 24 31 ... 16 22 25 13 12
相关文档
最新文档