第3章-广义线性模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
年收入 (万元)
是否有车
年收入 (万元)
是否有车
年收入 (万元)
是否有车
15
1
25
1
12
0
20
1
12
0
15
1
10
0
10
0
9
0
12
1
15
1
8
0
8
0
7
0
10
0
30
1
22
1
22
1
6
0
7
0
24
1
16
1
16
1
9
0
22
1
18
1
10
0
36
1
211181707
0
30
1
24
1
9
0
6
0
6
0
6
0
13
0
11
0
20
1
23
1
18
.
8
2. 正态线性回归模型
• 只要取联结函数为 m (i) i x iT (i 1 , ,n ),则正
态线性回归模型满足广义线性模型的定义.
• 类似的,容易验证,二项分布和泊松分布都属 于指数分布族.
• 下面介绍实际中应用广泛的两种广义线性
模型:Logistic模型和对数线性模型.
2020/8/5
1
16
1
10
0
2020/8/5
.
11
2. 模型的参数估计和检验
• 采用R软件中的广义线性模型过程glm( )可以完成 回归系数的估计,以及模型回归系数的显著性检验. 程序如下:
#eg3.1广义线性模型:Logistic模型 #打开数据文件eg3.1.xls,选取A1:B46区域,然后复制 data3.1<-read.table("clipboard",header=T) #将eg3.1.xls数据读入到data3.1中 glm.logit<-glm(y~x,family=binomial,data=data3.1) #建立y关于x的logistic回归#模型,数据为data3.1 summary(glm.logit) #模型汇总,给出模型回归系数的估计 和显著性检验等 yp<-predict(glm.logit,data.frame(x=15)) p.fit<-exp(yp)/(1+exp(yp));p.fit #估计x=15时y=1的概率
f(yi,,2) 212exp 2 12(yi)2 exp yi 22/21 2[yi2 2ln(22)]
(3.3)
与(3.1)对照可知
, 2 ,a i() 2 ,b () 2 2 , c i( y i,) 1 2 [ y i 2 2 l n ( 22 ) ]
2020/8/5
2020/8/5
.
12
运行以上程序可得如下结果:
Call:
glm(formula = y ~ x, family = binomial, data = data3.1)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.21054 -0.05498 0.00000 0.00433 1.87356
.
9
3.2 Logistic模型
• 1.模型定义 设yi服从参数为pi的二项分布,则μi =E(yi)=pi
采用逻辑联结函数,即
m ( i)logit(pi)log1 pipi xiT
这个广义线性模型称为Logistic模型.
2020/8/5
.
10
例3.1(数据文件为eg3.1)
表3.1 某地区45个家庭的调查数据
主编:费宇 中国人民大学出版社
2020/8/5
.
1
第3章 广义线性模型
• 3.1 广义线性模型概述 • 3.2 Logistic模型 • 3.3 对数线性模型
2020/8/5
.
2
3.1 广义线性模型概述
• 第2章我们研究了多元线性模型,该模型的一 个重要假定是因变量是连续型的变量(通常 假定服从正态分布),但在许多情况下,这种假 定并不合理,例如下面这两种情况.
m (i) x i T ( i 1 , ,n ) ( 3 .2 )
• 其中 xiT(1,xi1, ,xik)是协变量, (0,1, ,k)T是未 知参数向量.
2020/8/5
.
6
• 正态分布 • 二项分布 • 泊松分布
指数分布族
2020/8/5
.
7
2.正态线性回归模型
• 正态分布属于指数分布族,其密度函数为
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 62.3610 on 44 degrees of freedom
Residual deviance: 6.1486 on 43 degrees of freedom
• (1)结果变量可能是类型变量.二值分类变量 和多分类变量.(比如:是/否,差/一般/良好/优 秀等)显然都不是连续型变量.
2020/8/5
.
3
3.1 广义线性模型概述
• (2) 结果变量可能是计数型变量(比如:一周交通事 故的数目)这类变量都是非负的有限值,而且它们的 均值和方差通常是相关的(一般线性模型假定因变 量是正态变量,而且相互独立).
• 普通线性回归模型(2.3)假定因变量y服从正态分布, 其均值满足关系式:μ=Xβ,这表明因变量的条件均 值是自变量的线性组合.
• 本章介绍两种常见的广义线性模型:Logistic模型与 对数线性模型.
2020/8/5
.
4
3.1 广义线性模型概述
1.广义线性模型的定义:
(1)随机成分:设y1,y2,…,yn是来自于指数分布族
AIC: 10.149
Number of Fisher Scoring iterations: 9
2020/8/5
.
13
2. 模型的参数估计和检验
> yp<-predict(glm.logit,data.frame(x=15)) > p.fit<-exp(yp)/(1+exp(yp));p.fit #估计x=15时y=1的概率
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -21.2802 10.5203 -2.023 0.0431 *
x
1.6429 0.8331 1.972 0.0486 *
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
的随机样本,即yi的密度函数为
f(y i,i,) e x p iy a ii (b ) () c i(y i,)
(3 .1 )
• 其中ai(.) ,b(.),ci(.) 是已知函数,参数αi是典则
参数,ϕ是散度参数.
2020/8/5
.
5
1.广义线性模型的定义:
• (2)联结函数:设yi的均值为μi而函数m(.)是单 调可微的联接函数,使得