广义估计方程在纵向资料中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
广义估计方程
(3) 不确定型相关(unstructured correlation)。
即不预先指定相关的形式,让模型根据资料 的特征自己估计。 另外,还有两种不太常用的相关形式:稳态 相关(stationary correlation)和自回归过程
(autoregressive process),此处不再作介绍。
应用举例
我们再次考察应变量分布,发现发作次数的
制癫痫发作的作用。
应用举例
表2 某药物抗癫痫的随机对照临床试验对照组每2周的发作次数
ID 1 2 3
26 27 28
Base 11 11 6
9 10 47
Visit1 5 3 2
2 3 13
Visit2 3 5 4
1 1 15
Visit3 3 3 0
2 4 13
Visit4 3 3 5
1 2 12
i
n
i 1 V i ( )( Y i u i ) O p
求解方程Var(Yij)=V(μij)·Ф可得到β的一致性估计。其中Vi表 示作业协方差矩阵(working covariance matrix),并有
V i Ai
1/ 2
广义估计方程在纵向资料中的应用
主要内容
• 一、广义线性模型简介 1)一般线性模型 2)广义线性模型 • 二、广义估计方程 1)纵向资料 2)广义估计方程 3)应用举例
一、广义线性模型简介
1)一般线性模型
一般线性模型(general linear model),简称线性模型 (linear model),是数理统计学中发展较早、理论丰富而且 应用性很强的一个重要分支。 方差分析
广义估计方程
作业相关矩阵的使用:
作业相关矩阵的形式在拟合模型之前预先设 定好,模型拟合完毕时会计算出具体的相关矩阵。 假设等相关的情况下,计算的相关矩阵除了对角 线上的元素外,其他的元素都相等,即任两次观
测的相关是相同的。如果假设独立,则矩阵对角
线以外元素都为0。
广义估计方程
广义估计方程的特性:
应用举例
表3 某药物抗癫痫的随机对照临床试验试验组每2周的发作次数
ID 29 30 31
56 57 58
Base 76 38 19
25 13 12
Visit1 11 8 0
2 0 1
Visit2 14 7 4
3 0 4
Visit3 9 9 3
0 0 3
Visit4 8 4 0
1 0 2
应用举例
这种发作次数的资料也叫作计数资料,一般
一般线性模型
局限性:
线性模型只能拟合应变量服从正态分布的资 料,如果应变量是分类变量,或不服从正态分布 的变量,线性模型则不能适用。
广义线性模型
2)广义线性模型
概念:
很多非线性模型,如指数模型、Logistic回归模型, 如对应变量作一定的变量变换可满足或近似满足线性模型 分析的要求,能够借助线性模型的分析思路解决模型构造、 参数估计和模型评价等一系列问题。这就是广义线性模型 (generalized linear model)
测量数据,按时间顺序组成较短的序列,并由大
量这样的序列组成,而时间序列数据是很多各数 据组成一个长的序列。
纵向数据
传统的统计方法一般都要求应变量是独立的,
因而,由于应变量之间的相关,纵向数据不能用 传统的方法来分析。因为如果忽略重复测量间的 相关性,将损失数据中的信息,参数估计可能不 准确。因此,Liang和Zeger等创立了广义估计方
表示Yis和Yit的相关,尽管个体之间的相关性可
能不尽相同,Ri(a)近似地表示个体之间平均的 相关。
广义估计方程
作业相关矩阵的形式常有以下几种,其中s、 t表示测量次数,Rst表示第s次和第t次测量 之间的相关系数,如果s=t,则Rst=1。
(1) 独立(independent),即不相关 (uncorrelated)。 Rst=0,s≠t
程(generalized estimating equations) 。
广义估计方程
2)广义估计方程 应用:
广义估计方程是在广义线性模型的基础上发 展起来的、专用于处理纵向数据的统计模型。广 义估计方程可以对符合正态分布、二项分布等多
种分布的应变量拟合相应的统计模型,解决了纵
向数据中应变量相关的问题,得到稳健的参数估 计值。
广义线性模型
优点:
广义线性模型不仅可以用于拟合应变量服从 正态分布的模型,还可以拟合应变量服从二项分 布、Poisson分布、负二项分布等指数分布族的模 型,通过指定不同的联接函数,把指数分布族的
众多模型统一到一个模型框架中,具有极大的灵
活性,其应用也日趋广泛。
纵向数据
概念:
纵向数据(longitudinal data)是按照时间顺序
认为服从Poisson分布。不同病人可以认为是独 立的,而同一个病人的各次发作次数是前后相关
的。应而考虑以发作次数为应变量,指定应变量
分布为Poisson分布,联接函数为对数,作业相 关矩阵指定为等相关,拟合广义估计方程。
应用举例
基线次数反映了病人严重程度,一般作为
协变量加以调整。这里base代表基线发作次数, 是以原始形式还是对数形式进入模型还不能确
应用举例
在SAS软件中GENMOD过程就可以根据要 求设置模型,并得到参数估计和假设检验。这里 我们使用SAS9.0进行编程。
应用举例
• 数据步如下:
应用举例
• 程序步如下:
应用举例
上面的程序步中:
proc genmod data=a;调用genmod过程 class id;用来定义分类变量
性预测值η i关联起来。 g(μ
i
)= η i=β0+ β1Xi1+ β2Xi2+ … βjXij
g(. )是联接函数,联接函数的作用就是对应变量 作变换使之符合正态分布,变量变换的类型依应
变量的分布不同而不同。通过指定应变量的分布
和联接函数,就可以拟合各种不同的模型。
广义线性模型
表1 常见的概率分布和联接函数
广义线性模型
模型构造:
(1)应变量,相互独立,服从指数分布族,方差能够 表达为均数的函数。应变量的期望值记为:
E(Yi)=μi。
(2)线性部分,即自变量的线性组合,β为待求的参
数向量。
η i=β0+ β1Xi1+ β2Xi2+ … βjXij=X’i β
广义线性模型
(3)联接函数(link function),将应变量的期望值和线
广义估计方程
一、模型的基本构成
假设Yij为第i个个体的第j次测量的变量 (i=1, … k,j=1, … t),Yi=(Yi1,Yi2 … Yij)′, Xij=(Xij1 … Xijp),为对应于Yij的p×1维解释变量 向量。如果解释变量在各个观察时刻不变(比如
性别),则Xi1p=Xi2p … =Xijp。如果j时刻没有观测
分布 正态分布 联接函数 恒等函数 数学表达式 η =μ
log
1
模型 多元线性回归模型
二项分布
二项分布 Possion分布
Logit函数
Probit函数 对数
Logistic回归模型
Probit回归模型 Possion回归模型
η =Φ -1(π ) η =log(λ )
定,因而分别拟合两个模型1和2,根据模型拟
合的结果来定。 • 模型1: • 模型2:
lg y ij 0 1 base 2 treat 3 time lg y ij 0 1 log( base ) 2 treat 3 time
R i ( ) A i
1/ 2
式中:Ri(α)是Yij的作业相关矩阵(working correlated matrix); Ai是以V(μij)为第i个元素的t维对角矩阵。
广义估计方程
二、作业相关矩阵
作业相关矩阵是广义估计方程中的一个重 要概念,表示的是因变量的各次重复测量值两 两之间相关性的大小,常用Ri(a)表示,是t×t维 对角阵,t是总测量次数。其第s行第t列的元素
需要估计的参数向量。
广义估计方程
(2) 指定Yij边际方差(marginal variance)是边际 期望的已知函数。 Var(Yij)=V(μij)·Ф 式中:V(.)为已知函数;Ф为尺度参数(scale parameter),表示Y的方差不能被V(μij)解释的部 分。这个参数也是需要模型估计的,对二项分 布和Poisson分布而言,Ф=1。
就是假设应变量之间不相关。
广义估计源自文库程
(2) 等相关,或可交换的相关(exchangeable
correlation)。 Rst=α,s≠t 假设任意两次观测之间的相关是相等的。这 种假设常用于不依时间顺序的重复测量资料,比
如说测量血压,间隔5分钟连续测3次,3次测量
结果有相关,但与时间的先后顺序可能无关。
一般线性模型
多元回归模型等
一般线性模型
应用:
用于研究某个指标(应变量,记为Yi)与一组 指标(Xi1, Xi2,… ,Xij)之间的线性关系。
表达式: yi=β0+ β1Xi1+ β2Xi2+ … βjXij+ei
一般线性模型
一般线性模型对于残差分布的三个重要假设:
(1)独立 (2)符合正态分布,且均数为0 (3)方差齐性,即ei的方差相等
假设为统计独立的,而对象内的则为相关的。 Subject后的变量必须列入class语句中。其中
type=exch指定作业相关矩阵为等相关, covb
用来显示估计回归参数的协方差阵, corrw显 示估计作业相关矩阵
应用举例
拟合结果:
模型1的偏差统计量=973.6568,模型2的偏差 统计量=855.8579,自由度为288,可见以基线次 数的对数形式拟合的模型2更优。但是两模型的偏 差统计量都很大,模型不理想。
(4) 重复(2)、(3)过程直至收敛。
应用举例
为了解某抗癫痫药物的作用,对58名癫痫
病人进行临床试验,对照组使用安慰剂。观察
病人在连续8周内的发作次数,作为基线发作次 数(base)。然后给病人服药,记录服药后每2周 的发作次数(visitk1~visit4),一共观察了8周, 所得资料如表2及表3。请分析该药物是否有抑
广义估计方程
(3) 指定Yij协方差是边际均数和参数α的函数。
Cov(Yis,Yit)=c(μis, μit;α) 式中:c(.)为已知函数;α又叫相关参数 (correlation parameter);s和t分别表示第s次和 第t次测量。
广义估计方程
构造如下广义估计方程为:
S ( ; , )
对个体进行重复测量得到的资料。
比如儿童的生长监测资料,出生后每月测量
其体重(Y变量)以及影响体重的因素(X变量,如性 别、喂养、疾病等),这样每个儿童的多次测量值 称为纵向数据的一个串(cluster),是由一组Y变量 (各次测定的体重)和一组相对应的X变量组成。
纵向数据
纵向数据特点 :
同一对象的多次观测之间呈相关倾向 因而,纵向数据与一般的多元应变量的资料 不同,因为它的反应变量之间高度相关。也有别 于时间序列数据,纵向数据是由每个个体的重复
只要联接函数正确,总观测次数足够大,即 使Ri(α)指定不完全正确,β的可信区间和模型的 其他统计量仍然渐近正确。因而作业相关矩阵的 选择对参数估计的影响不大。
广义估计方程
三、模型求解过程
(1) 假设重复测量值独立,按照广义线性模型计算
出β,作为β的初始值,相当于普通最小二乘法
估计。 (2) 基于标准化残差gij和假设的相关结构R,计算作 业相关矩阵和作业协方差阵。 (3) 根据当前的作业协方差阵,修正β的估计。
值,则Yij和Xij都缺失。
广义估计方程
模型构成如下:
(1) 指定Yij的边际期望(marginal expectation)是协 变量Xij线性组合的已知函数。 E(Yij)=μij,g(μij)=β0+β1Xij1+β2Xij2+…βpXijp 式中:g(.)称为联接函数;β=(β1…βp)’为模型
model y=base treat time/ dist=p;建立模型指定因
变量和自变量。其中dist=p指定因变量的分布为
Poisson分布
应用举例
repeated subject=id/ type=exch covb corrw;
repeated指明为重复测量分析。subject说明了
输入数据集中分析的对象。对象间的反应变量