二分类资料的多水平模型-
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
u 0 为j 水平2单位的logit均值 0 j与总均值 0 之差,又称为随机效应(random effect)或 高水平的残差。
两水平logit模型
u
0
j
的方差
2 u0
又称为随机参数(random
coefficient),反映了高水平单位间的比数
(率)的差别。
性 u2越0 越强大。说明数据在高水平单位内的聚集
y i 为应变量:1 表示发生畸形
0 表示未发生畸形
x i 为处理因素 :1 表示高剂量花粉(甲组)
0 表示低剂量花粉(乙组)
各软件对例5.1拟合单水平logistic回归模型结检验统计量 P值
MLwiN -1.749 (0.313) 0.773 (0.381) 4.110 ( 2 值) 0.043
2 v a r (ˆ m ) v a r e x p ˆm x ˆ 1 e x p ˆm x ˆ 1
v a re x p L m 1 e x p L m 1
水平1误差的经验值
用VPC(variance partition coefficient)来进
行度量
VPC
当应变量为连续型变量时,VPC等价于组内相关 系数(intra-class correlation)
在两水平的方差成分模型中, VPC表示了水平2 的方差占总方差的比例
u20/(u20e20)
置尺度参数 为1 可允许 为待估参数,对水平1方差是否
“超二项变异” 进行检验,即考察水平1 方差是否满足二项分布的假定,可根据估 计的尺度参数值和1.0的差值与的估计标 准误之比作正态性Z检验而得。
判断是否存在高水平效应
密切结合专业知识和具体情况进行判断
对随机参数
2 u0
的估计值做检验
结果解释
甲组相对于乙组,仔鼠发生畸形的比数比 的对数值(ln OR)为0.773,P=0.043。
由结果可见,忽略窝别效应,处理因素 (甲、乙两种喂养方式)对结果的影响有统 计学意义,高剂量花粉比低剂量花粉更容 易发生仔鼠畸形。
讨论
对于例5.1,单水平logistic回归分析处理效 应的检验结果P值接近检验水准0.05,这 一结果可靠程度值得怀疑
在考虑了“窝别效应”后,处理因素的系
数为1.078,标准误为0.993, OR=e1.078 =
2.939,由于P>0.05,因此,尚不能认为给
孕鼠喂养大剂量的辐射花粉会引起仔鼠骨 骼畸形发生增加
进一步分析窝别效应的强度
• 随机斜率模型,L为
r ˆu 2 0 2 ˆu 0 1 x cˆu 2 1 x c 2ˆ0ˆ1 x c
3. 计算m个模型样本的估计反应率
ˆmexpL m 1expL m 1
4. 对m个计算经验方差获得
log ( )
1 ( )
log ( s/ t)(s
=1,…, t1)
n
probit模型
probit模型在教育领域应用较多
probit模型中,与相应的是正态分布的
下侧累计概率函数。因此系数 i 的解释 是当其它自变量不变时,自变量改变一个 单位时,所导致的“概率单位”的改变。
优势
处理具有层次结构特征的数据资料,可将传 统模型中的随机误差项分解到与数据层次结构 相应的水平上,使得个体的随机误差更纯 。
二项分布
当反应变量为比数(率),一般采用二项分布。 标准二项分布假定的比数(率):
yij ~Bin(nij,ij)
i指示水平1单位,j指示水平2单位,n i j 为比数(率)的 分母,在未分组数据的情况下,n ij 1 。
(1,,p)T 是待估的未知参数
g()
是连接函数
广义线性模型表示为以下三部分
随机部分:
结果变量Y,服从指数族概率分布,
E(Y)
系统部分
通过协变量 X1,..., X p 产生线性预测值 ,
p
X j j 1
连接函数
随机部分和系统部分由下式联系在一起
g()
注:分母表示该窝仔鼠总数,分子表示仔鼠中骨骼畸形发生数
忽略窝别效应,直接进行两组仔鼠畸形发 生率的比较,可采用单水平的logistic回归
模型
yi~lo g it(P i)01xi
y i~ B i n ( n i , i) , V a r ( P i) i( 1 i)n i
probit模型
概率单位在数学上的意义是很明确的,但 在生物学上没有合适的解释,因此probit 回归在流行病学应用上尚未普及的原因
对多数资料来说,logistic回归模型与 probit模型的估计概率相近
各软件对例5.1拟合单水平probit回归结果
MLwiN
Stata
SPSS
截距
0
1.177( 2 )
1.15(t 值)
0.278
0.261
Stata
-2.396(0.687) 0.760(0.948)
1.974 2
1.000(0.000) 0.80 (Z 值)
0.423
以MLwiN的拟合结果为例,水平2 单位(不 同孕鼠之间)的随机效应残差(即窝别效应)方 差为3.423,标准误为1.554, Wald检验结果 为4.852,P=0.028。可以认为不同窝别的仔 鼠骨骼畸形的发生概率是不同的,“窝别效 应”存在
不同处理的孕鼠所产仔鼠骨骼畸形发生结果
组别 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 甲组 0/7 6/9 3/8 1/7 1/8 0/6 2/7 4/5 3/7 0/8 0/7 1/7 7/7 0/7 1/6 乙组 5/7 0/8 2/7 1/7 2/8 0/8 0/8 0/6 0/7 0/9 2/6
2 u0
为0时,该模型演变为一般的logistic回
归模型。
两水平logit模型
为尺度参数。当反应变量确定服从二项
分布,则尺度参数应该为1或接近1。即当 模型的固定效应参数和随机效应参数的估 计值确定后,反应变量的方差估计值为
ˆij(1ˆij)/nij
两水平logit模型
拟合模型时,若假设二项方差成立,则设
验进行比较 如需要控制混杂因素,采用多因素的logistic回归等
方法 。
通常处理方式
不足之处 忽略了数据层次结构的特征
二分类反应变量单水平模型
二分类反应变量的单水平模型
例5.1 某公共卫生学院营养与食品卫生学 教研室用孕鼠进行口服花粉的致畸实验, 将26 只孕鼠随机分为甲、乙两组,甲组在 孕早期每天给予辐射花粉2000mg/kg , 乙组 每天给予500mg/kg 。待孕鼠分娩后,观察 其子鼠骨骼畸形的发生情况。
在经济水平、生活方式、生活习惯上都具有某 种程度上的相似性或聚集性 ;个体的数据是 非独立的 。
通常处理方式
结果变量为连续性或定量
如研究某药物对仔鼠体重的影响,可用方 差分析分离出区组间效应(如窝别效应),然 后比较试验组与对照组仔鼠体重的差异
通常处理方式
结果变量为二项分布
两组的畸形发生率,用两个率的差别的Z检验或 2 检
各软件对例5.1拟合方差成分模型结果
固定部分 截距 0 处理因素1
随机部分 水平 2 水平 1
检验统计量 P值
MLwiN
SAS
-2.539(0.792) -2.613(0.794) 1.078(0.993) 1.095(0.953)
3.423(1.554) 3.598(1.919)
1.000(0.000) 1.000(0.000)
2ˆmEˆm2/m m
5.计算m个的水平1的二项分布误差,然 后取其平均值得到水平1误差的经验值,
1ˆm1ˆm/m m
6.计算VPC
VPC2/(21)
两水平模型的应用
对例5.1,在进一步考虑了“窝别效应” 后,该资料可看作具有两个水平的层次结 构,即:孕鼠水平(水平2 单位)与仔鼠水 平(水平1 单位) ;甲、乙两种喂养方式是 解释变量;仔鼠是否发生畸形是反应变量。
1ˆm1ˆm/m m
VPC2/(21)
操作过程
1. 产生m个正态分布的随机数,记为r,例 如m=5 000,通常大样本为佳
2. 确定变量的值,根据已拟合的模型计算 模型中的线性部分(L指示的部分),由此 获得m个所估计模型的样本
• 方差成分模型,L为
rˆu0ˆ0ˆ1xc
二分类资料的多水平分析
张菊英 教授
问题背景
数据的层次结构(hierarchical structure)现 象是广泛存在的,这种结构可以是自然的, 亦可以是人为形成的。
试验研究
致畸试验 常用孕鼠作试验 ,观察每个孕鼠所
产子代中发生畸形的情况 。
层次结构:
孕鼠1
窝别效应 孕鼠2
孕鼠p
两水平logit模型
lo g it(P ij) (0 u 0j)1 x ij
u0j 0j 0
u 0 j~ N ( 0 ,u 2 0 ) , V a r ( P i j) i j( 1 i j) /n i j
两水平logit模型
1 为处理因素的效应参数,又称固定效 应(fixed effect)参数
其中 g() 被称为连接函数。
连接函数有多种,应根据应变量的特点加 以选择。
应变量与不同的连接函数就构成了不同的 回归模型
应变量为二项分布时常用的连接函数
名称 logit 自然对数(Poisson 回归) probit 函数
多变量 logit
幂函数
f1() log {( )/(1 )}
广义线性模型是一般线性模型的直接推广
很多模型属于非线性模型,如指数模型、 logistic回归模型等,它们通过一定的变量变换, 可以转化成线性模型,并满足或近似满足线性 模型分析的要求
广义线性模型的一般形式
p
g(i ) Xiji i 1,2,,n j 1
X (xij)np 是已知的设计矩阵
子鼠1 子鼠2 。。。子鼠m1 子鼠1 子鼠2 。。。子鼠m2 子鼠1 子鼠2 。。。子鼠mp
调查研究
某省调查其农村居民的卫生服务
随机抽取30个乡镇,每个乡镇分别抽取2个 行政村,每个村再随机抽取33户(家庭),对 每个家庭前半年内的常住人口进行问卷调查。
资料的特点
具有明显的层次结构(乡镇 行政村 户 个 体) ;
讨论
试验中仔鼠畸形在窝别间存在聚集性,仔 鼠发生畸形的概率不是完全独立的,数据 不再服从二项分布
若仍用单水平logistic回归处理这类资料, 则会低估两个率差别的标准误,从而增大 犯Ⅰ型错误的概率,即将本来无差别的两 个率判为有差别
广义线性模型
实际上logistic回归模型只是广义线性模型 (generalized linear model,GLM)的一种
VPC
当应变量为离散型变量时,VPC与ICC不 等价
以二项分布的资料为例,水平1的方差依 赖于模型中解释变量的值,因此没有一个 简单的方法来计算VPC
假设 u0j ~N(0,u20)
m个水平2方差 的样本
在已知的固定效应 x ˆ 估计下,m个水平2单位 的方差均值的经验估计为:
SAS -1.750 (0.313) 0.773 (0.381) 4.109 ( 2 值) 0.043
Stata -1.750 (0.313) 0.773 (0.381) 2.03 (Z 值) 0.043
SPSS -1.749 (0.313) 0.773 (0.381) 4.109 ( 2 值) 0.043
-1.044 (0.171)
-1.045 (0.171)
-1.044 (0.171)
处理因素 1
0.442 (0.215)
0.442 (0.215)
0.442 (0.215)
检验统计量
4.249( 2 ) 2.06(Z)
2.062(Z)
P值
0.039
0.039
0.039
二分类反应变量两水平模型
两水平logit模型
u
0
j
的方差
2 u0
又称为随机参数(random
coefficient),反映了高水平单位间的比数
(率)的差别。
性 u2越0 越强大。说明数据在高水平单位内的聚集
y i 为应变量:1 表示发生畸形
0 表示未发生畸形
x i 为处理因素 :1 表示高剂量花粉(甲组)
0 表示低剂量花粉(乙组)
各软件对例5.1拟合单水平logistic回归模型结检验统计量 P值
MLwiN -1.749 (0.313) 0.773 (0.381) 4.110 ( 2 值) 0.043
2 v a r (ˆ m ) v a r e x p ˆm x ˆ 1 e x p ˆm x ˆ 1
v a re x p L m 1 e x p L m 1
水平1误差的经验值
用VPC(variance partition coefficient)来进
行度量
VPC
当应变量为连续型变量时,VPC等价于组内相关 系数(intra-class correlation)
在两水平的方差成分模型中, VPC表示了水平2 的方差占总方差的比例
u20/(u20e20)
置尺度参数 为1 可允许 为待估参数,对水平1方差是否
“超二项变异” 进行检验,即考察水平1 方差是否满足二项分布的假定,可根据估 计的尺度参数值和1.0的差值与的估计标 准误之比作正态性Z检验而得。
判断是否存在高水平效应
密切结合专业知识和具体情况进行判断
对随机参数
2 u0
的估计值做检验
结果解释
甲组相对于乙组,仔鼠发生畸形的比数比 的对数值(ln OR)为0.773,P=0.043。
由结果可见,忽略窝别效应,处理因素 (甲、乙两种喂养方式)对结果的影响有统 计学意义,高剂量花粉比低剂量花粉更容 易发生仔鼠畸形。
讨论
对于例5.1,单水平logistic回归分析处理效 应的检验结果P值接近检验水准0.05,这 一结果可靠程度值得怀疑
在考虑了“窝别效应”后,处理因素的系
数为1.078,标准误为0.993, OR=e1.078 =
2.939,由于P>0.05,因此,尚不能认为给
孕鼠喂养大剂量的辐射花粉会引起仔鼠骨 骼畸形发生增加
进一步分析窝别效应的强度
• 随机斜率模型,L为
r ˆu 2 0 2 ˆu 0 1 x cˆu 2 1 x c 2ˆ0ˆ1 x c
3. 计算m个模型样本的估计反应率
ˆmexpL m 1expL m 1
4. 对m个计算经验方差获得
log ( )
1 ( )
log ( s/ t)(s
=1,…, t1)
n
probit模型
probit模型在教育领域应用较多
probit模型中,与相应的是正态分布的
下侧累计概率函数。因此系数 i 的解释 是当其它自变量不变时,自变量改变一个 单位时,所导致的“概率单位”的改变。
优势
处理具有层次结构特征的数据资料,可将传 统模型中的随机误差项分解到与数据层次结构 相应的水平上,使得个体的随机误差更纯 。
二项分布
当反应变量为比数(率),一般采用二项分布。 标准二项分布假定的比数(率):
yij ~Bin(nij,ij)
i指示水平1单位,j指示水平2单位,n i j 为比数(率)的 分母,在未分组数据的情况下,n ij 1 。
(1,,p)T 是待估的未知参数
g()
是连接函数
广义线性模型表示为以下三部分
随机部分:
结果变量Y,服从指数族概率分布,
E(Y)
系统部分
通过协变量 X1,..., X p 产生线性预测值 ,
p
X j j 1
连接函数
随机部分和系统部分由下式联系在一起
g()
注:分母表示该窝仔鼠总数,分子表示仔鼠中骨骼畸形发生数
忽略窝别效应,直接进行两组仔鼠畸形发 生率的比较,可采用单水平的logistic回归
模型
yi~lo g it(P i)01xi
y i~ B i n ( n i , i) , V a r ( P i) i( 1 i)n i
probit模型
概率单位在数学上的意义是很明确的,但 在生物学上没有合适的解释,因此probit 回归在流行病学应用上尚未普及的原因
对多数资料来说,logistic回归模型与 probit模型的估计概率相近
各软件对例5.1拟合单水平probit回归结果
MLwiN
Stata
SPSS
截距
0
1.177( 2 )
1.15(t 值)
0.278
0.261
Stata
-2.396(0.687) 0.760(0.948)
1.974 2
1.000(0.000) 0.80 (Z 值)
0.423
以MLwiN的拟合结果为例,水平2 单位(不 同孕鼠之间)的随机效应残差(即窝别效应)方 差为3.423,标准误为1.554, Wald检验结果 为4.852,P=0.028。可以认为不同窝别的仔 鼠骨骼畸形的发生概率是不同的,“窝别效 应”存在
不同处理的孕鼠所产仔鼠骨骼畸形发生结果
组别 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 甲组 0/7 6/9 3/8 1/7 1/8 0/6 2/7 4/5 3/7 0/8 0/7 1/7 7/7 0/7 1/6 乙组 5/7 0/8 2/7 1/7 2/8 0/8 0/8 0/6 0/7 0/9 2/6
2 u0
为0时,该模型演变为一般的logistic回
归模型。
两水平logit模型
为尺度参数。当反应变量确定服从二项
分布,则尺度参数应该为1或接近1。即当 模型的固定效应参数和随机效应参数的估 计值确定后,反应变量的方差估计值为
ˆij(1ˆij)/nij
两水平logit模型
拟合模型时,若假设二项方差成立,则设
验进行比较 如需要控制混杂因素,采用多因素的logistic回归等
方法 。
通常处理方式
不足之处 忽略了数据层次结构的特征
二分类反应变量单水平模型
二分类反应变量的单水平模型
例5.1 某公共卫生学院营养与食品卫生学 教研室用孕鼠进行口服花粉的致畸实验, 将26 只孕鼠随机分为甲、乙两组,甲组在 孕早期每天给予辐射花粉2000mg/kg , 乙组 每天给予500mg/kg 。待孕鼠分娩后,观察 其子鼠骨骼畸形的发生情况。
在经济水平、生活方式、生活习惯上都具有某 种程度上的相似性或聚集性 ;个体的数据是 非独立的 。
通常处理方式
结果变量为连续性或定量
如研究某药物对仔鼠体重的影响,可用方 差分析分离出区组间效应(如窝别效应),然 后比较试验组与对照组仔鼠体重的差异
通常处理方式
结果变量为二项分布
两组的畸形发生率,用两个率的差别的Z检验或 2 检
各软件对例5.1拟合方差成分模型结果
固定部分 截距 0 处理因素1
随机部分 水平 2 水平 1
检验统计量 P值
MLwiN
SAS
-2.539(0.792) -2.613(0.794) 1.078(0.993) 1.095(0.953)
3.423(1.554) 3.598(1.919)
1.000(0.000) 1.000(0.000)
2ˆmEˆm2/m m
5.计算m个的水平1的二项分布误差,然 后取其平均值得到水平1误差的经验值,
1ˆm1ˆm/m m
6.计算VPC
VPC2/(21)
两水平模型的应用
对例5.1,在进一步考虑了“窝别效应” 后,该资料可看作具有两个水平的层次结 构,即:孕鼠水平(水平2 单位)与仔鼠水 平(水平1 单位) ;甲、乙两种喂养方式是 解释变量;仔鼠是否发生畸形是反应变量。
1ˆm1ˆm/m m
VPC2/(21)
操作过程
1. 产生m个正态分布的随机数,记为r,例 如m=5 000,通常大样本为佳
2. 确定变量的值,根据已拟合的模型计算 模型中的线性部分(L指示的部分),由此 获得m个所估计模型的样本
• 方差成分模型,L为
rˆu0ˆ0ˆ1xc
二分类资料的多水平分析
张菊英 教授
问题背景
数据的层次结构(hierarchical structure)现 象是广泛存在的,这种结构可以是自然的, 亦可以是人为形成的。
试验研究
致畸试验 常用孕鼠作试验 ,观察每个孕鼠所
产子代中发生畸形的情况 。
层次结构:
孕鼠1
窝别效应 孕鼠2
孕鼠p
两水平logit模型
lo g it(P ij) (0 u 0j)1 x ij
u0j 0j 0
u 0 j~ N ( 0 ,u 2 0 ) , V a r ( P i j) i j( 1 i j) /n i j
两水平logit模型
1 为处理因素的效应参数,又称固定效 应(fixed effect)参数
其中 g() 被称为连接函数。
连接函数有多种,应根据应变量的特点加 以选择。
应变量与不同的连接函数就构成了不同的 回归模型
应变量为二项分布时常用的连接函数
名称 logit 自然对数(Poisson 回归) probit 函数
多变量 logit
幂函数
f1() log {( )/(1 )}
广义线性模型是一般线性模型的直接推广
很多模型属于非线性模型,如指数模型、 logistic回归模型等,它们通过一定的变量变换, 可以转化成线性模型,并满足或近似满足线性 模型分析的要求
广义线性模型的一般形式
p
g(i ) Xiji i 1,2,,n j 1
X (xij)np 是已知的设计矩阵
子鼠1 子鼠2 。。。子鼠m1 子鼠1 子鼠2 。。。子鼠m2 子鼠1 子鼠2 。。。子鼠mp
调查研究
某省调查其农村居民的卫生服务
随机抽取30个乡镇,每个乡镇分别抽取2个 行政村,每个村再随机抽取33户(家庭),对 每个家庭前半年内的常住人口进行问卷调查。
资料的特点
具有明显的层次结构(乡镇 行政村 户 个 体) ;
讨论
试验中仔鼠畸形在窝别间存在聚集性,仔 鼠发生畸形的概率不是完全独立的,数据 不再服从二项分布
若仍用单水平logistic回归处理这类资料, 则会低估两个率差别的标准误,从而增大 犯Ⅰ型错误的概率,即将本来无差别的两 个率判为有差别
广义线性模型
实际上logistic回归模型只是广义线性模型 (generalized linear model,GLM)的一种
VPC
当应变量为离散型变量时,VPC与ICC不 等价
以二项分布的资料为例,水平1的方差依 赖于模型中解释变量的值,因此没有一个 简单的方法来计算VPC
假设 u0j ~N(0,u20)
m个水平2方差 的样本
在已知的固定效应 x ˆ 估计下,m个水平2单位 的方差均值的经验估计为:
SAS -1.750 (0.313) 0.773 (0.381) 4.109 ( 2 值) 0.043
Stata -1.750 (0.313) 0.773 (0.381) 2.03 (Z 值) 0.043
SPSS -1.749 (0.313) 0.773 (0.381) 4.109 ( 2 值) 0.043
-1.044 (0.171)
-1.045 (0.171)
-1.044 (0.171)
处理因素 1
0.442 (0.215)
0.442 (0.215)
0.442 (0.215)
检验统计量
4.249( 2 ) 2.06(Z)
2.062(Z)
P值
0.039
0.039
0.039
二分类反应变量两水平模型