协方差分析简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
协方差分析简介
在许多研究中,两组或多组均数的比较还需要控制一些非研究因素的影响,这些非研究因素称为混杂因素(Confounding factor)。
为了帮助读者进一步理解分类自变量的线性回归的回归系数的特殊意义。先用下例说明自变量为二分类变量的直线回归中的回归系数检验与成组t检验之间的关系。
例12.7 为了评价控制饮食对糖尿病控制的作用,在坚持控制饮食的糖尿病人群和未控制饮食的糖尿病人群中各随机抽取30个对象,测量其空腹血糖如下
控制饮食组(group=1) 6.6 7.3 7.2 7.3 7.4 6.5 7.3 6.4 7.2 7.7 6.8 6.3 7.1 7.8 7.2 7.7 6.7
7.2 6.8 8 6.9 6.6 7 7.4 7.7 7.1 7.1 7.8 6.4 7.4
未控制饮食组(group=0) 7.7 7.7 7.2 6.9 7.6 7.4 7.9 6.9 7.5 6.9 8.4 7.2 7.2 7.1 7.8 7.4 7.4
8.4 7.6 7.9 6.9 7.9 7.2 7.5 7 7.2 6.7 7.1 7.3 7.6
数据格式
正态性检验和方差齐性检验的结果表明二组的资料都近似服从正态分布,并且方差齐性。成组t检验的Stata操作和结果如下
ttest y,by(group)
0.1144937。t值为2.5038,相应的P值为0.0151。
若设未控制饮食组(g=0)的空腹血糖总体均数为μ0,控制饮食组(g=1)的空腹血糖总体均数为μ0+β,即饮食控制组的总体均数-未饮食控制组的总体均数=β,因此两组总体均数相等对应就是β=0。因此两组的空腹血糖总体均数可用下列表达式描述。
0group
μμβ
=+(1)
以空腹血糖为应变量y,以分组变量group为自变量,用线性回归对参数μ0和β进行估
计,相应的Stata命令和主要结果如下
-.2866666,正好对应两组样本均数的差值,回归系数β=0的t检验值为-2.5,正好对应成组t检验的值,相应的P值也相同。由此可知,t检验也可以用直线回归进行分析并且两分类变量为协变量的回归系数的意义就是两组均数的差值,并且不难证明:凡符合成组t检验条件的资料必定满足线性回归对资料的要求:残差正态和方差齐性。因此以下将通过一些例子介绍利用线性回归在校正一些混杂因素情况下对某两组均数进行比较,即协方差分析。
例12.8 治疗缺铁性贫血50人,随机分为二组:A组和B组,分别用两种不同的治疗方案对患者进行一个疗程的治疗,由此评价两种治疗方案的疗效。数据如下:
A组g=1 治疗前y0 318 316 345 288 329 331 330 305 294 324 312 337 294 治疗后y1 492 485 515 426 492 499 500 461 443 475 471 477 442 治疗前y0 323 295 359 304 307 300 334 313 313 357 324 336
治疗后y1 483 461 525 460 466 457 499 470 493 542 498 517
B组g=0 治疗前y0 298 327 322 325 329 295 326 289 322 342 306 285 316 治疗后y1 430 461 449 430 472 422 448 414 448 487 434 409 435 治疗前y0 345 321 340 303 323 307 352 308 296 315 331 342
治疗后y1 468 454 475 440 429 432 500 437 423 442 453 478
其中变量y0为患者在治疗前的红细胞数(万/μl),y1为治疗后的红细胞数(万/μl),group为分组变量,group=1表示A组和group=0表示B组,相应的Stata格式为
:
在临床研究中,通常以红细胞增加数作为效应指标评价,因此首先产生红细胞增加数的变量yd,相应的Stata命令如下:
若不考虑治疗前红细胞数(称为基线红细胞数)对增加数的影响,则参照上例的(1)式,对应可以写出相应的两组总体均数表达式:
μd=μd0+βgroup (2)
其中μd0为A组的红细胞增加数的总体均数,μd0+β为B的红细胞增加数的总体均数,β为两组红细胞增加数总体均数之差。但是一般而言,基线红细胞数低的患者经治疗后的增加数可能要大于基线红细胞数较高的患者的增加数,所以要校正基线红细胞数对红细胞增加数的影响,并假定基线红细胞数与红细胞增加数成线性关系。因此在(2)式中增加基线红细胞数变量y0。
μd=μd0+β1group+β2y0(3)
由(3)式可知,A组(group=0)的红细胞增加数的总体均数为μd=μd0+β2y0,而B组(group=1)的红细胞增加数的总体均数为μd=μd0+β1+β2y0,因此对于同一基线红细胞数y0情况,两组红细胞增加数的总体均数差异为β1,故(3)式消除了不同基线红细胞数y0对两组总体均数差异的影响。β1=0说明两组的疗效相同;β1>0说明B组疗效优于A组;β1<0说明A组疗效优于B组。我们可以用线性回归方法对(3)式中参数μd0,β1和β2进行估计和统计检验(设α=0.05),相应的Stata命令和主要结果如下:
μd0的估计值为50.0882828,β1的估计值为34.01444,相应的P值<0.001,因此可以认为:
●在相同的基线红细胞数情况下,A组的红细胞增加数比B组平均高34.01444(万/μl)
个红细胞数,并且差别有统计学意义。即:可以认为A组治疗方案的疗效优于B
组治疗方案的疗效。
●β2的系数估计值为0.2451717,并且差别有统计学意义,因此可以认为基线红细胞