第九章(三)协方差分析(Analysis_of_Covariance)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在方差分析中,协变量离差包含在了随机误差中. 在协方差分析中,单独将其分离出来.
总思路
在观测值中去除协变量的影响之后,应用方差分析
于是,我们用协变量对观测值进行修正,去掉“遗传”因素
Yij ( adj) Yij ( X ij X ) u ti eij
协变量修正后的 观测值 去除遗传效应
j 1 n
n
组内总 离差平 方和
i 1 k
k
(Yij bw ( X ij X i ) Yi ) 2
j 1
Yi的回 与回归线的残差平方和 归线 回归平 方和
E yy ( adj)
i 1
(Yij Yi ) bw
2 j 1
n
2
i 1
k
( X ij X i ) 2
2
分组变量离差 =总离差 - 协变量离差 - 随机误差
我们回头看协方差分析的模型
Yij ( adj) Yij ( X ij X ) u ti eij
使用该方法进行分析的前提是每组的回归系数相等,且不为零。回 归系数反映的是协变量对观测值的影响。只有这种影响的作用形 式相同,才能用该模型。 当然,如果回归系数为零的话,用协方 差分析也没有意义了。因此我们在做协方差分析前要做两个假设 检验. 1.协变量对因变量的影响对与个组来说都是相同的,即各组回归 系数相等: bw1 bw2 ... bwk 2.这些相等的回归系数不为零: bw 0
i 1
(Yij Y ) 2
j 1
Tyy ( adj)可表示为: Tyy ( adj) Tyy bt Txx Tyy Txy
2 2
Txx
其自由度为N 2。
当计算组内离差平方和时,我们使用组内回归系数
bw
它的计算如下:
bw
(X
i 1
k
n
i 1
j 1 k
2 2
E xx
自由度为N k 1。
从回归角度看 组内残 差平方 和 组内总 离差平 方和 组内回 归平方 和
接着就要计算组间平方和了。它反映的是各个水平之间的差异
Byy ( adj) Tyy ( adj) E yy ( adj)
有了这三个修正的平方和,我们就可以进行组间无差异的检验了。
186.25
Y 202 .42
销售白酒对当地的交通事故有影响吗?
我们用学过的方差分析来比较一下各组均值,他们是:186.25,206.50,214.50 差异 源 组间 SS 1696.167 df 2 MS 848.0833 F 2.079343 P-value 0.180982 F crit 4.256495
k
n
Y
ij
ij
u ( X ij X ) ij
r 1
i 1 k
X )(Yij Y )
( X ij X ) 2
i 1
n
由此我们可以计算总离差平方和的修正值:
Tyy (adj)
总离差平方和修正值的定义和计算式如下:
Tyy ( adj)
i 1
k
(Yij ( adj) Y ) 2
j 1 i 1 k n
n
(X
j 1
n
ij
X )(Yij Y )
由上式
i 1 k
( X ij X )(Yij Y ) bt
j 1 i 1
( X ij X ) 2,得到:
j 1
Tyy ( adj)
i 1
(Yij Y ) 2 bt
ij
X i )(Yij Yi )
( X ij X i ) 2
j 1
n
组内离差平方和的修正值计算如下:
在这里我们实际上是假 设各组内的回归系数相 等(协方差分析基本假 设)因而求出了一个统 一的组内回归系数.
E yy ( adj)
i 1
k
(Yij ( adj) Yi ) 2
协方差分析是如何解决这个问题的呢?
首先,我们看看方差分析数据结构:
Y
ij
u ti eij
一般均值
第i组第j个观 测值
第i组的组效 应
随机误差
方差分析的前提是除随机误差外,水平变量是影响观测值的唯一变量 对于芬兰白酒专卖的问题,交通事故显然不仅仅与销售方式有关,而把其他 变量都归为随机误差又太过粗糙.这样。我们就想到了引入其他变量.在协 方差分析的模型中,我们称之为协变量.
i 1
( E yy bwi E xxi ) /( N 2 K )
2 i 1
k
如果F值小于临界值则说明
bwi 之间无显著差异。
在进行协方差分析时,这个检验是最先进行的.
构造回归系数非零的假设检验时我们回顾一下一元线性回归显著性检验:
F
回归平方和/自由度 残差平方和/自由度
SSR F SSE
组内
3670.75
9
407.8611
F=2.079343<4.256495,接受 原假设, 即H0:u1=u2=u3
认为白酒的销售没有影响交通事故率。真的是这样吗?
稍加分析我们就会发现,我们的分析有问题
各组数据 可比吗? 各地的交通 事故仅仅与 饮酒有关吗 ?
是不是有些地区即 使不卖白酒交通事 故也会比其他地区 多?
下面的问题是,如何计算回归系数
我们把回归系数的计算分为两种情况 计算总离差平方和时:
bT
我们最终要检验的是分组自变量对因变量有无显著作用. 原假设是无显著作用.假设检验以原命题为真为基础进 行的.因此,这里我们认为ti=0,即,用回归模型计算回 归系数.其最小二乘无偏估计值为
bT
(X
r 1
j 1 n
n
Y
Y的回 归线
ij
u ( X ij X ) ij
i 1 k
k
(Yij bt ( X ij X ) Y ) 2
j 1 n
与回归线的离差平方和
k
i 1 k
(Yij Y ) 2 bt
j 1 n
2
i 1
k
( X ij X ) 2 2bt
ij i ij
可见,协方差分析将方差分析与回归分析结合了起来.
Y b0 b1 X Y b1 X b1 X Y b1 ( X X )
从离差分解的角度我们来解释协方差分析
对于方差分析:
总离差=分组变量离差+随机误差(组内离差)
对于协方差分析:
总离差=分组变量离差+协变量离差+随机误差
F
B yy ( adj) k 1 E yy ( adj) n k 1
回头从离差分解的角度我们来解释协方差分析
总离差=分组变量离差+协变量离差+随机误差
可解释部分 不可解 释部分
Byy ( adj) Tyy ( adj) E yy ( adj)
Tyy bt Txx E yy ( adj)
为比较销售白酒对交通事故是否有影响,我们搜集到三组实验区域一年 后的交通事故发生数:
授权销售白酒类型(要素水平) 开设 无授权 白酒专卖店
177 226 196 198
授权 饭店代销
226 229 215
交通事故报告数
225 167
176
206
206.50
188
214.50
每组平均事故数 12地区总平均事故 数
2 E xy
fR fE
bw E xx E yy ( adj)
2
E xy 1
2
E xx E xx
N k 1
E
yy
E xy
2
1 N k 1
E yy E xx E
2 xy
( N k 1)
回头看芬兰白酒专卖的例子。
为了更具体地进行协方差分析,我们回过头来看芬兰白酒专卖的例子:
j 1
n
2
i 1
k
( X ij X ) 2
j 1
n
回归平 方和
如果X对Y无作用 ,b=0,该项则为0
为了简化表示,我们定义
Txy
i 1
k
(X
j 1 k i 1 k
n
ij
X )(Yij Y ) ( X ij X ) 2
j 1 n n
Txx Tyy
我们来看一个问题: 芬兰由几十个小的自治区组成。在芬兰,白酒的批发和零售是国家垄 断的。几个世纪以来,法律规定白酒只能在城市自治区中销售。
但是后来这条法律要做修改了,该国的相关部门尝试性地在农村自治 区销售白酒,进而研究白酒的销售方式是否会影响当地的交通事故量 后来,他们任选12个农业自治区,在其中4个开设了白酒专卖店;另 外4个授权饭店销售白酒;余下的4个保持原来的状态,即禁止销售白 酒。 12个实验自治区
2
S1 E yy bwi E xxi
2
k
E
i 1
yyi
F
E yy ( adj) S1 k 1 S1 N 2k
2 k 2
E yy ( adj) E yy bw E xx
2
S1 E yy bwi E xxi
2 i 1
k
F
[( E yy bw E xx ) ( E yy bwi E xxi )] /(k 1)
我们当时的观测数据来自12个不同的自治区,同一个自 治区应该有其一定的特殊性,这样就使得个地区观测值的 可比性降低了。那么,怎么样去除这种特殊性呢? 这种地区的特殊性在统计上表现为观测前一年的数据 (X)和观测年的数据具有回归关系。这里面X就是协变 量,在协方差分析中可以分离出协变量效应,从而提高分 析结果的精度.为此我们收集到前一年,也就是各个自治 区都没有销售白酒的那一年交通事故的数据,并把他们整 理在下表中:
下面我们再看协方差分析数据结构:
观测值=一般均值+水平影响+协变量影响+随机误差
协变量
u ti ( X ij X ) ij Y ij
回归系 数
协变量效 应
“遗传” 效应
方差分析
回归分析
Y u t e Y ij u ( X ij X ) ij
检验各组的回归系数相等时要先按回归系数不相等表示模型:
Y u t i bw ( X ij X ) ij Y ij
ij
i
然后我们比较按照回归系数相等和回归系数不等计算出的误差平方和是否有显著差异
u t i bw ( X ij X ) ij
E yy ( adj) E yy bw E xx
j 1
n
同样为了简化表示,我们定义
E xy
i 1
k
(X
j 1 k i 1 k Yi ) ( X ij X i ) 2
j 1 n n
E xx E yy
i 1
(Yij Yi ) 2
j 1
E yy ( adj)可表示为: E yy ( adj) E yy bw E xx E yy E xy
第9章 (三)协方差分析
Analysis of Covariance
协方差分析基本思想: 不论是单因素方差分析还是多因素方差分析,控制因素都是可控 的,其各个水平可以通过人为的努力得到控制和确定。但在许多实 际问题中,有些控制因素很难人为控制,但它们的不同水平确实对 观测变量产生了较为显著的影响。 例如,在研究农作物产量问题时,如果仅考察不同施肥量、品 种对农作物产量的影响,不考虑不同地块等因素而进行方差分析, 显然是不全面的。因为事实上地块一般会影响农作物的生长。不考 虑这些因素进行分析可能会导致:即使不同的施肥量、不同品种农 作物产量没有产生显著影响,但分析的结论却可能相反。 再例如,分析不同的饲料对生猪增重是否产生显著差异。如果 单纯分析饲料的作用,而不考虑生猪各自不同的身体条件(如初始 体重不同),那么得出的结论很可能是不准确的。因为体重增重的 幅度在一定程度上是包含诸如初始体重等其他因素的影响的。
比如人口多的 地区,车辆多 的地区,雨雪 多的地区交通 事故就会多
实验前后,同一地区的交通事故量应该有某种联系!--回归关系 销售白酒后交通事故多的地区有可能是因为其原来交通事故就比其他地区多!
直接收集统计资料的有两种方式:实验式和非实验式。 如果条件可以完全控制的话(只一个因素变化,其他因素统一),实验式收集 数据进行方差分析理论上是可以保证精度的。 但是实验条件不能完全控制的时候就要采取统计控制,即用统计的方法排除数 据中的干扰因素从而提高精度。——我们知道,就算12个地区白酒的销售方式 是随机指定的,由于每组仅仅有四个地区,很难保证三组地区的交通事故只与 白酒的销售有关而其他因素统一水平。 • 协方差分析可以解决这类问题。