多元统计分析——均值向量和协方差阵检验
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 设有4个样本,若采用两两样本的t检验,共要进 行4!/[2!(4-2)!]=6次, 每次不犯第一类错误的概率是0.95, 则整个实验不犯第一类错误的概率是0.956=0.735, 整个实验犯第一类错误的概率是1-0.735=0.265, 这要远远大于一般的显著性水平0.05。
• 另外,t检验每次只用两组,统计量的自由度小。 统计量的可靠性也降低。统计量的自由度越大, 所对应的统计量的可靠性就高。
i 1
i 1
当假设
H0
成立时,T
2
~
T2 p,
n
m
p1
,从而
n m p 1T 2 (n m 2)p
F ~ p, n m p1
即当给定显著性水平 的值时,若
F * Fp,nm p1
时,拒绝 H0 ,否则没有足够的理由拒绝 H0 。
(2)协方差不相等的情况(见书P25)
第二章 均值向量和协方差
阵的检验
一、均值向量检验 1.均值比较的意义 2.单一样本检验 3.独立样本检验 4.方差分析:一元和多元
二、协方差阵检验
1.均值比较的意义
• 在抽样调查中,按随机原则从总体中抽取一定数 量的样本,然后根据样本的数量特征来推断总体 的数量特征。由于样本中个体的差异性,样本所 得到的样本统计量与总体参数之间是存在差异的。
为 F1,n1 的上 分位点。
基本性质:在一元统计中,
若统计量t ~t(n-1)分布,当假设为真 时,统计量t2~F1,n-1分布,其否定域 为 t2 F1,n-1()
在多元统计中T2也具有类似的性质。
2、P 维单个正态总体均值向量的检验 考虑假设检验问题
H0 : 0 , H1 : 0
较无意义。
一元情况的回顾 考虑假设检验问题
H0 : 1 2 , H1 : 1 2
设 x1, x2,
,
xn1
是取自总体
N
(
1,
2 1
)
的容量为
n1
的样本,
y1,
y2 ,
, yn2 是 取 自 总 体
N
(
2
,
2 2
)
的容量为
n2
的样本,给定显著性水平
。
(1)
两个总体方差
12
N
p
( 1, ,)
X1( 2 ,)L
,Xn
( 2
:2
)
Np
( 2,
,)
… …… …… ……
X1(k ),L
,X
k( nk
:)
Np
( k
,
,)
{x(jr), r 1,L , k; j 1,L , nr}相互独立,我们欲检验假设
H0 : 1 L k , H1 :至少存在 i j 使 i j
:
N(2, 2 ) ,
欲检验假设
… …… …… ……
X
(k 1
)
,L
,
X (k) nk
:
N(k , 2) ,
H0 : 1 L k , H1 :至少存在 i j 使 i j
这个检验的似然比 统计量依赖下列平方和
k
组间平方和:SS(TR)= nr ( X r X )2 r 1
P{ } 故否定域 W={ } 。当手头没有威尔克斯临界表时,可用 2 分布或 F 分布来近似,
由 的函数的近似分布进行检验
二、协方差阵的检验
要检验的假设是
H0 : 1 r , H1 :{i}不全相等
检验用到的统计量是
M
(n
r) ln
|
类似于上节,用似然比法求得统计量
其中
T 2 nm (x y )S 1(x y ) n m
x
1 n
n i 1
xi
,y
1 m
m i 1
yi
S Ax Ay /(n m 2)
n
m
Ax (xi x )(xi x ) , Ay ( yi y )( yi y )
• 建立一个原假设:H0:假设该院大三学生 的身高与该校大三学生的平均身高相等。
• 这属于单个变量的均值与已知常数的比较
1、一元情况的回顾 考虑假设检验问题
H0 : 0 , H1 : 0
设 x1, x2 , , xn 是取自总体 N (, 2 ) 的一个样本,给定显著性水平 。
(1)当 已知时,用统计量 x 0 n
其中:
x
1 n
n i 1
xi
为样本均值。
当假设成立时, ~N(0,1),否定域为| | /2 , / 2 为 N (0,1) 的上 / 2 分位点。
n
(2)当 未知时,用 S 2 (xi x )2 /(n 1) 作为 2 的估计,用统计量 i 1
和表示
一元正态总体均值向量的检验
(1)一元 的回顾
设有 k 个总体G1, G2 ,L , Gk ,它们的分布分别是 N (1, 2 ),L , N (k , 2 ) ,
从它们中分别抽取 了样本如下:
X
(1) 1
,L
,
X (1) n1
:
N (1, 2 ) ,
X
( 1
2)
,L
,
X
(2) n2
• 例如:推断样本是否来自同一总体 情形一:有两个样本,其均值不等; (并不能断定它们不是来自同一总体) 情形二:有两个样本,其均值相等; (并不能据此断言它们是来自同样的总体)
——这就需要用到均值比较的方法
2.单一样本检验
• 已知某校大三学生的平均身高是163cm。 现从某院大三学生中随机抽取20个测量出 其身高。检验该院大三学生的身高与该校 大三学生的身高平均值是否相等。
3、两个p维正态总体均值的检验
(1)协方差相等的情况 考虑假设检验问题
H0 : 1 2 , H1 : 1 2
设 x1, x2 , , xn 是 取 自 总 体 N p (1, ) 的 容 量 为 n 的 样 本 , y1, y2 , , ym 是 取 自 总 体
N p (2 , ) 的容量为 m 的样本, n p.m p ,给定显著性水平 。
S (n
r)
|
r i1
(ni
1) ln
|
Si (ni 1)
|
其中
nk
Sk
(
X
(k i
)
X
k
)(
X
( i
k
)
X
k
)
i1
X k
1
nk
nk
X
(k i
)
,
i
1,
i1
,r
r
S Si i 1
当 r,p,n 不大且 n1 n2 nr n0 时,查表可求得 M 的上 分位点;若 r,p,n
j
j
r1 j1
易见
W=B+E 其中 E 称为组内离差阵,B 称为组间离差阵。
维尔克斯统计量
根据直观想法以及用似然比原理得到检验 H0 的统计量为
EE
BE W
根据 分布的定义,可知在 H0 条件下
E
~ ( p,n k,k 1)
BE
给定显著性水平 ,查威尔克斯分布临界值表,可得 ,使
4.方差分析
• 进行两组及多组间样本平均数的比较 • 如在医学研究中,分析几中药物对某种疾
病的疗效;
为什么多样本均值检验不采用两两样 本的t检验,而一定要采用方差分析
• 统计结论都是概率性的。假设实际情况是 H0成立,那么根据设置的显著性水平如 0.05, 平均每100次检验中有5次会得出拒绝 H0的错误结论。
2.1 所示。根据以往资料,该地区城市 2 周岁男婴的这三个指标的均值 0 = (90, 58,16) ,
现欲在多元正态性假定下检验该地区农村男婴是否与城市男婴有相同的均值。
某地区农村男婴的体格测量数据
编号 1
身高(cm) 78
胸围(cm) 60.6
上半壁围(cm) 16.5
2
76
58.1
12.5
多元方差分析的特点:多元分析具有概括和全面考虑的综合能力和特 点,而一元分析能发现各指标各组间的关系和差异。两者结合起来会 更丰富。
(2)P 维正态总体均值的检验
将上述方法推广到多元,设有 k 个总体G1, G2 ,L , Gk ,今从它们中分别抽取独立样本
如下:
X1( 1,)L
,X
n
( 1
:1
)
方差分析的思想
• 方差分析认为,不同样本间的均值差异来 源于两个方面:
• 总变异=随机误差+由于不同的实验条件 导致的误差
• 总变异=组内差异+组间差异
量化
• 随机误差:由于测量导致。 用变量在各组每个取值与该组的变量
均值的离差平方和的总和表示。 • 不同的实验条件导致的差异:意思是样本
抽自不同的总体而导致的差异。 用各组的均值与总体均值的离差平方
统计量
T 2 n( X 0 )'ˆ 1( X 0 ) n(n 1)( X 0 )' S 1( X 0 )
T ~ 2 (p,n-1)
T 2 与 F 分布的关系:
在 H 条件下 F n p T 2
0
(n 1) p
实例
对某地区农村的 6 名 2 周岁男婴的身高、胸围、上半臂围进行测量,得样本数据如表
和
2 2
已
知
构造检验统计量
u xy
12
2 2
n1 n2
当 H0 成立时,u N (0,1) 。检验规则为: 当| u | u /2 时,拒绝 H0 ; 当| u | u /2 时,接受 H0 。
(
2)两个总体方差
12
和
2 2
未知,但
2 1
=
2 2
=
2
用 sp 代替 ,构造检验统计量
设 x1, x2 , , xn 是取自总体 N p (, ) 的一个样本,给定显著性水平 。
(1) 已知。 当假设成立时,
T02 n(X 0)'
1( X
0
)
~
2 p
其否定域为 T02
2 p
(
)
,后者是
2 p
的上
分位点。
(2) 未知。这时 的无偏估计是 ˆ S /(n 1) ,
3
92
63.2
14.5
4
81
59.0
14.0
5
81
60.8
15.5
6
84
59.5
14.0
这是假设检验问题: H0 :μ = 0 , H1 :μ≠ 0
3.独立样本检验
• 即对相互独立的两个样本的均值进行比较,看二者是否有 显著的差异。与单一样本T检验的原理相同,采用小概率 反证法。
• 首先假设:H0两个样本来自同一总体,u1=u2 • 独立样本t检验的前提: (1)两个样本相互独立 (2)两个样本来自正态总体 若违反这一假设,应采用非参数检验或变换变量使适应条件 (3)比较的两个样本有实际意义 如一个关于产品重量的样本和一个关于产价格的样本均值比
用类似于一元方差分析的方法,上述诸平方和变成了矩阵
k
B=SS(TR)= nr (xr x )(xr x ) r 1
k nr
k
E=SSE=
(x(r) j
xr
)( x ( r ) j
xr
)
Ar
r1 j1
r 1
k nr
W=SST=
(x(r) x )(x(r) x )
t x 0 n 来检验假设。 S
当假设成立时,t~t(n-1),否定域为 | t | tn1( / 2) , tn1( / 2) 为 tn1 的上 / 2 分位点。
统计量
t x 0 n
S
等价于 t 2 n(x 0 )'(S 2 )1(x 0 )
当假设成立时,t2~F(1,n-1)(自由度为 1,n-1 的 F 分布),其否定域为 t 2 F1,n1( ) ,后者
k nr
组内平 方和:SSE=
(X
(r)
j
Xr
)2
r1 j1
k nr
总平方 和:SST=
(X (r) X )2
j
r1 j1
式
中:
Xr
1 nr
nr
X (r) j
j 1
表示第
r 个处理的均值, X 1
k
nr
X (r)
nj r r1 j1
表 示总 均
值, n n1 L nk
根据直观想法以及用似然比原理得到检验维尔克斯统计量根据分布的定义可知在给定显著性水平查威尔克斯分布临界值表可得分布或f分布来近似即由的函数的近似分布进行检验要检验的假设是不全相等检验用到的统计量是互不相等时此时可用f分布去近似m近似遵从bf至少有一对1提出待检验的假设h0和h12给出检验的统计量及它服从的分布3给定检验水平查统计量的分布表确定临界值从而得到否定域4根据样本观测值计算出统计量的值看是否落入否定域中以便对待判假设检验做出决策拒绝或接受
t xy
sp
1 1 n1 n2
当 H0 成立时,t 服从自由度为 n1 n2 2 的 t 分布,即 t t(n1 n2 2) 。
检验规则为:
当| t | t /2 (n1 n2 2) 时,拒绝 H0 ;
当| t | t /2 (n1 n2 2) 时,接受 H0 。
构造统计量
F SS(TR) /(k 1) SSE /(n k)
当假设成立时, F : Fk 1,nk ,其否定域为 F Fk 1,nk (r)
多元方差分析 应用前提
与一元方差分析一样,多元方差分析要 满足独立性、正态性、方差齐性(各组方 差协方差矩阵相等)。
多元方差分析对正态性是稳健的,即总 体稍微偏离正态,对结论的影响不大。因 此,在样本量充分大的情况下,也能够对 偏态总体的均值作出推断。
Байду номын сангаас
较大且{ni}互不相等时,此时可用 F 分布去近似,M 近似遵从 bF( f1, f2 ),记作