[理学]03_多元正态分布均值向量和协差阵的检验
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
T 2 (n 1)[ n(X μ0)S 1 n(X μ0)] ~ T (2 p, n p) 再根据 Hotelling T 2 分布的性质,所以
(n 1 ) p T1 2 ~ F (p n, p ) (n 1 )p
在处理实际问题时,单一变量的检验和多变量检验可以联合使用,多元 的检验具有概括和全面考察的特点,而一元的检验容易发现各变量之间 的关系和差异,能给人们提供更多的统计分析信息。
检验统计量是单一变量检验情况的推广。
2.针对有共同的未知协差阵的情形 对假设
H0:μ1 μ2
进行检验。
H1:μ1 μ2
对此问题,假设 H 0 成立时,所构造的检验统计量为
F (n m 2) p 1T 2 ~ F ( p, n m p 1) (n m 2) p
为了对多元正态总体均值向量作检验,首先需要给出 HotellingT2分布的定义。
在单一变量的检验问题中,设 X1, X2, , Xn 来自总体
N ( , 2 ) 的样本,我们要检验假设
H0 : 0 ; H1 : 0
当 2 已知时,用统计量 z (X 0 ) n
假设 H 0 成立时,构造检验统计量为
F (n p)n ZS-1Z ~ F ( p, n p) p
(3.10)
2.针对 n m 的情形
在此,我们不妨假设 n m ,令
Z(i) X(i)
分 布 为 非 中 心 HotellingT2 分 布 , 记 为
T 2 ~ T 2 ( p, n, μ) 。当 μ 0 时,称 T 2 服从(中心) Hotelling T 2 分布。记为T 2 ( p, n) 。
由于这一统计量的分布首先由 Harold Hotelling 提出
来的,故称为 Hotelling T 2 分布,值得指出的是,我
(3.7)
其中, T 2 (n 1)[ n(X μ0)S1 n(X μ0)]
给定检验水平
,查
F
分布表 ,使
P
n p (n 1) p
T
2
F
ຫໍສະໝຸດ ,可确定出临界值F
,再用样本值计算出 T 2 ,若
n p (n 1) p
T2
F
,
则否定 H 0 ,否则接受 H 0 。
其中,Y n(X μ0) ~ Np (0, ) ,因此,
T02 n( X 0 )Σ 1( X μ0 ) ~ 2 ( p) 。
(二)协差阵 Σ 未知时均值向量的检验 H0:μ μ0 ( μ0 为已知向量) H1:μ μ0 假设 H 0 成立,检验统计量为
(n 1) p 1T 2 ~ F ( p, n p) (n 1) p
定理 3.1 若 X ~ N p (0, Σ ) , S ~ Wp (n, Σ ) 且 X 与 S 相互
独立,令T 2 nX S 1X ,则
n p 1T 2 ~ F ( p, n p 1) np
(3.5)
在我们后面所介绍的检验问题中,经常会用到这一性质。
二、一个正态总体 均值向量的检验
(3.2)
作为 2 的估计量,用统计量:
t (X 0) n
S
(3.3)
来做检验。当假设成立时,统计量 t 服从自由度为 n 1的 t 分布,
从而否定域为| t | t /2 (n 1) ,t /2 (n 1) 为自由度为 n 1的 t 分布
上的 / 2 分位点。
这里我们应该注意到,(3.3)式可以表示为
其中,
(3.9)
T
2
(n
m
2)
nm nm
(X
Y)
S1
nm nm
(X
Y)
S Sx Sy
n
Sx (X(a) X)(X(a) X) , a 1
X (X1, X2, , Xp )
n
S y (Y(a) Y)(Y(a) Y) , a 1
假设 H 0 成立,检验统计量为
T02 n( X μ0 )Σ 1( X μ0 ) ~ 2 ( p) (3.6)
给定检验水平 ,查 2 分布表使 P T02 2 ,可确定
出临界值
2
,再用样本值计算出
T02
,若
T02
2
,则否定 H 0
,
否则接受 H 0 。
第三章 多元正态分布均值向量和 协差阵的检验
第一节 引言 第二节 均值向量的检验 第三节 协差阵的检验
第一节 引言
在单一变量的统计分析中,已经给出了正态总体N( , 2) 的均值和方差2的各种检验。对于多变量的正态总体Np ( , ∑ ) ,各种实际问题同样要求对和∑进行统计推断。
t2
n(X )2
S2
n(X
)(S 2 )1( X
)
(3.4)
对于多元变量而言,可以将 t 分布推广为下面将要介绍的
Hotelling T 2 分布。
定义 3.1 设 X ~ N p ( μ , Σ ) ,S ~ Wp (n, Σ ) 且 X 与 S 相互独立, n p ,则称统计量 T 2 nX S-1X 的
T02
nm nm
(X
Y)Σ1(X
Y)
~
2(
p)
(3.8)
给出检验水平 ,查 2 ( p) 分布表使 P T02 2 ,可
确定出临界值 2 ,再用样本值计算出T02 ,若T02 2 ,则
否定 H 0 ,否则接受 H 0 。
这里,我们应该注意到,在单一变量统计中进行均值相等检验
设 X (1) , X (2) , , X (n) 是 来 自 p 维 正 态 总体 N p ( μ , Σ ) 的 样
本,且
X
1 n
n
X ( )
1
,S
n
( X (a)
a 1
X )( X (a)
X ) 。
(一) 协差阵 Σ 已知时均值向量的检验
H0:μ μ0 ( μ0 为已知向量) H1:μ μ0
国著名统计学家许宝禄先生在 1938 年用不同方法也
导出T 2 分布的密度函数,因表达式很复杂,故略去。
在 单 一 变 量 统 计 分 析 中 , 若 统 计 量 t ~ t(n 1) 分 布 , 则 t 2 ~ F (1, n 1) 分布,即把 t 分布的统计量转化为 F 统计量来 处理,在多元统计分析中T 2 统计量也具有类似的性质。
Σ2 0 。对假设 H0:μ1 μ2
进行检验。
H1:μ1 μ2
1.针对 n m 的情形
令
Z(i) X(i) Y(i)
i 1,2,, n
Z
1 n
n i 1
Z(i)
XY
n
S (Z(i ) Z ) Z( i( ) Z ) i 1
n
(X(i ) Y (i ) X Y) ( Xi( ) Yi ( ) X )Y i 1
所给出的统计量为 显然
z X Y ~ N(0,1)
2 2
nm
z2
(X Y )2
2 2
nm
(n m) 2
(X
Y )2
nm
n m ( X Y )( 2 )1( X Y ) ~ 2 (1)
n m 此式恰为上边统计量当 p 1时的情况,不难看出这里给出的
Y (Y1, Y2, , Yp )
给定检验水平 ,查 F 分布表,使 pF F ,可确定
出临界值 F ,再用样本值计算出 F ,若 F F ,则否定 H 0 ,
否则接受 H 0 。
这里我们需要解释的是,当两个总体的协差阵未知时,自然想到用每个总
体的样本协差阵
例如,我们要考察全国各省、自治区和直辖市的社会经济发展 状况,与全国平均水平相比较有无显著性差异等,就涉及到多 元正态总体均值向量的检验问题等。
本章类似单一变量统计分析中的各种均值和方差的检验,相 应地给出多元统计分析中的各种均值向量和协差阵的检验。
其基本思想和步骤均可归纳为: 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界
值,从而得到否定域;
第四,根据样本观测值计算出统计量的值,看是否落入否定
域中,以便对待判假设做出决策(拒绝或接受)。
在检验的过程中,关键在于对不同的检验给出不同的统计量, 而有关统计量的给出大多用似然比方法得到。由于多变量问 题的复杂性,本章只侧重于解释选取统计量的合理性,而不 给出推导过程,最后给出几个实例。
态总体 N p (μ2 , Σ) 的容量为 m 的样本。两组样本相互独
立, n
p,m
p ,且 X
1 n
n i 1
X(i)
,Y
1 m
m i 1
Y( i )
。
1.针对有共同已知协差阵的情形 对假设
H0:μ1 μ2
进行检验。
H1:μ 1 μ 2
对此问题,假设 H 0 成立时,所构造的检验统计量为
为了更好的说明检验过程中统计量的分布,本章还要介绍 HotellingT2分布和Wilks分布的定义。
第二节 均值向量的检验
一 单一变量检验的回顾及HotellingT2分布 二 一个正态总体均值向量的检验 三 两个正态总体均值向量的检验 四 多个正态总体均值向量的检验
一、单一变量检验的回顾及Hotelling T2分布
三、两个正态总体均值向量的检验
(一)当协差阵相等时,两个正态总体均值向量的检验
设 X(a) ( X a1, X a2 , , X ap ) ,a 1,2,, n ,为来自 p 维
正 态 总 体 N p (μ1, Σ) 的 容 量 为 n 的 样 本 ;
Y(a) (Ya1,Ya2 , ,Yap ) , a 1,2,, m ,为来自 p 维正
设从两个总体 N p (μ1, Σ1) 和 N p (μ2 , Σ2 ) 中,分别抽取两
个样本,即 X(a) (Xa1, Xa2 , , Xap ) , a 1,2,, n ;
Y(a) (Ya1, Ya2 , , Yap ) ,a 1,2,, m ,其容量分别为
n 和 m ,且两组样本相互独立, n p, m p , Σ1 0 ,
这里需要解释的是,当 Σ 未知时,自然想到要用样本协差阵 1 S 取代 n 1
替 Σ ,因 (n 1)S1是 Σ1 的无偏估计量,而样本离差阵
n
S (X(a) X)(X(a) X) ~ Wp (n 1, Σ) a 1
n(X μ0 ) ~Np 0( Σ, )
由定义 3.1 知
n
1
1
S
x
和
1 m
1
S
y
去代替,而
n
Sx (X(a) X)(X(a) X) ~ Wp (n 1, Σ) a 1
m
S y (Y(a) Y)(Y(a) Y) ~ Wp (m 1, Σ) a 1
从而 S Sx S y ~ Wp (n m 2, Σ) 。又由于
nm nm
(X
Y)
~
N
p (0,
Σ)
所以
(n m 2) p 1T 2 ~ F ( p, n m p 1)
(n m 2) p
下述假设检验统计量的选取和前边统计量的选取思路是一样的,以下只提
出待检验的假设,然后给出统计量及其分布,为节省篇幅,不做重复解释。
(二)协差阵不等时,两个正态总体均值向量的检验
这里要对统计量的选取做一些解释,为什么该统计量服从
2 ( p) 分布。根据二次型分布定理知道,若 X ~ N p (0, Σ ) , 则 X Σ 1X ~ 2 ( p) 。显然,
T02 n( X μ0 )Σ 1( X μ0 ) n ( X μ0 )Σ 1 n ( X μ0 )Y Σ 1Y
( 3.1)
其中,X
1 n
n i 1
Xi
为样本均值。当假设成立时,统计量 z
服
从正态分布 z ~ N (0,1) ,从而否定域为| z | z / 2 , z / 2 为
N (0,1) 的上 / 2 分位点。
当 2 未知时,用
S 2
1 n 1
n i 1
(Xi
X )2
(n 1 ) p T1 2 ~ F (p n, p ) (n 1 )p
在处理实际问题时,单一变量的检验和多变量检验可以联合使用,多元 的检验具有概括和全面考察的特点,而一元的检验容易发现各变量之间 的关系和差异,能给人们提供更多的统计分析信息。
检验统计量是单一变量检验情况的推广。
2.针对有共同的未知协差阵的情形 对假设
H0:μ1 μ2
进行检验。
H1:μ1 μ2
对此问题,假设 H 0 成立时,所构造的检验统计量为
F (n m 2) p 1T 2 ~ F ( p, n m p 1) (n m 2) p
为了对多元正态总体均值向量作检验,首先需要给出 HotellingT2分布的定义。
在单一变量的检验问题中,设 X1, X2, , Xn 来自总体
N ( , 2 ) 的样本,我们要检验假设
H0 : 0 ; H1 : 0
当 2 已知时,用统计量 z (X 0 ) n
假设 H 0 成立时,构造检验统计量为
F (n p)n ZS-1Z ~ F ( p, n p) p
(3.10)
2.针对 n m 的情形
在此,我们不妨假设 n m ,令
Z(i) X(i)
分 布 为 非 中 心 HotellingT2 分 布 , 记 为
T 2 ~ T 2 ( p, n, μ) 。当 μ 0 时,称 T 2 服从(中心) Hotelling T 2 分布。记为T 2 ( p, n) 。
由于这一统计量的分布首先由 Harold Hotelling 提出
来的,故称为 Hotelling T 2 分布,值得指出的是,我
(3.7)
其中, T 2 (n 1)[ n(X μ0)S1 n(X μ0)]
给定检验水平
,查
F
分布表 ,使
P
n p (n 1) p
T
2
F
ຫໍສະໝຸດ ,可确定出临界值F
,再用样本值计算出 T 2 ,若
n p (n 1) p
T2
F
,
则否定 H 0 ,否则接受 H 0 。
其中,Y n(X μ0) ~ Np (0, ) ,因此,
T02 n( X 0 )Σ 1( X μ0 ) ~ 2 ( p) 。
(二)协差阵 Σ 未知时均值向量的检验 H0:μ μ0 ( μ0 为已知向量) H1:μ μ0 假设 H 0 成立,检验统计量为
(n 1) p 1T 2 ~ F ( p, n p) (n 1) p
定理 3.1 若 X ~ N p (0, Σ ) , S ~ Wp (n, Σ ) 且 X 与 S 相互
独立,令T 2 nX S 1X ,则
n p 1T 2 ~ F ( p, n p 1) np
(3.5)
在我们后面所介绍的检验问题中,经常会用到这一性质。
二、一个正态总体 均值向量的检验
(3.2)
作为 2 的估计量,用统计量:
t (X 0) n
S
(3.3)
来做检验。当假设成立时,统计量 t 服从自由度为 n 1的 t 分布,
从而否定域为| t | t /2 (n 1) ,t /2 (n 1) 为自由度为 n 1的 t 分布
上的 / 2 分位点。
这里我们应该注意到,(3.3)式可以表示为
其中,
(3.9)
T
2
(n
m
2)
nm nm
(X
Y)
S1
nm nm
(X
Y)
S Sx Sy
n
Sx (X(a) X)(X(a) X) , a 1
X (X1, X2, , Xp )
n
S y (Y(a) Y)(Y(a) Y) , a 1
假设 H 0 成立,检验统计量为
T02 n( X μ0 )Σ 1( X μ0 ) ~ 2 ( p) (3.6)
给定检验水平 ,查 2 分布表使 P T02 2 ,可确定
出临界值
2
,再用样本值计算出
T02
,若
T02
2
,则否定 H 0
,
否则接受 H 0 。
第三章 多元正态分布均值向量和 协差阵的检验
第一节 引言 第二节 均值向量的检验 第三节 协差阵的检验
第一节 引言
在单一变量的统计分析中,已经给出了正态总体N( , 2) 的均值和方差2的各种检验。对于多变量的正态总体Np ( , ∑ ) ,各种实际问题同样要求对和∑进行统计推断。
t2
n(X )2
S2
n(X
)(S 2 )1( X
)
(3.4)
对于多元变量而言,可以将 t 分布推广为下面将要介绍的
Hotelling T 2 分布。
定义 3.1 设 X ~ N p ( μ , Σ ) ,S ~ Wp (n, Σ ) 且 X 与 S 相互独立, n p ,则称统计量 T 2 nX S-1X 的
T02
nm nm
(X
Y)Σ1(X
Y)
~
2(
p)
(3.8)
给出检验水平 ,查 2 ( p) 分布表使 P T02 2 ,可
确定出临界值 2 ,再用样本值计算出T02 ,若T02 2 ,则
否定 H 0 ,否则接受 H 0 。
这里,我们应该注意到,在单一变量统计中进行均值相等检验
设 X (1) , X (2) , , X (n) 是 来 自 p 维 正 态 总体 N p ( μ , Σ ) 的 样
本,且
X
1 n
n
X ( )
1
,S
n
( X (a)
a 1
X )( X (a)
X ) 。
(一) 协差阵 Σ 已知时均值向量的检验
H0:μ μ0 ( μ0 为已知向量) H1:μ μ0
国著名统计学家许宝禄先生在 1938 年用不同方法也
导出T 2 分布的密度函数,因表达式很复杂,故略去。
在 单 一 变 量 统 计 分 析 中 , 若 统 计 量 t ~ t(n 1) 分 布 , 则 t 2 ~ F (1, n 1) 分布,即把 t 分布的统计量转化为 F 统计量来 处理,在多元统计分析中T 2 统计量也具有类似的性质。
Σ2 0 。对假设 H0:μ1 μ2
进行检验。
H1:μ1 μ2
1.针对 n m 的情形
令
Z(i) X(i) Y(i)
i 1,2,, n
Z
1 n
n i 1
Z(i)
XY
n
S (Z(i ) Z ) Z( i( ) Z ) i 1
n
(X(i ) Y (i ) X Y) ( Xi( ) Yi ( ) X )Y i 1
所给出的统计量为 显然
z X Y ~ N(0,1)
2 2
nm
z2
(X Y )2
2 2
nm
(n m) 2
(X
Y )2
nm
n m ( X Y )( 2 )1( X Y ) ~ 2 (1)
n m 此式恰为上边统计量当 p 1时的情况,不难看出这里给出的
Y (Y1, Y2, , Yp )
给定检验水平 ,查 F 分布表,使 pF F ,可确定
出临界值 F ,再用样本值计算出 F ,若 F F ,则否定 H 0 ,
否则接受 H 0 。
这里我们需要解释的是,当两个总体的协差阵未知时,自然想到用每个总
体的样本协差阵
例如,我们要考察全国各省、自治区和直辖市的社会经济发展 状况,与全国平均水平相比较有无显著性差异等,就涉及到多 元正态总体均值向量的检验问题等。
本章类似单一变量统计分析中的各种均值和方差的检验,相 应地给出多元统计分析中的各种均值向量和协差阵的检验。
其基本思想和步骤均可归纳为: 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界
值,从而得到否定域;
第四,根据样本观测值计算出统计量的值,看是否落入否定
域中,以便对待判假设做出决策(拒绝或接受)。
在检验的过程中,关键在于对不同的检验给出不同的统计量, 而有关统计量的给出大多用似然比方法得到。由于多变量问 题的复杂性,本章只侧重于解释选取统计量的合理性,而不 给出推导过程,最后给出几个实例。
态总体 N p (μ2 , Σ) 的容量为 m 的样本。两组样本相互独
立, n
p,m
p ,且 X
1 n
n i 1
X(i)
,Y
1 m
m i 1
Y( i )
。
1.针对有共同已知协差阵的情形 对假设
H0:μ1 μ2
进行检验。
H1:μ 1 μ 2
对此问题,假设 H 0 成立时,所构造的检验统计量为
为了更好的说明检验过程中统计量的分布,本章还要介绍 HotellingT2分布和Wilks分布的定义。
第二节 均值向量的检验
一 单一变量检验的回顾及HotellingT2分布 二 一个正态总体均值向量的检验 三 两个正态总体均值向量的检验 四 多个正态总体均值向量的检验
一、单一变量检验的回顾及Hotelling T2分布
三、两个正态总体均值向量的检验
(一)当协差阵相等时,两个正态总体均值向量的检验
设 X(a) ( X a1, X a2 , , X ap ) ,a 1,2,, n ,为来自 p 维
正 态 总 体 N p (μ1, Σ) 的 容 量 为 n 的 样 本 ;
Y(a) (Ya1,Ya2 , ,Yap ) , a 1,2,, m ,为来自 p 维正
设从两个总体 N p (μ1, Σ1) 和 N p (μ2 , Σ2 ) 中,分别抽取两
个样本,即 X(a) (Xa1, Xa2 , , Xap ) , a 1,2,, n ;
Y(a) (Ya1, Ya2 , , Yap ) ,a 1,2,, m ,其容量分别为
n 和 m ,且两组样本相互独立, n p, m p , Σ1 0 ,
这里需要解释的是,当 Σ 未知时,自然想到要用样本协差阵 1 S 取代 n 1
替 Σ ,因 (n 1)S1是 Σ1 的无偏估计量,而样本离差阵
n
S (X(a) X)(X(a) X) ~ Wp (n 1, Σ) a 1
n(X μ0 ) ~Np 0( Σ, )
由定义 3.1 知
n
1
1
S
x
和
1 m
1
S
y
去代替,而
n
Sx (X(a) X)(X(a) X) ~ Wp (n 1, Σ) a 1
m
S y (Y(a) Y)(Y(a) Y) ~ Wp (m 1, Σ) a 1
从而 S Sx S y ~ Wp (n m 2, Σ) 。又由于
nm nm
(X
Y)
~
N
p (0,
Σ)
所以
(n m 2) p 1T 2 ~ F ( p, n m p 1)
(n m 2) p
下述假设检验统计量的选取和前边统计量的选取思路是一样的,以下只提
出待检验的假设,然后给出统计量及其分布,为节省篇幅,不做重复解释。
(二)协差阵不等时,两个正态总体均值向量的检验
这里要对统计量的选取做一些解释,为什么该统计量服从
2 ( p) 分布。根据二次型分布定理知道,若 X ~ N p (0, Σ ) , 则 X Σ 1X ~ 2 ( p) 。显然,
T02 n( X μ0 )Σ 1( X μ0 ) n ( X μ0 )Σ 1 n ( X μ0 )Y Σ 1Y
( 3.1)
其中,X
1 n
n i 1
Xi
为样本均值。当假设成立时,统计量 z
服
从正态分布 z ~ N (0,1) ,从而否定域为| z | z / 2 , z / 2 为
N (0,1) 的上 / 2 分位点。
当 2 未知时,用
S 2
1 n 1
n i 1
(Xi
X )2