多元统计分析第三章课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例2 为评估某职业培训中心的教学效果,随机抽取8名
受训者,进行甲和乙两个项目的测试,其数据列于表2。
假定X=(X1,X2)′服从二元正态分布。
表2
两个项目的测试成绩
编号
12345678
甲项成绩x1
62 80 66 84 75 80 54 79
乙项成绩x2
70 77 75 87 87 91 61 84
n
1
即 aX T aSa n aμ aX T aSa n 以1−α的概率对一切a∈Rp成立,称它为一切线性组合
{a′μ,a∈Rp}的置信度为1−α的联合置信区间
(simultaneous confidence intervals)。
对k个线性组合{ai′μ,i=1,2,⋯,k},有
I P
查表得F0.01(3,3)=29.5,于是
T 2 0.01
35 3
F0.01
3, 3
147.5
故在显著性水平α=0.01下,拒绝原假设H0,即认为农村
与城市的2周岁男婴上述三个指标的均值有显著差异
(p=0.002)。
三、置信区域
T 2 n X μ S1 X μ
Q
n p
p n 1
X
60.2
,
X
μ0
2.2
,
S
8.040
3.172
1.310
Байду номын сангаас
14.5
1.5
0.500 1.310 1.900
4.3107 14.6210 8.9464
S 1
23.138481
14.6210
59.7900
37.3760
8.9464 37.3760 35.5936
T 2 n X μ0 S1 X μ0 6 70.0741 420.445
这里我们应该注意到,(3.3)式可以表示为
t2
n(X )2
S2
n( X
)(S 2 )1( X
)
对于多元变量而言,可以将 t 分布推广为下面将要介绍的
HotellingT 2 分布。
定义 设 X ~ N p (μ ,Σ ,) S ~ Wp (n ,Σ 且) X 与 S 相互独立,n p ,则称统计量T 2 nX S - X1 的分布
79
2
0.0436 0.0406
0.0406 0.0475
72.5 1 79 2
8.073
即 0.0436×(μ1−72.5)2−0.0812×(μ1−72.5)(μ2−79) +0.0475×(μ2−79)2≤1.009
这是一个椭圆区域。μ1和μ2的0.90联合T2置信区间为
72.5 2.841 112.5714 / 8 1 72.5 2.841 112.5714 / 8
79 2.841 103.1429 / 8 2 79 2.841 103.1429 / 8

61.84≤μ1≤83.16,
68.80≤μ2≤89.20 这两个区间分别正是椭圆在μ1轴和μ2轴上的投影。
μ1和μ2的0.90邦弗伦尼联合置信区间为(t0.025(7)=2.3646)
72.5 2.3646 112.5714 / 8 1 72.5 2.3646 112.5714 / 8 79 2.3646 103.1429 / 8 2 79 2.3646 103.1429 / 8
H0:μ=μ0,H1:μ≠μ0 进行检验,其中μ=(μ1,μ2)′,μ0=(μ01,μ02)′ ,则我们容易利用图1 中的椭圆得出检验的结果。若被检验值μ0位于图1中的椭圆外, 则拒绝;反之,则接受。
图1中的虚线矩形在μ1和μ2轴上的区间范围分别是μ1和μ2的0.90 置信区间。当μ0位于椭圆外实线矩形内的位置(如图中A点) 时,检验结果虽拒绝H0,但如在α=0.10下分别检验
同置信区间与假设检验的关系一样,置信区域与假设
检验之间也有着同样的密切关系。一般来说,μ0包含 在上述置信区域内,当且仅当原假设 H0:μ=μ0在显著 性水平α下被接受。因此,可以通过构造的置信区域的
方法来进行假设检验。
四、联合置信区间
I P
a
aX T
aSa
n aμ aX T aSa
当 2 未知时,用
S 2
1 n 1
n i 1
(Xi
X )2
作为 2 的估计量,用统计量:
t (X 0) n
S
来做检验。当假设成立时,统计量 t 服从自由度为 n 1的 t 分布,
从而否定域为| t | t /2 (n 1) ,t /2 (n 1) 为自由度为 n 1的 t 分布 上的 / 2 分位点。
N ( , 2 ) 的样本,我们要检验假设
H0 : 0 ; H1 : 0
当 2 已知时,用统计量
z (X 0 ) n
其中,X
1 n
n i 1
Xi
为样本均值。当假设成立时,统计量 z

从正态分布 z ~ N (0,1) ,从而否定域为 | z | z / 2 , z / 2 为
N (0,1) 的上 / 2 分位点。
aix t /2k n 1 aiSai n aiμ ai X t /2k n 1 aiSai n
i 1, 2,L , k 它的置信度至少为1−α。 若tα/2k(n−1)≤Tα ,则邦弗伦尼区间比T2区间要窄,这时宜采用 前者作为联合置信区间;反之,若tα/2k(n−1)>Tα,则邦弗伦尼 区间比T2 区间宽,宜采用后者作为联合置信区间。 当k=p时,邦弗伦尼区间要比T2 区间窄。故在求μ的所有p个分 量μ1, μ2,⋯, μp的联合置信区间时,应采用邦弗伦尼区间。
在处理实际问题时,单一变量的检验和多变量检验可以联合使用,多元 的检验具有概括和全面考察的特点,而一元的检验容易发现各变量之间 的关系和差异,能给人们提供更多的统计分析信息。
例1 对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进
行测量得样本数据如表1所示。根据以往资料该地区城市2岁
男婴的这三个指标的均值μ0=(90,58,16)′,现欲在多元正态性 假定下检验该地区农村男婴是否与城市男婴有相同的均值。
1.Σ已知
H0:μ=μ0,H1:μ≠μ0
检验统计量为:
T02 n X μ0 Σ 1 X μ0
拒绝规则为:若 T02 2 p ,则拒绝H0
这里要对统计量的选取做一些解释,为什么该统计量服从
2 ( p) 分布。根据二次型分布定理知道,若 X ~ N p (0, Σ ) , 则 X Σ 1X ~ 2 ( p) 。显然,
这是假设检验问题: H0:μ=μ0,H1:μ≠μ0
表1
某地区农村男婴的体格测量数据
编号 1
身高(cm) 78
胸围(cm) 60.6
2
76
58.1
3
92
63.2
4
81
59.0
5
81
60.8
6
84
59.5
上半臂围(cm) 16.5 12.5 14.5 14.0 15.5 14.0
82.0
8.0
31.600 8.040 0.500
X
72.5 79
,
S
112.5714 96.1429
96.1429 103.1429
S 1
0.0436 0.0406
0.0406 0.0475
n=8,p=2,取1−α=0.90,F0.10(2,6)=3.46,于是, T0.10=2.841。
μ的0.90置信区域为:
8
72.5
1
,
定理 若 X ~ N p (0, Σ ) , S ~ Wp (n, Σ ) 且 X 与 S 相互独 立,令T 2 nXS1X ,则
n p 1T 2 ~ F( p, n p 1) np
在我们后面所介绍的检验问题中,经常会用到这一性质。
二、均值向量的检验
设X1,X2, ⋯,Xn是取自总体X~Np (μ, Σ)的一个样本,这里 Σ>0,n>p,欲检验
即 63.63≤μ1≤81.37, 70.51≤μ2≤87.49
这个联合置信区间在精确度方面要好于T2联合置信区间。 由该联合置信区间可得到置信度至少为0.90的矩形置信区 域(见图1中的实线矩形),但其矩形面积要大于椭圆面 积。
B A
图1 置信椭圆和联合置信区间
利用置信区域进行假设检验
在例2中,如果在 α=0.10下对假设
k
ai X T
aiSai
n aiμ ai X T aiSai
n
1
i1
当k很小时,联合T2置信区间
aix T aiSai n aiμ ai X T aiSai n , i 1, 2,L , k 的置信度一般会明显地大于1−α,因而上述区间会显得过宽, 即精确度明显偏低。这时,考虑采用庞弗伦尼(Bonferroni) 联合置信区间(p177):
n
S (X(a) X)(X(a) X) ~ Wp (n 1, Σ) a 1
n(X μ0) ~ Np (0, Σ)
由定义知
T 2 (n 1)[ n(X μ0)S1 n(X μ0)] ~ T 2( p, n p) 再根据 Hotelling T 2 分布的性质,所以
(n 1) p 1T 2 ~ F ( p, n p) (n 1) p
§3.2 单个总体均值的推断
一、单一变量检验的回顾及Hotelling T2分布
一、单一变量检验的回顾及HOTELLING T2分布
为了对多元正态总体均值向量作检验,首先需要给 HotellingT2分布的定义。
在 单 一 变 量 的 检 验 问 题 中 , 设 X1, X 2,L , X n 来 自 总 体
为非中心 HotellingT2 分布,记为T 2 ~ T 2 ( p, n, μ) 。 当 μ 0 时,称 T 2 服从(中心)Hotelling T 2 分布。 记为T 2 ( p, n) 。
由于这一统计量的分布首先由 Harold Hotelling 提出
来的,故称为 Hotelling T 2 分布,值得指出的是,我
国著名统计学家许宝禄先生在 1938 年用不同方法也
导出T 2 分布的密度函数,因表达式很复杂,故略去。
在 单 一 变 量 统 计 分 析 中 , 若 统 计 量 t ~ t(n 1) 分 布 , 则
t 2 ~ F(1, n 1) 分布,即把 t 分布的统计量转化为 F 统计量来 处理,在多元统计分析中T 2 统计量也具有类似的性质。
称之为霍特林(Hotelling)T2 统计量。
当 H0 为真时,
n p
p n 1
T
2
服从F(p,n−p)
,对给定的显著
性水平α,拒绝规则为:
若T 2 T2,则拒绝H0.
其中T2
pn 1
n p
F
p,
n
p 。
这里需要解释的是,当 Σ 未知时,自然想到要用样本协差阵 1 S 取代 n 1
替 Σ ,因 (n 1)S1 是 Σ1 的无偏估计量,而样本离差阵
T02 n( X μ0 )Σ 1( X μ0 ) n ( X μ0 )Σ 1 n ( X μ0 )Y Σ 1Y
其中,Y n(X μ0) ~ Np (0, ) ,因此,
T02 n( X 0 )Σ 1( X μ0 ) ~ 2 ( p) 。
2. Σ未知
检验统计量为:
T 2 n X μ0 S1 X μ0
第三章 多元正态总体的统计推断
§3.1 引言 §3.2 单个总体均值的推断 §3.3 单个总体均值分量间结构关系的检验 §3.4 两个总体均值的比较推断 §3.5 两个总体均值分量间结构关系的检验 §3.6 多个总体均值的比较检验(多元方差分析) §3.7 协方差阵的检验
§3.1 引言
在单一变量的统计分析中,已经给出了正态总体N
T
2
:
F p, n
p
P
n p
p n 1
T
2
F
p, n
p
1
P
n
X μ S1

T2
1
μ的置信度为1−α的置信区域为
μ
:
n
X μ S1

T2
当p=1时,它是一个区间;当p=2时,它是一个椭圆,
这时可将其在坐标平面上画出;当p=3时,它是一个椭
球;当p>3时,它是一个超椭球;它们均以 X 为中心。
( , 2) 的均值和方差2的各种检验。对于多变量 的正态总体Np( , ∑ ) ,各种实际问题同样要求对
和∑进行统计推断。
本章类似单一变量统计分析中的各种均值和方差的 检验,相应地给出多元统计分析中的各种均值向量的 检验。
其基本思想和步骤均可归纳为: 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应 的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落 入拒绝域中,以便对待判假设做出决策(拒绝或接 受)。
相关文档
最新文档