多元正态分布
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
T 2 (n 1)[ n(X 0)S1 n(X 0)] ~ T 2( p,n p)
拒绝域为:
{(n
1) p 1T (n 1) p
2
F
}
2.协方差阵相等时,两个正态总体均值向量的检验
3.协方差阵不相等时,两个正态总体均值向量的检验
4.多个正态总体均值向量的检验(多元方差分析)
一元方差分析
一、多元正态总体均值向量的假设检验
1.单个正态总体
(1) 协方差矩阵 已知时均值向量的检验
H0 : μ μ0 (μ0为已知向量) H1 : μ μ0
检验统计量
T02 n( X μ0 )()1( X μ0 ) ~ 2 ( p)
设水平为 ,查表确定
,使 得
拒绝域为: P(T02 )
相关术语
因素(因子):在方差分析中,所要检验的对象称为因素或因子。 例子中的“行业” 水平:因素中的不同表现成为水平。例子中的零售业、旅游业、 航空公司、家电制造业是“行业”因素的具体表现,即水平。
单因素方差分析:只针对一个因素进行分析; 多因素方差分析:同时针对多个因素进行分析。
方差分析的三个基本假定
(1, 2 ),
11 11 22
11 22
22
EX1 1, EX 2 2, DX1 11 DX1 22, cov(X1, X 2) 11 22
(1 0,2 0, 1)
为X1和X2的相关系数。
0 当
时X1与X2不相关,对于正态分布来说不相关和独立
等价。因为:
X1, X 2
二元正态分布曲面(11=2,22=4,12=0.75)
二、多元正态分布的性质
性质1:若 相互独立。
, 是对角矩阵,则
X (X1, X p) ~ N p(μ,)
X1, X p
性质2:若
则
X ~ Np(μ,) A为s p阶常数矩阵, d为s维常数向量
性质3:若 则
AX d ~ Ns ( Aμ d , AA)
np ln 2 n ln | | 1 tr(1S n1(X )( X )')
2
2
2
np ln 2 n ln | | 1 tr(1S) n (X )'1(X ))
2
2
2
2
np ln 2 n ln | | 1 tr(1S)
2
2
2
仅当 X时等号成立
ln L( X ,) np ln 2 n ln | | 1 tr(1S)
X ~ N p(μ,,)将
X , μ,作剖分:
X (1) q
(1) q
X , ,
X (2) pq
(2) pq
11 21
12 q
22
pq
X (1) ~ Nq ((1),11), X (2) ~ Nq ((2),22)
特别地,二元正态分布:
X (X1, X2) ~ N2(μ,),
的密度函数为:
X (X1, X p)
f (x1, xp )
其中,
(2
1 )p
1/ 2
exp是p12维(向x量
μ)1( x μ) 是p阶正定矩阵,
则称X服从p维x正态分(布x,1记,为 x p ), μ
X ~ Np(μ,)
定义2:独立标准正态变量
X1,的有X限p 线性组合
Y1
X1
Y
Yp
n(X
)(ˆ 2 )1( X
)
与
T 2 nX S 1X 类似
并且
t2
n(X )2 ˆ 2
n(X
)(ˆ 2 )1( X
) ~
F (1, n 1)
基本性质:
定理:设
X ~ N p (μ, ), S ~ Wp (n, ) 且X与S相互独立, 令
T 2 nX S 1X
则
n p 1T 2 ~ F ( p, n p 1) np
i1
nX
n
n
Yi2
YY
X AAX
X X
X
2 i
i1
i1
n
(Xi X )2 nX 2
i1
n
n
S 2 Yi2 Y12 Yi2
i1
i2
第三章多元正态总体参数的假设检验
Hotelling T2分布— 一元t分布的推广
定义 设 则称统计量 分布,记为
X
~
N
T
p (μ,
2
), S
nX
~
S
X W1的p (分n,,布且)为X非与中S相心互的独Ho立te,lling T2
证明: 构造正交矩阵
1 n
1
A
21பைடு நூலகம்1
3 2
1
n(n 1)
1 n 1 21 1 3 2
1 n(n 1)
1
n
0
2 3 2
1
n(n 1)
1 n 0
0
1 n(n 1)
1 n
0
0
(n 1)
n(n 1)
做变换
Y1 X1
Y2 Yn
A
X2 Xn
Y1
1 n
n
Xi
(1)每个总体的相应变量(因素的各个水平)服从正态分布。也就是说,对于因素的
每个水平,其观测值是来自正态总体的简单随机样本上例中每个行业的投诉次数应服从 正态分布。 (2)所有总体的方差相等2。也就是说,各组观测数据来自相同方差的正态总体。上例 中4个行业被投诉次数的方差相同。 (3)不同观察值相互独立。(每个样本点的取值不影响其他样本点的取值)上例中,每 个企业被投诉的次数与其他企业被投诉的次数是相互独立的。
为n的非中心维斯特分N布p (,μ记, 为)
W (i)(i)
i 1
W ~ Wp(n,, μ)
随机矩阵的分布:
X11 X12 X1p
X
X21
X 22
X2p
X n1 X n2 X np
将该矩阵的列向量(或行向量)连接起来组成的长向量称为拉直 向量,拉直向量的分布定义为该矩阵的分布,如果是对称矩阵则 只取其下三角的部分拉直即可。
2
2
2
np ln 2 n[ln | | tr(1 S )]
2
2
n
np ln 2 n[ln | S | ln | 1 S | tr(1 S )]
2
2n
n
n
np ln 2
n[ln |
S
|
ln
|
1 2
S
1 2
|
tr
(
1 2
S
1 2
)]
2
2n
n
n
np ln 2 np n ln | S |
xi1
x1
xip X p
xi2 x2
xip xp
(xi1 x1)2
n (xi2 x1)(xi1 x2)
i1
(
xip
xp )(xi1
x1)
(xi1 x1)(xi2 x2) (xi2 x2)2
(xip xp )(x2 x2)
(
xi1
x1)(xip
x
p
)
(xi2 x1)(xip xp )
2
22 n
(引理:设A为p阶正定矩阵,则
等号成立。
tr(A) ln当AA=Ip
A
1/
2
S n
1/
2
I
p时等号成立,即
S n
最大似然估计的性质
1.
,即
E(X ) μ
,即
E(
1 n
S
)
n 1 n
,即
是 的无偏估计 。
Xμ
不是 的无偏估计。
1n是S 无偏估计。
2. E( 1 S) 分别是 n 1
1 S 的最小方差无偏估量。 n 1
性质:
(1)若W1和W2独立,其分布分别
W和p (n1, ) ,W则p (n2 , )
分布为
,即维斯特(Wishart)分布有可加性。
W1 W2
Wp (n1 n2 , )
(2) 分布。
W
~ Wp (,n,C为)m×p阶的矩阵,则
Wm (n,CC)
的分布为 CWC
定理: 设
X ,分S 别是来自正态总体
一、方差分析的概念及有关术语 方差分析研究的是分类型自变量对数值型因变量的影响,
包括它们之间有没有关系、关系的强度如何等,所采用的方 法就是检验各个总体的均值是否相等来判断分类型自变量对数 值型因变量是否有显著影响。
例子:为了对几个行业的服务质量进行评价,消费者协会在 零售业、旅游业、航空公司、家电制造业分别抽取了不同的 企业作为样本。每个行业中所抽取的样本在服务对象、服务 内容、企业规模等基本上是相同的,统计出消费者对23家企业 的投诉次数,现判断几个行业的服务质量是否有差别。投诉 次数如下表:
Apm
X m
μ
称为m维正态随机变量,记为
Y~
但是 AA的分解一般不是唯一的。
N
p其(中μ,
)
AA
定义3:若随机向量X的特征函数为: 其的中情况t为。实向量,则称X服从p元正态分布。特征函数定(t义) 的ex优p 点itμ在于12可t以t包含
0
二元正态分布曲面(11=1,22=1,12=0)
T02
(当H0成立时)
当原假设成立时
X
~
N
p
(0,
1 n
)
Z1
令Z
n1/
2(
X
0 )
Z2
Z p
T02 ZZ
EZ 0, DZ I p
Z ~ Np(0, I p)
(2) 协方差矩阵 未知时均值向量的检验
H
0
:
μ
μ0
(μ
为已知向量)
0
H1 : μ μ0
检验统计量
(n 1) p 1T 2 ~ F ( p, n p) (n 1) p
第一章多元正态分布及其参数估计
多元正态分布的重要性: (1)多元统计分析中很多重要的理论和方法都是直接或间接
地建立在正态分布 基础上的,许多统计量的极限分布往往和 正态分布有关。 (2)许多实际问题涉及的随机向量服从多元正态分布或近似 服从正态分布。因此多元正态分布是多元统计分析的基础。
一、多元正态分布的定义 定义1:若p维随机向量
(1)
(2)
X
~
N p (μ,
1 ) n
(3)
相互独立。
(4) S为S正定~矩W阵的p (充n分必1要,条件) 是 n>p 。
X,S
N的p样(本μ,均值) 和离差阵 ,则
11
一元正态总体:
X1, X n 为来自一元正态总体的一组样本
X
1 n
n
Xi
i1
n
S (Xi X )2
i1
定理: X与S是相互独立的。
L(,) f (x(1)) f (x(2)) f (x(n))
n
(2 )p 2 1 2 exp[ 1 (x
)1(x
)]
i1
2 (i)
(i)
(2 )p
n
2
exp[
1
n
(x
)1 (x
)]
2 i1
(i)
(i)
(2 )p
n
2
exp[
1
n
tr
(
x
)1 (x
)]
2 i1
(i)
(i)
零售业
旅游业 57 66 49 40 34 53 44
航空公司 家电制造业
68
31
44
39
49
51
29
21
65
45
34
77
56
40
58
51
要分析4个行业的服务质量是否有显著差异,实际上就是判断 “行业”对投诉次数是否有显著影响,做出这种判断最终归结 为检验4个行业被投诉次数的均值是否相等。如果相等则认为 行业因素对投诉次数是没有影响的,如果均值不全相等,则意 味着行业因素对服务质量有影响。 方差分析主要用来对多个总体均值是否相等作出假设检验。
(xip xp )2
s11 s12 s1p
s21
s22
s2
p
(sij
)
p
p
s p1 s p2
s
pp
样本协方差矩阵
V 1S 或 n
V 1 S n 1
二、多元正态总体的最大似然估计及其性质
μ 利用最大似然法求出 和
的最大似然估计为:
μˆ X
ˆ 1 S n
求解过程 似然函数为:
如果想使值变大,则采用变换:
x2, x3
不管使用哪种幂变换,还应该对变换后的数据的正态性做检验 (如Q-Q图方法)
§2多元正态分布的参数估计
一、多元样本及其样本数字特征 1.多元样本
x11 x12
X
x21
x22
记
xn1
xn2
x1p
x2
p
xnp
X (i) (xi1, xi2 , xip ) i 1,2 n
3. X , 1 S n 1
分别是μ,
的一致估计。
X, 1 S( 1 S) n n 1
μ,
三、正态总体下的抽样分布
维斯特(Wishart)分布---一元
分布的推2 广
定义: 设 个随n 机向量
X(i) (Xi1, Xi2, , Xip)(i 1,2,3, ,n)
独立同分布于
, 则随机矩阵
n 服从自由度
(2 )p
n
2
exp[
1
n
t
r
(
1
(
x
)(x
)')]
2 i1
(i)
(i)
(2 )p
n
2
exp[tr
(
1
1
n
(x
)(x
)']
2
i1
(i)
(i)
对数似然函数为:
ln L(,) np ln 2 n ln | | 1 tr(1 n
2
2
2
i1
(x(i) )(x(i) )')]
2、多元样本的数字特征 样本均值
1 n
n
(i)
i1
1
x11 x12
n
x1n
x21
x22 x2n
xn1 x12
xnn
X1 X2 X p
样本离差阵
n
S p p ( X(i) X )( X(i) X )
i1
xi1 X1
n xi2 i1
X
2
的边缘密度函数为:
f1(x1)
1
2
11
exp
(
x1 1)2 2121
f2(x2)
1
2
22
exp
(x2 2)2
2
2 22
三、正态分布数据的变换
若一批多元数据不满足正态分布时,一般要对数据进行正态变换。 一般来说常采用幂变换,如果想使值变小可以采用变换:
11
x1, ln x, x 4 , x 2
,当
时称为中心
的Hotelling TT2分2布~。T记2为( p, n, )
μ0
T 2 ~ T 2 ( p, n)。
一元t分布:
,n p
设总体 X ~ N (, 2 )
X1,
X
是一组样本
n
,则统计量
t n( X ) ~ t(n 1) ˆ
其中
ˆ
1 n 1
n i 1
(Xi
X )2
t2
n(X )2 ˆ 2