《应用多元分析》第三版(第三章 多元正态分布)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖令
x1 x11 x12 L x1p
X
x2
x21
x22
L
x2
p
M M M
M
xn
xn1
xn 2
L
xnp
称之为(样本)数据矩阵或观测值矩阵。
一、样本x1,x2, ⋯,xn的联合概率密度
❖ 极大似然估计是通过似然函数来求得的,似然函数
❖ 可推导出
12,L
,p
max l0
x1, lx2
σ21
Σ
σ 1
22
21
11
1
2
❖ 例3.3.1 随机变量x1,⋯,xp的任一线性函数F=l1x1+⋯+
lp xp与x1,⋯,xp的复相关系数为1。
➢ 证明
Q
F1,L , p
max a0
则
y ~ Nr Cμ b,CΣC
➢ 该性质表明,(多元)正态变量的任何线性变换仍 为(多元)正态变量。
❖ 例3.2.2 设x~Np (μ, Σ),a为p维常数向量,则由上 述性质(2)或(3)知,
ax ~ N aμ,aΣa
❖ (4)设x~Np (μ, Σ),则x的任何子向量也服从(多 元)正态分布,其均值为μ的相应子向量,协方差 矩阵为Σ的相应子矩阵。
n i1
xi x 2
L μˆ, Σˆ max L μ, Σ μ,Σ
μˆ x, Σˆ 1 A n
其中x 称为样本均值向量(简称为样本均值),
n
A xi x xi x 称为样本离差矩阵。 i 1
三、相关系数的极大似然估计
❖ 1. ❖ 2. ❖ 3.偏相关系数
1.简单相关系数
❖ 相关系数ρij的极大似然估计为
n
rij
ˆij
ˆii ˆ jj
sij
sii s jj
(xki xi )(xkj x j )
k 1
n
n
(xki xi )2
(xkj x j )2
k 1
k 1
其中 Σˆ
ˆij
,x
12 1 2
1 2
2 2
易见,ρ是x1和 x2的相关系数。当|ρ|<1时,可得x的 概率密度函数为
f
x1,
x2
1
21 2
1
2
exp 2
1
1 2
x1 1 1
2
2
x1 1 1
x2 2 2
x2 2 2
2
二元正态分布的密度曲面图
❖
下图是当
12
2 2
,
0.75
时二元正态分布的钟形
密度曲面图。
二元正态分布等高线
❖ 等高(椭圆)线:
x1 1 1
2
2
, 1
Σ
11
σ21
1
σ21 1
Σ
22
p
1
p 1
❖ x1和x2的线性函数 lx2间的最大相关系数称为 x1和x2 间的复(或多重)相关系数(multiple correlation
coefficient),记作ρ1∙2,⋯,p, 它度量了一个变量x1与一 组变量x2, ⋯,xp间的相关程度。
1
xi
μ
2 p
Σ
n
2
exp
1 2
n
xi
i1
μ Σ 1 xi
μ
二、μ和Σ的极大似然估计
❖ 一元正态情形:
L ˆ,ˆ 2 max L , 2 , 2
ˆ x,
❖ 多元正态情形:
ˆ 2 1 n
➢ 这一性质表明,对于多元正态变量,其子向量的条 件分布仍是(多元)正态的。
❖ 例3.2.7 设x~N3(μ, Σ),其中
1
16 4 2
μ
0 2
,
Σ
4 2
4 1
41
试求给定x1+2x3时
x2
x1
x3
的条件分布。
§3.3 复相关系数和偏相关系数
可以是样本联合概率密度 f (x1,x2,⋯,xn)的任意正常 数倍,我们不妨取成相等,记为L(μ, Σ)。可具体表 达为:
n
L μ, Σ f x1, x2,L , xn f xi i1
n
2 p 2
i1
Σ
1
2
exp
1 2
xi
μ
Σ
❖ 对于多元正态变量x,由于Σ11∙2也是条件协方差矩阵 ,故此时偏相关系数与条件相关系数是同一个值,
从而ρij∙k+1,⋯,p同时也度量了在xk+1, ⋯,xp值给定的条件 下xi和xj间相关关系的强弱。
§3.4 极大似然估计及估计量的性质
❖ 本课程第二章和第三章前三节的内容属概率论的范 畴。
❖ 从第三章§3.4 开始的内容属数理统计的范畴,特点 是推断和分析从样本出发。
❖ 例3.2.5 设x~N3(μ,Σ),其中
3 0 0
Σ
0 0
5 1
11
则x2和x3不独立,x1和(x2,x3)独立。
❖ *(8)略
❖ *(9)略
❖ *(10)略
❖ (11)设x~N p (μ, Σ), Σ>0,作如下剖分
x
x1 x2
k p
, k
F, a1x1 L
apxp
F,l1x1 L lpxp 1
F1,L , p 1
二、偏相关系数
❖ 将x, Σ(>0)剖分如下:
x
x1 x2
k p
k
,
Σ
Σ11 Σ 21
Σ12 k
Σ
2
2
p
k
k pk
称Σ11g2 Σ11 Σ12 Σ221Σ21为给定x2时x1的偏协方差矩
(iii)
x1 x3
~
N3
1 3
,
14 34
11 31
13 33
。
§3.2 多元正态分布的性质
❖ (5)设x1,x2, ⋯,xn相互独立,且xi~N p (μi, Σi) , i=1,2,⋯,n,则对任意n个常数,有
x1 1 1
x2 2 2
x2 2 2
2
c2
❖ 上述等高线上的密度值
f
x1, x2
1
21 2
1
2
exp
2
c2
1 2
二元正态分布的密度等高线族
(使用SAS/INSIGHT,由10000个二维随机数生成)
x1, x2,L
, xp
,S
1 A n 1
sij
。
称S为样本协方差矩阵、rij为样本相关系数、Rˆ rij
❖ 一、样本x1,x2, ⋯,xn的联合概率密度 ❖ 二、 μ和Σ的极大似然估计 ❖ 三、相关系数的极大似然估计 ❖ 四、估计量的性质
❖ 设x~Np(μ, Σ) , Σ>0,x1,x2, ⋯,xn是从总体x中抽取的 一个简单随机样本(今后简称为样本),即满足:
x1,x2, ⋯,xn独立,且与总体分布相同。
1
2
exp
1 2
x
μ
Σ
1
x
μ
则称x服从p元正态分布,记作x~Np (μ, Σ),其中,参数μ和Σ 分别为x的均值和协差阵。
例3.1.1(二元正态分布 )
❖ 设x~N2(μ, Σ),这里
x
x1 x2
,
μ
1 2
,
Σ
❖ 例3.2.4 设x~N4(μ, Σ),这里
x1
1
11 12 13 14
x
x2
,
μ
2
,
Σ
21
22
23
24
x3
3
31 32 33 34
x4
4
y
0
0
-2
0
2
-2
0
2
4
x
x
§3.2 多元正态分布的性质
❖ *(1)略。 ❖ (2)设x是一个p维随机向量,则x服从多元正态分
布,当且仅当它的任何线性函数ax 均服从一元正态 分布。
➢ 性质(2)常可用来证明随机向量服从多元正态分布。 ❖ (3)设x~N p (μ, Σ),y=Cx+b其中C为r×p 常数矩阵,
μ
μ1 μ2
k p
k
,
Σ
Σ11 Σ 21
Σ12 k
Σ
2
2
பைடு நூலகம்
p
k
k pk
则给定x2时x1的条件分布为 Nk μ12 , Σ112 ,其中
μ12
μ1
Σ12
Σ 1 22
x2 μ2
Σ112
Σ11
Σ12
Σ
1 22
Σ
21
➢ μ1·2和Σ11·2分别是条件数学期望和条件协方差矩阵, Σ11·2通常称为偏协方差矩阵。
41
42
43
44
则
(i) xi ~ N i ,ii , i 1,2,3,4 ;
(ii)
x1 x4
~
N2
1 4
,
11 41
14 44
;
x4
4 44 41 43
ijk1,L , p
ijk 1,L , p
,
iik 1,L , p jjk 1,L , p
1 i, j k
其中 Σ112 ijk1,L , p 。
❖ ρij∙k+1,⋯,p度量了剔除xk+1, ⋯,xp的(线性)影响之后, xi和xj间相关关系的强弱。
μ1 μ2
k p
k
,
Σ
Σ11 Σ 21
Σ12 k
Σ
22
p
k
k pk
则子向量x1和x2相互独立,当且仅当Σ12=0。
➢ 该性质指出,对于多元正态变量而言,其子向量之 间互不相关和相互独立是等价的。
❖ (7)设x~N p (μ, Σ), Σ>0,则
x μ Σ 1 x μ : 2 p
第三章 多元正态分布
❖ §3.1 多元正态分布的定义 ❖ §3.2 多元正态分布的性质 ❖ §3.3 复相关系数和偏相关系数 ❖ §3.4 极大似然估计及估计量的性质 ❖ §3.5 x 和(n − 1) S的抽样分布 ❖ *§3.6 二次型分布
§3.1 多元正态分布的定义
❖ 一元正态分布N(μ,σ2)的概率密度函数为
❖ 一、复相关系数 ❖ 二、偏相关系数
一、复相关系数
❖ (简单)相关系数度量了一个随机变量x1与另一个 随机变量x2之间线性关系的强弱。
❖ 复相关系数度量了一个随机变量x1与一组随机变量 x2, ⋯,xp之间线性关系的强弱。
❖ 将x, Σ(>0)剖分如下:
x
x1 x2
1 p
➢ 该性质说明了多元正态分布的任何边缘分布仍为 (多元)正态分布。
➢ 需注意,随机向量的任何边缘分布皆为(多元)正 态分布未必表明该随机向量就服从多元正态分布。 例2.2.2就是这样的一个反例。
➢ 还需注意,正态变量的线性组合未必就是正态变量。
➢ 证明 反证法。
若命题 “一元正态变量x1,x2, ⋯,xn的一切线性组合一 定是一元正态变量” 成立,则由性质(2)知, x1,x2, ⋯,xn的联合分布必为多元正态分布,于是命题 “一元正态变量的联合分布必为多元正态分布”成 立,从而矛盾。
阵。记 Σ112 ijk1,L , p ,称 ijk1,L , p 为偏协方差, 它是剔除了x2 xk1,L , xp 的(线性)影响之后,
xi和xj之间的协方差。
❖ 给定x2时xi 和xj的偏相关系数(partial correlation coefficient)定义为
n
ki xi
~
N
p
n
ki μi ,
n
ki2
Σi
i1
i1
i1
➢ 此性质表明,独立的多元正态变量(维数相同)的 任意线性组合仍为多元正态变量。
❖ (6)设x~N p (μ, Σ),对x, μ, Σ(>0)作如下的剖分:
x
x1 x2
k p
k
,
μ
f x
1
x 2
e 2 2
2
2 1 2
2
1
2
exp
1 2
x
2
1 x ,
x
❖ 若随机向量 x (x1, x2,L , xp )的概率密度函数为
f
x 2 p
2
Σ
x1 x11 x12 L x1p
X
x2
x21
x22
L
x2
p
M M M
M
xn
xn1
xn 2
L
xnp
称之为(样本)数据矩阵或观测值矩阵。
一、样本x1,x2, ⋯,xn的联合概率密度
❖ 极大似然估计是通过似然函数来求得的,似然函数
❖ 可推导出
12,L
,p
max l0
x1, lx2
σ21
Σ
σ 1
22
21
11
1
2
❖ 例3.3.1 随机变量x1,⋯,xp的任一线性函数F=l1x1+⋯+
lp xp与x1,⋯,xp的复相关系数为1。
➢ 证明
Q
F1,L , p
max a0
则
y ~ Nr Cμ b,CΣC
➢ 该性质表明,(多元)正态变量的任何线性变换仍 为(多元)正态变量。
❖ 例3.2.2 设x~Np (μ, Σ),a为p维常数向量,则由上 述性质(2)或(3)知,
ax ~ N aμ,aΣa
❖ (4)设x~Np (μ, Σ),则x的任何子向量也服从(多 元)正态分布,其均值为μ的相应子向量,协方差 矩阵为Σ的相应子矩阵。
n i1
xi x 2
L μˆ, Σˆ max L μ, Σ μ,Σ
μˆ x, Σˆ 1 A n
其中x 称为样本均值向量(简称为样本均值),
n
A xi x xi x 称为样本离差矩阵。 i 1
三、相关系数的极大似然估计
❖ 1. ❖ 2. ❖ 3.偏相关系数
1.简单相关系数
❖ 相关系数ρij的极大似然估计为
n
rij
ˆij
ˆii ˆ jj
sij
sii s jj
(xki xi )(xkj x j )
k 1
n
n
(xki xi )2
(xkj x j )2
k 1
k 1
其中 Σˆ
ˆij
,x
12 1 2
1 2
2 2
易见,ρ是x1和 x2的相关系数。当|ρ|<1时,可得x的 概率密度函数为
f
x1,
x2
1
21 2
1
2
exp 2
1
1 2
x1 1 1
2
2
x1 1 1
x2 2 2
x2 2 2
2
二元正态分布的密度曲面图
❖
下图是当
12
2 2
,
0.75
时二元正态分布的钟形
密度曲面图。
二元正态分布等高线
❖ 等高(椭圆)线:
x1 1 1
2
2
, 1
Σ
11
σ21
1
σ21 1
Σ
22
p
1
p 1
❖ x1和x2的线性函数 lx2间的最大相关系数称为 x1和x2 间的复(或多重)相关系数(multiple correlation
coefficient),记作ρ1∙2,⋯,p, 它度量了一个变量x1与一 组变量x2, ⋯,xp间的相关程度。
1
xi
μ
2 p
Σ
n
2
exp
1 2
n
xi
i1
μ Σ 1 xi
μ
二、μ和Σ的极大似然估计
❖ 一元正态情形:
L ˆ,ˆ 2 max L , 2 , 2
ˆ x,
❖ 多元正态情形:
ˆ 2 1 n
➢ 这一性质表明,对于多元正态变量,其子向量的条 件分布仍是(多元)正态的。
❖ 例3.2.7 设x~N3(μ, Σ),其中
1
16 4 2
μ
0 2
,
Σ
4 2
4 1
41
试求给定x1+2x3时
x2
x1
x3
的条件分布。
§3.3 复相关系数和偏相关系数
可以是样本联合概率密度 f (x1,x2,⋯,xn)的任意正常 数倍,我们不妨取成相等,记为L(μ, Σ)。可具体表 达为:
n
L μ, Σ f x1, x2,L , xn f xi i1
n
2 p 2
i1
Σ
1
2
exp
1 2
xi
μ
Σ
❖ 对于多元正态变量x,由于Σ11∙2也是条件协方差矩阵 ,故此时偏相关系数与条件相关系数是同一个值,
从而ρij∙k+1,⋯,p同时也度量了在xk+1, ⋯,xp值给定的条件 下xi和xj间相关关系的强弱。
§3.4 极大似然估计及估计量的性质
❖ 本课程第二章和第三章前三节的内容属概率论的范 畴。
❖ 从第三章§3.4 开始的内容属数理统计的范畴,特点 是推断和分析从样本出发。
❖ 例3.2.5 设x~N3(μ,Σ),其中
3 0 0
Σ
0 0
5 1
11
则x2和x3不独立,x1和(x2,x3)独立。
❖ *(8)略
❖ *(9)略
❖ *(10)略
❖ (11)设x~N p (μ, Σ), Σ>0,作如下剖分
x
x1 x2
k p
, k
F, a1x1 L
apxp
F,l1x1 L lpxp 1
F1,L , p 1
二、偏相关系数
❖ 将x, Σ(>0)剖分如下:
x
x1 x2
k p
k
,
Σ
Σ11 Σ 21
Σ12 k
Σ
2
2
p
k
k pk
称Σ11g2 Σ11 Σ12 Σ221Σ21为给定x2时x1的偏协方差矩
(iii)
x1 x3
~
N3
1 3
,
14 34
11 31
13 33
。
§3.2 多元正态分布的性质
❖ (5)设x1,x2, ⋯,xn相互独立,且xi~N p (μi, Σi) , i=1,2,⋯,n,则对任意n个常数,有
x1 1 1
x2 2 2
x2 2 2
2
c2
❖ 上述等高线上的密度值
f
x1, x2
1
21 2
1
2
exp
2
c2
1 2
二元正态分布的密度等高线族
(使用SAS/INSIGHT,由10000个二维随机数生成)
x1, x2,L
, xp
,S
1 A n 1
sij
。
称S为样本协方差矩阵、rij为样本相关系数、Rˆ rij
❖ 一、样本x1,x2, ⋯,xn的联合概率密度 ❖ 二、 μ和Σ的极大似然估计 ❖ 三、相关系数的极大似然估计 ❖ 四、估计量的性质
❖ 设x~Np(μ, Σ) , Σ>0,x1,x2, ⋯,xn是从总体x中抽取的 一个简单随机样本(今后简称为样本),即满足:
x1,x2, ⋯,xn独立,且与总体分布相同。
1
2
exp
1 2
x
μ
Σ
1
x
μ
则称x服从p元正态分布,记作x~Np (μ, Σ),其中,参数μ和Σ 分别为x的均值和协差阵。
例3.1.1(二元正态分布 )
❖ 设x~N2(μ, Σ),这里
x
x1 x2
,
μ
1 2
,
Σ
❖ 例3.2.4 设x~N4(μ, Σ),这里
x1
1
11 12 13 14
x
x2
,
μ
2
,
Σ
21
22
23
24
x3
3
31 32 33 34
x4
4
y
0
0
-2
0
2
-2
0
2
4
x
x
§3.2 多元正态分布的性质
❖ *(1)略。 ❖ (2)设x是一个p维随机向量,则x服从多元正态分
布,当且仅当它的任何线性函数ax 均服从一元正态 分布。
➢ 性质(2)常可用来证明随机向量服从多元正态分布。 ❖ (3)设x~N p (μ, Σ),y=Cx+b其中C为r×p 常数矩阵,
μ
μ1 μ2
k p
k
,
Σ
Σ11 Σ 21
Σ12 k
Σ
2
2
பைடு நூலகம்
p
k
k pk
则给定x2时x1的条件分布为 Nk μ12 , Σ112 ,其中
μ12
μ1
Σ12
Σ 1 22
x2 μ2
Σ112
Σ11
Σ12
Σ
1 22
Σ
21
➢ μ1·2和Σ11·2分别是条件数学期望和条件协方差矩阵, Σ11·2通常称为偏协方差矩阵。
41
42
43
44
则
(i) xi ~ N i ,ii , i 1,2,3,4 ;
(ii)
x1 x4
~
N2
1 4
,
11 41
14 44
;
x4
4 44 41 43
ijk1,L , p
ijk 1,L , p
,
iik 1,L , p jjk 1,L , p
1 i, j k
其中 Σ112 ijk1,L , p 。
❖ ρij∙k+1,⋯,p度量了剔除xk+1, ⋯,xp的(线性)影响之后, xi和xj间相关关系的强弱。
μ1 μ2
k p
k
,
Σ
Σ11 Σ 21
Σ12 k
Σ
22
p
k
k pk
则子向量x1和x2相互独立,当且仅当Σ12=0。
➢ 该性质指出,对于多元正态变量而言,其子向量之 间互不相关和相互独立是等价的。
❖ (7)设x~N p (μ, Σ), Σ>0,则
x μ Σ 1 x μ : 2 p
第三章 多元正态分布
❖ §3.1 多元正态分布的定义 ❖ §3.2 多元正态分布的性质 ❖ §3.3 复相关系数和偏相关系数 ❖ §3.4 极大似然估计及估计量的性质 ❖ §3.5 x 和(n − 1) S的抽样分布 ❖ *§3.6 二次型分布
§3.1 多元正态分布的定义
❖ 一元正态分布N(μ,σ2)的概率密度函数为
❖ 一、复相关系数 ❖ 二、偏相关系数
一、复相关系数
❖ (简单)相关系数度量了一个随机变量x1与另一个 随机变量x2之间线性关系的强弱。
❖ 复相关系数度量了一个随机变量x1与一组随机变量 x2, ⋯,xp之间线性关系的强弱。
❖ 将x, Σ(>0)剖分如下:
x
x1 x2
1 p
➢ 该性质说明了多元正态分布的任何边缘分布仍为 (多元)正态分布。
➢ 需注意,随机向量的任何边缘分布皆为(多元)正 态分布未必表明该随机向量就服从多元正态分布。 例2.2.2就是这样的一个反例。
➢ 还需注意,正态变量的线性组合未必就是正态变量。
➢ 证明 反证法。
若命题 “一元正态变量x1,x2, ⋯,xn的一切线性组合一 定是一元正态变量” 成立,则由性质(2)知, x1,x2, ⋯,xn的联合分布必为多元正态分布,于是命题 “一元正态变量的联合分布必为多元正态分布”成 立,从而矛盾。
阵。记 Σ112 ijk1,L , p ,称 ijk1,L , p 为偏协方差, 它是剔除了x2 xk1,L , xp 的(线性)影响之后,
xi和xj之间的协方差。
❖ 给定x2时xi 和xj的偏相关系数(partial correlation coefficient)定义为
n
ki xi
~
N
p
n
ki μi ,
n
ki2
Σi
i1
i1
i1
➢ 此性质表明,独立的多元正态变量(维数相同)的 任意线性组合仍为多元正态变量。
❖ (6)设x~N p (μ, Σ),对x, μ, Σ(>0)作如下的剖分:
x
x1 x2
k p
k
,
μ
f x
1
x 2
e 2 2
2
2 1 2
2
1
2
exp
1 2
x
2
1 x ,
x
❖ 若随机向量 x (x1, x2,L , xp )的概率密度函数为
f
x 2 p
2
Σ