第七章多元统计分析资料
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
17
性质1 设X N p (, ), 0,则 E(X ) , D(X )
性质2:正态随机变量的线性变换仍为正态变量 正态随机向量的线性变换仍为正态向量
即,设随机向量X Np (, ),C是任一r p
阶矩阵,b是r 1常数向量,记Y CX b,则
Y Nr (C b,CC )
18
性质3:设随机向量
X
X1 X2
N
p
1 2
,
11 21
12 22
其中X1是k维随机向量,X 2是p k维随机向量,
1是k 1常数向量,2是( p k)1常数向量,
11为k阶方阵,12为k ( p k)阵,21为( p k) k 阵,22为p k阶方阵,且 | 22 | 0,则
19
(1)E(AX ) AE(X )
(2)E(AXB) AE(X )B
(3)D( AX ) AD( X ) A (4)Cov( AX , BY ) ACov( X ,Y )B
14
一元:X~N(μ,σ2),密度函数
1
2
exp{
1
2 2
(x
)2}
15
定义5:设U (U1,U2, ,Uq ) 是随机向量,且 Ui (i 1, 2, , q)独立同分布,其中Ui N(0,1),
4
众所周知,一元正态分布在数理统计的 理论及应用中都占据着重要的地位,主 要因为 (1)很多随机变量服从正态分布;
(2)根据中心极限定理,当样本容量很 大时,许多统计量的极限分布往往都 与正态分布有关.
5
多元统计分析中,多元正态分布也占据 着重要的地位. 原因也是相当多的实际 问题中,高维数据服从或近似服从正态 分布.
16
定义6 若随机向量 X=(X1,X2, …,Xp)τ 的密度函数为
f (x1, x2 , , xp )
1
p
(2 ) 2
1
2
exp
1 2
x
1
x
其中x (x1, , xp ) , (1, , p ) 是常数向量,
是正定阵,称X ( X1, , X p ) 服从多元正态分布,
也称X为p维正态随机向量,记为X N p (, )
对任意 p 维常数向量a=(a1,a2, …,ap)τ, 有
a
DXa
a
E
X
EX
X
ห้องสมุดไป่ตู้EX
a
Ea X EX X EX a
E a X EX 2 0
所以,DX非负定,即 DX 0.
9
定义3 : 设X ( X1, X 2, , X p ) 和Y (Y1,Y2, ,Yq ) 是随机向量, 若Xi与Yj的协方差Cov( Xi ,Yj ) (i 1, 2, , p; j 1, 2, , q)存在, 则称
(1) X1 Nk (1, 11), X 2 N pk (2 , 22 )
(2) X1与X 2独立的充要条件是12 0
(3)给定X 2 x2下,X1的条件分布为
Nk 1 12221(x2 2 ), 11 1222112
给定X1
x1下,X
的条件分布为
2
N pk 2 21111(x1 1), 22 2111121
是随机向量,
若X
i与X
的协方差
j
Cov( Xi , X j )(i, j 1, 2, , p)
存在,则称
12
R rij pp
为随机向量X的相关阵,其中
rij
Cov(Xi , X j ) (i, j 1, 2, D(Xi ) D(X j )
, p)
随机向量X的相关阵是对称非负定阵
13
均值向量和协方差阵具有如下性质: 设X,Y是随机向量,A,B是常数矩阵,则
20
性质4:X为p维正态向量的充要条件是 对任一 p 维向量C,Y=CτX 是一 维正态随机变量.
性质5: 任意正态随机向量均可表示 成独立同分布的标准正态随 机变量的线性组合
方差(协方差矩阵)为
DX E X EX X EX
DX1
Cov
X 2, X1
Cov X p, X1
Cov X1, X 2
DX 2
Cov X p, X 2
Cov
X1, X p
Cov
X 2, X p
DX p
8
因为Cov(Xi,Xj)=Cov (Xj,Xi),所以DX对称.
10
Cov( X
,Y
)
E
X
E(X
)Y
E(Y
)
Cov(
X1,Y1)
Cov
X
2
,
Y1
Cov X p ,Y1
Cov X1,Y2 Cov X2,Y2
Cov X p ,Y2
Cov
X1,Yq
Cov
X 2 ,Yq
Cov X p ,Yq
为随机向量X和Y的协方差阵.
11
定义4 : 设X ( X1, X 2 , , X p )
2
例1. 检查某人的健康情况,需要检查 体重、体温、血压、心脏等多项指标. 仅一项指标异常不能立即诊断是什么原 因,而必须对各项指标综合分析,才能 做出结论.
例2. 将班上同学的学习成绩进行排序, 而每个学生的学习成绩有很多门,其中 有学位课,有选修课. 如何综合评估、 排序?
3
本章主要介绍多元正态分布、判别 分析、相关分析和聚类分析等内容.
第六章 多元统计分析
研究多个随机变量——随机向量
多元统计分析是数理统计学中一个重 要的分支,它是研究高维数据之间相 互依赖关系以及内在规律性的一门统 计学科,是一元统计学的推广.
1
随着计算机的发展和普及,多元统 计分析的理论和方法也不断发展和完 善,并已应用到农业、工业、生物、 医学、考古学、教育学、文学以及气 象学等领域中.
本节介绍多元正态分布的定义,多元 正态分布参数的估计和假设检验.
6
§6.1多元正态分布
一.多元正态分布的定义
定义1 设多元随机向量X=(X1, X2,…, Xp)τ 的每个分量的均值(期望)都存在,
定义X 的均值为
X1 EX1
EX
E
X2
EX 2
X p EX p
7
定义2 设 X=(X1,X2,…,Xp)τ的每 个分量的方差都存在,定义 X 的
(1, , p ) 是常数向量,A是p q阶常数矩阵,称
X (X1, X2, , X p ) AU
的分布为p元正态分布,或称X 为p维正态随机向量,
记为X N p (, AA ),其中下标p表示维数.
简单的说,由q个相互独立标准正态随 机变量的一些线性组合得到的随机向量 的分布称为多元正态分布.