7多元统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
n
其 中aij ( X i X i )T ( X j X j ), i, j 1,2, , p 1
13
样本协方差阵 样本相关阵
S
1Βιβλιοθήκη Baidu
A
n1
( sij ) p p
R (rij ) p p
其 中rij
sij
sii s jj
aij aii a jj
关键是针对不同的情况,构造相应的检验统计量(见P224-227)。
注 • 多元正态总体参数检验的常用检验统计量的分布,除了正态分布、 2分布、t分布和F分布外,还有Hotelling T2分布、Wilks分布。
• 同样也有多元正态总体下的方差分析等。
16
§2 判别分析
➢ 判别分析:已知研究对象分成了若干类别,研究如 何通过样本数据对未知类别的样品进行判别分类;
❖ 然而在实际问题中,多元正态分布中均值向量和协差阵通常是未知 的,一般的做法是由样本来估计。这是本节讨论的重要内容之一, 在此我们介绍最常见的最大似然估计法对参数进行估计,并讨论其 有关的性质。
一、随机向量的有关概念
1、随机向量的概率分布 随机向量---- 把p个随机变量X1, X2 , , X p作为分量组成的p维列向量 X ( X1, X2 , , X p )T • 注1:这里的各个Xi,不再是来自同一个总体的简单随机样本, 它们未必独立或同分布。 通常,这些Xi 各自分别表示同一个总体的p个不同的指 标,此时相应的总体也被称为是一个p元总体。 • 注2:跟n维随机变量一样,p维随机向量也有分布函数、概率 密度或分布律,还有边缘分布等等。
(
每一
个总体X
下,
i
都对
应有p项指
标.)
现在相当于:已知一个试验样品 X=(X1,X2,…,Xp)T,(一个p维的随机变量)
要求推断X应属于哪一个总体.
➢数学模型1 设有k个p维总体G1,G2,…,Gk, 它们的分布都已知;
对于给定的一个p维的样品(X1, X2,…,Xp)T ,要求依据观测数据 矩阵判断它是来自哪个总体。
9
✓ 另一个等价定义
设U
(U1 ,U2 ,
,
U
)T
q
,
其 中U1,U2 , ,Uq独 立 , 且 都 服 从 标 准 正态 分 布N(0,1).
设是p维常数向量, A为p q阶常数矩阵, 作U的线性变换
X1
U1
X
X
2
Apq
U
2
p1
X
p
U
q
则称X为p维正态随机变量,
记为 X ~ N p(,),其中 AAT .
二维正态随机变量,见P222
10
2、多元正态分布的基本性质
性质4、5、6、7,见P221-222
① 若 X ~ N p (, Σ ), 则 E( X ) , D( X ) Σ .
其 中a为 常 数 向 量 ,A为 常 数 矩 阵.
7
对于两个随机向量 X ( X1, X2 , , X p )T,Y (Y1,Y2 , ,Yq )T
Cov( X1,Y1 ) Cov( X1,Y2 )
E[(
X
EX
)(Y
EY
)]
Cov( X 2 ,Y1 )
Cov( X 2 ,Y2 )
X11
X
X
21
X12 X 22
X
n1
X n2
X1p
X
2
p
X X
T (1)
T (2)
X
np
X
T (n
)
--- 观测矩阵. 这是一个随机矩阵!
12
✓ 简言之,对于多元总体而言,一个容量为n的样本,对应着 一个n×p阶随机矩阵。 一旦观测值取定,它就是一个数据矩阵。
8
二、多元正态分布的基本知识
如同一元正态分布在一元统计分析中所占得重要地位一样,多 元统计分析中的许多重要理论和方法都是直接或间接建立在正态分 布的基础上,多元正态分布是多元统计分析的基础。
1、多元正态分布的定义
若 随 机 向 量X ( X1, X 2 , , X p )T 的 概 率 密 度 函 数 为
1
2
k pk
k pk
Σ
Σ11 Σ21
Σ12 Σ22
k pk
则 X1 ~ N k (1 , Σ11 ), X 2 ~ N pk (2 , Σ22 ).
正态随机向量的任何边缘分布仍是正态的.
11
三、多元总体的多元样本
设有p元总体 X ( X1, X2 , , X p )T 该总体的一个容量为n的简单随机样本,也就是n个相互独立
Cov( X p ,Y1 ) Cov( X p ,Y2 )
Cov( X1,Yq )
Cov( X 2 ,Yq )
Cov( X p ,Yq )
---- X 和Y 的协方差阵 记为 Cov( X ,Y ). 若 Cov( X ,Y ) O,则称随机向量X和Y 不相关. 易见 Cov( X , X ) D( X ). Cov( AX , BY ) ACov( X ,Y )BT .
为非负定的实对称阵
实际上 D( X ) E{[ X E( X )][( X E( X )]T }
rij
ij ii jj
---- Xi 与Xj的相关系数
R (rij ) p p ---- X 的相关系数阵 R 也是非负定的实对称阵
➢ D(X)满足如下性质:① D(X+a)=D(X) ② D(AX)=AD(X)AT
➢ 多元样本的数字特征
X1
样本均值向量
X
1 n n 1 X( )
XX1,2X,2, ,X p T
其 中X i
1 n
n 1
Xi ,
i X1p,2,
,
p
n
样本离差阵 A ( X( ) X )( X( ) X )T (aij ) p p
② 若 X ~ N p (, Σ),C是任一r p阶矩阵,b是r 1常数向量,
则 Y CX b ~ Nr (C b,CΣCT ). 正态随机向量的线性变换还是正态的.
③ 若 X ~ N p (, Σ), 将X , , Σ作 如下 剖 分:
X
X1
X
2
k pk
17
引例已知一个在X射线检查下肺部有阴影的病人有可能患有一般肺
炎、肺结核、肺部良性肿瘤和肺癌四种疾病;现在通过进一步检查 病人的多项指标(阴影大小、阴影边缘的光滑度、是否有痰、是否 高烧等)所得到的观测数据,判别他生的是什么病。
分析: • 将四种疾病看做四个不同的p元总体Xi , i=1,2,3,4.
,
X
(m 2
)
,
,
X
(m nm
)
),(其中
每个X
(m j
)都是p维向量), m
1,2,
,k
对于给定的一个p维的样品(X1, X2,…,Xp)T ,要求依据观测数据
矩阵判断它是来自哪个总体。
----- 相当于:在p维空间已有k组不同类的点,另有一个新的 点,要求判断它属于哪一组.
19
一、距离判别
且与总体X同分布的p维随机向量 X(1) , X(2) , , X(n) . 每一个 X( ) ( X1, X 2 , , X p )T ( 1,2, , n) 称为一个样品,
其中X j为第个样品对第j个指标的观测值。(--- 一个p维随机向量)
全部观测数据可以表示成一个n×p阶矩阵:
18
➢数学模型1 设有k个p维总体G1,G2,…,Gk, 它们的分布都已知;
对于给定的一个p维的样品(X1, X2,…,Xp)T ,要求依据观测数据 矩阵判断它是来自哪个总体。
➢数学模型2 设有k个p维总体G1,G2,…,Gk, (它们的分布未知)
已知分别来自它们的样本数据
X (m)
(
X
(m) 1
1、基本思想 首先根据已知分类的信息,分别计算各类的重心
(即各类的均值),然后对于任给的一个样品,若它与第i 类 的重心的距离最近,就认为它是来自第i 类。
2、马氏距离 设p维总体G的均值为, 协方差阵为Σ(Σ 0).
X和Y是 来 自 总 体G的 两 个 样 本. D( X ,Y ) ( X Y )T Σ 1( X Y ) --- X与Y之间的马氏距离; D( X ,G) ( X )T Σ 1( X ) --- X到总体G的马氏距离; • 统计学中还有若干不同的“距离”定义;相比之下,马氏 距离有很多独特的优点,是较常用的定义之一。
➢ 多元正态总体的抽样分布
设X和A分别是正态总体N p(, Σ)的样本均值向量和离差阵,
则有
(1)X
~
N
p
(
,
1 n
Σ );
n1
(2)离 差 阵A可 以 表 示 成A YYT . 其 中Y 独 立 同 分 布 于N p (0, Σ); 1
(3)X和S相 互 独 立. (还有:A服从Wishart分布Wp(n 1,))
14
四、多元正态总体的参数估计
1、问题的背景 已知p元总体 X ~ N p (, Σ )
设(X1, X2,…,Xn) 为来自总体的样本,观测数据矩阵为 X ( Xj )n p
要求依据该观测矩阵,估计总体的均值向量 和协方差阵∑ .
2、估计方法 ---- 最大似然估计法 (见P224) 结论 (1)X和 1 A分别是和Σ的最大似然估计;
第七章
多元统计分析
多元统计分析
研究多个随机变量之间相互依赖关系以及统计规律性。 • 起源于20世纪初期,40年代曾在心理、教育、生物等方面有不少应用;
但由于计算量大,其发展受到影响;60年代以后,随着计算机科学的 发展,多元分析方法在地质、气象、医学、社会学等方面也得到了广 泛的应用,在理论上也取得了很大的发展。 • 多元分析包括如下主要内容:多元正态总体的参数估计与假设检验、 聚类分析、判别分析、主成分分析、因子分析、对应分析、多重多元回 归分析、典型相关分析、路径分析等等; • 学习多元分析通常要求具备如下的知识:线性代数中向量和矩阵的有 关知识、初等的数理统计知识、统计软件包的运用; 参考书:
f ( x1 , x2, , x p )
1
p
1
exp{
1 2
(x
)T
Σ(x
)}
(2 ) 2 | Σ |2
其中 x (x1,x2, , xp )T; (1,2, , p )T 是常数向量,Σ是正定阵.
---- 则称X服从多元正态分布,也称X为p元正态向量, 记为 X ~ N p (, Σ ).
20
2、马氏距离 设p维总体G的均值为, 协方差阵为Σ(Σ 0).
X和Y是 来 自 总 体G的 两 个 样 本. D( X ,Y ) ( X Y )T Σ 1( X Y ) --- X与Y之间的马氏距离;
中国统计出版社,于秀林,任雪松编著,《多元统计分析》
2
§1 多元正态分布
3
❖ 在实用中遇到的随机向量常常是服从正态分布或近似正态分布,或 虽本身不是正态分布,但它的样本均值近似于正态分布。因此现实 世界中许多实际问题的解决办法都是以总体服从正态分布或近似正 态分布为前提的。在多元统计分析中, 多元正态分布占有很重要地 位,本书所介绍的方法大都假定数据来之多元正态分布。为此,本 节将要介绍多元正态分布的定义和有关性质。
其中X ,Y为随机向量,A, B为大小适合运算的常数矩阵.
又记 ij E[( Xi EXi )( X j EX j )] i, j 1,2, , p
( ii
DX
)
i
---- Xi 与Xj的协方差
6
( ij ) p p
---- X 的协方差阵 也记为 D( X )
5
2、随机向量的数字特征 记p维随机向量为 X ( X1, X2 , , X p )T
EX (EX1, EX2 , , EX p )T ---- X 的均值(向量)
➢ 它满足如下性质: ① E(AX)=AE(X) ② E(AXB)=AE(X)B ③ E(AX+BY)=AE(X)+BE(Y)
n
还都是 相合估计
(2)X和S 1 A分别是和Σ的最小方差无偏估计;
n1
注意:S 为正定阵的充要条件是 n p .
即样本容量要大于随机向量的维数.
15
五、多元正态总体的参数检验 1、问题 要求依据观测数据矩阵X,检验关于多元正态总体的均值
向量 或协方差阵∑的假设 . 2、检验方法 ---- 跟一维的情形思路完全类似;