多元统计分析讲义(第四章)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Equation Chapter 1 Section 1 Array《多元统计分析》
Multivariate Statistical Analysis
;
^
)
主讲:统计学院许启发()
统计学院应用统计学教研室
School of Statistics
2004年9月
第三章 主成分分析
【教学目的】
1.让学生了解主成分分析的背景、基本思想; 2.掌握主成分分析的基本原理与方法; 3.掌握主成分分析的操作步骤和基本过程; 4.]
5.学会应用主成分分析解决实际问题。
【教学重点】
1.主成分分析的几何意义; 2.主成分分析的基本原理。
§1 概述
一、什么是主成分分析
1.研究背景
在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。本章主要介绍主成分分析。
主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。 >
概括地说,主成分分析(principal component analysis )就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。主成分概念最早是由Karl Parson 于1901年引进的,1933年Hotelling 把这个概念推广到随机向量。在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归可克服多重共线性。
2.基本思想及意义
哲学理念:抓住问题的主要矛盾。
主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这p 个指标进行线性组合作为新的综合指标。问题是:这样的线性组合会很多,如何选择
如果将选取的第一个线性组合即第一个综合指标记为1F ,希望它能尽可能多地反映原来指标的信息,即1()Var F 越大,1F 所包含的原指标信息①就越多,1F 的方差应该最大,称1F 为第一主成分。
如果第一主成分1F 不足以代表原来p 个指标的信息,再考虑选取2F 即选择第二个线性组合。为了有效地反映原来的信息,1F 中已包含的信息,无须出现在2F 中,即12(,)0Cov F F ,称2F 为第二主成分。
仿此可以得到p 个主成分。
①
度量信息最经典的方差是方差。
我们可以发现这些主成分之间互不相关且方差递减,即数据的信息包含在前若干个主成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的解决。
二、主成分分析的数学模型及几何意义
[
1.数学模型(总体主成分)
设有n 个样品,每个样品观测p 个指标:12,,
,p X X X ,得到原始数据资料阵:
()1112121
2221
2
1
2
,,
,p p p n n np X X X X X X X X X
X X X X ⎛⎫
⎪
⎪
= ⎪ ⎪ ⎪⎝⎭
。其中,12i i i ni X X X X ⎛⎫
⎪ ⎪= ⎪ ⎪⎝⎭
。 其协方差矩阵为
()
[][]ij
p p
E X EX X EX σ⨯'∑
--
它是一个p 阶半正定矩阵。设()12,,,(1,2,,)i i i pi a a a a i p '==为p 个常数向量,考虑如下的线性组合
11111212122
12122221122p p p p p p p p pp p F a X a X a X a X F a X a X a X a X F a X a X a X a X '⎧=+++⎪'=+++⎪⎨
⎪
⎪'=+++⎩
简记为1122i i i i pi p
F a X a X a X a X '=+++(1,2,,)i p =
易知有
()()i i i i Var F Var a X a a ''=∑
(,)(,),i j i j i j
Cov F F Cov a X a X a a i j '''==∑≠(,1,2,,)i j p =
…
如果我们希望用1F 代替原来p 个变量12,,
,p X X X ,这就要求1F 尽可能地反映原p 个变量的信息。这
里,“信息”用1F 的方差来度量,即1()Var F 越大,表示1F 所含的12,,
,p X X X 中的信息越多。但由方差的
表达式可知,必须对i a 加以限制,否则1()Var F 无界。而最方便的限制是要求所有i a 具有单位长度,即
1i i a a '=
因此,我们希望在约束条件111a a '=之下,求1a 使1()Var F 达到最大,由此1a 所确定的随机变量11F a X '=称为12,,,p X X X 的第一主成分。
如果第一主成分1F 还不足以反映原变量的信息,考虑采用2F 。为了有效地反映原变量的信息,1F 中已有的信息就不必要再包含在2F 中,用统计的语言来讲,要求1F 与2F 不相关,即
121
2(,)0Cov F F a a '=∑= 于是,在约束条件221a a '=及120a a '∑=之下,求2a 使2()Var F 达到最大,由此2a 所确定的随机变量22F a X '=称为12,,
,p X X X 的第二主成分。
一般地,在约束条件1i i a a '=及()(,)01,2,,1i k i k Cov F F a a k i '=∑==-之下,求i a 使()i Var F 达到最大,
由此i a 所确定的随机变量i i F a X '=称为12,,
,p X X X 的第i 主成分。
2.主成分的几何意义
从代数学观点看主成分就是12,,
,p X X X 的一些特殊的线性组合,而在几何上这些线性组合正是把
12,,
,p X X X 构成的坐标系旋转产生的新的坐标系,新坐标系使之通过样品方差最大化方向。下面以二元
正态变量为例说明主成分的几何意义。
当2p =时,原变量是12,X X ,设122(,)~(,)X X X N μ'=∑,它们有下图的相关关系:
}