第七章_主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5
但是,PCA和FA所使用的协方差矩阵
不同于前面的均值-协方差分析。均值—协方差分 析仅仅度量的是所有变量形成的集合的总体变异性, 而没有特别指明其子集合(变量的线性组合)对总 变异性的贡献。
其中,主成分分析识别并排序了各线性组合在总变 异性中的贡献,每一个线性组合称为一个“主成 分”,并根据各主成分对总方差的解释贡献(用自 己的方差占总累计方差的比例来表示)来进行排序。
43
关于主成分分析的几点说明
1. 求解主成分的过程实际就是对矩阵结构进行分 析的过程,也就是求解特征值和特征向量的过程。 实际问题分析中,是从向量X的协差阵出发,还是 从相关阵(在协差阵基础上除标准差)出发,虽然 过程是一样的,但其结果是不同的。 那么, 到底如何决定从哪一个矩阵出发呢? 一般地说,如果原始数据的数量级相差不大, 且量纲相同,可以从协差阵出发来求解。但如果数 据数量级差别较大或量纲不同,要考虑数据的标准 化,然后用相关阵求解主成分。但这也不是绝对的, 该问题现在还没有一个定论。 但两种方法计算的主成分一般不同,但结论一般不44 会发生矛盾。
9
§7.1 何谓主成分分析及其基本思想
主成分分析就是设法将原来的众多指标重 新组合成一组新的,相互无关的较少几个综合 指标来代替原来指标,同时,根据实际需要, 从中提取出的这少数几个综合指标又能尽可能 多地反映原来指标数据的信息。 这种将多个指标转化为少数的、相互无关 的综合指标的统计方法,叫做主成分分析,或 称为主分量分析。也是数学上处理降维的一种 技术方法。
16
1.主成分分析的数学模型
用矩阵 X 的p个n维向量( 即p个指标向量) Xl,X2,…,Xp 作线性组合,且具有正交(即垂直) 特征。即,将它们综合成p个新指标,即 F1=a11X1+a12X2+...+a1pXp F2=a21X1+a22X2+...+a2pXp .................. Fp=ap1X1+ap2X2+...+appXp 这样确定的综合指标 F1,F2,…,Fp分别称做原指标 的第一,第二,…,第p主成分,且 F1,F2,…,Fp 在总方差中占的比例依次递减。
关于主成分分析的几点说明(续)
2. 主成分分析不要求数据来自于正态总体。 3. 单位特征向量,即主成分的系数向量 u ki 仅仅是 变换系数,与因子负荷量
( Fk , X i ) u ki k / ii
是不同的,因子负荷(也叫载荷)量反映的是第k个 主成分与第i个原始变量之间的相关系数。在解释第i 个原始变量对第k个主成分的重要性时,应当根据因 子负荷量,而不能是变换系数。
22
§7.3 主成分的推导
23
主成分的推导(续1)
24
25
26
27
总结一下前面的内容:
第一主成分F1=a’X的系数向量a 恰好就是X的 协方差矩阵∑的最大特征根λ 1所对应的特征向量 u1,且方差Var(F1)= λ 1,为最大。

第二主成分F2=a’X的系数向量a 就是X的协方 差矩阵∑的次大特征根λ 2 所对应的特征向量u2, 且方差Var(F2)= λ 2 ,为次大。 下面依次类推。
39
注意:这个变量的顺序是不对的,应该是x3, x1, x8, x7, x2, 40 x5, x4, x6 的顺序。这是书中的错误,请上机验证。
41
再次总结前面的内容
1. 先求出向量X的协方差阵∑或数据标准化处理后 的相关阵R 2. 求该矩阵特征值(由大到小排列)1 2 p 0 以及对应的单位特征向量 u1 ,..., u p
17
18
19
2 主成分的几何意义
20
主成分的几何意义(续1)
21
主成分的几何意义(续2)
从几何上看,寻找主成分的问题,就是 寻找多维空间中椭球体的主轴问题,从数学上 容易得到它们是Xl,X2,…,Xp 的相关矩阵中 p个较大特征值所对应的特征向量,这就是主 轴的向量 通常, 用雅可比 (Jacobi) 方法计算矩阵 的特征值和特征向量。
x11 x 21 X xn1 x12 x22 xn 2 x1 p x2 p = ( X1 xnp
X2
, , X p )
33
34
35
36
37
38
注意:这个特征向量的分量已经按照由大到小重新排序 了,不是原来的x1, x2 ,…, x8 的顺序,请上机验证
6
1. 主成分分析的基本做法
PCA的做法是,所有数据内的总体变异性由特征 值的总和(即协方差矩阵Σ的主对角线元素之和, 也称为矩阵的迹)来度量, 且主成分(即变量的线性组合,归根结底归结为 组合系数的确定)的确定是依据Σ的特征值依次 下降的次序,直到满足能解释总变异性的一个足 够大的比例(称为解释方差的累计贡献率)为止, 以此来最终确定几个少数的主成分。 这种方法不仅降低了系统的维数,而且识别了最 重要的少数几个主成分。
28
29
30
31
其中的S为样本离差阵,它作为总体协方差∑的一个估计,数 据经过标准化处理后,离差阵S 等于相关阵R
也就是说,在将数据标准化以后再去做,只需要求出 相关阵X’X的单位特征向量即可,该特征向量就是主 成分中的线性组合的系数 32
§7.4 计算步骤及实例
设有n个样品,每个样品观测p个指标,将 原始数据写成矩阵:
4
二者的区别与联系
主成分分析(principal components analysis, 简 写为PCL)是侧重于分析多变量数据结构波动时的降 维技术; 因子分析(factor analysis, 简写为FA)则是侧重 分析多变量数据结构中变量相关性时的降维技术。 二者都依赖于p×p的协方差矩阵Σ,因为这个矩阵 在一定范围内包含了变量间的全部的有用信息。因 而这两种方法有时是重复的、或相互补充的。
3. 根据前几个较大特征根的累计贡献确定主成分 的个数m(m<p),并确定取前m 个特征向量。 4. 得到以特征向量为系数的线性组合形成的主成分 F1,F2,…,Fm ,且它们的方差等于前几个较大的 特征根,即 Var(Fi)=λ i
42
综上所述,求综合变量(主成分)F1 ,..., Fm 的过程可知,主成分在几何图形中的含义就是旋转 后的新坐标系的主轴,它们彼此不相关(图形上为 垂直),其方向就是特征向量的方向,其方差贡献 就是相应的特征值。 因此,我们利用样本数据求解主成分的过程实 际上就转化为求相关阵或离差阵的特征值和特征向 量的过程。这是最关键的。
2
概括的讲,多变量的数据结构的特征主要 有两个:
1. 多变量数据结构中的波动性,即用方差 (或协方差)大小来表示其信息量多寡。 常用主成分分析。
2.多变量间的相关性或共线性。如果两个 变量是完全相关的,则不需要第二个变量, 因为它不会带来更多的信息。常用因子分 析。
3
换言之,在众多的具有错综复杂相关性的 p个变量中,
第7章 主成分分析 Principal Component Analysis
它是将多个指标简化为少数几个 相互无关的综合指标的统计方法, 其核心目的是降低维数。
所以,主成分分析是一种降维的 统计方法
1

多元分析处理的是多指标的问题。由于指 标太多,使得分析的复杂性增加。众多的要素 常常给模型的构造带来很大困难。 观察指标的增加本来是为了使研究过程趋 于完整,但反过来说,为使研究结果清晰明了 而一味增加观察指标又容易使人混乱不清。 由于在实际工作中,指标间经常具有一定 的相关性,故人们希望用较少的指标代替原来 较多的指标,但依然能反映原有的全部信息, 于是就产生了主成分分析、因子分析、对应分 析和典型相关分析等降维的统计方法。
10
例如,某人做衣服时为了合体,要测量很多尺寸,如 身长、袖长、胸围、腰围、肩宽、肩厚等十多个指标, 但服装厂生产的服装尺码绝对不是型号如此非常非常 之多和齐全,甚至达到人人都适合的程度,而是从多 个指标中综合成少数几个有代表性的综合指标,作为 服装分类的型号. 例如,现行市面中的上衣中,只选择了身高、胸围两 个指标作为主要尺码即可,比如,165/92B、 170/100A,这样就能满足大多数人的体形需要。当然, 由于将10多个尺寸高度综合简化成2个尺寸,就肯定 不能满足所有人的体形,其中有一部分人的体形信息 就被忽略掉或损失了。 同理,裤子中的尺寸也已经综合简化成身高、腰围两 个尺寸,如,170/76;165/72,等等
因为PCA识别了变量的线性相关性,并依据它们对 原始数据总方差的贡献排了序,所以用PCA来解释 变量是有可能的。 因为,第一主成分是某种线性组合所产生的具有 最大方差的新变量,第二主成分是某种线性组合 所产生的具有次大方差的新变量,依次下去,…. 可见,可以用提取了绝大部分信息的少数几个主 成分来解释数据。也就是说,可以对变量进行归 组或分类,并进一步可赋予主成分的经济含义或 命名。
14

不难想像,这些主成分之间不仅不相关,而且 它们的方差依次递减。 因此在实际工作中,常常挑选出前面几个方 差最大的主成分,虽然这样做会损失一部分信息, 但是由于它使我们抓住了主要矛盾,并从原始数 据中进一步提取了某些新的信息,因而在某些实 际问题的研究中得益要比损失大,这种既减少了 变量的数目,又抓住了主要矛盾的做法有利于问 题的分析和处理。
12

如果将选取的第一个线性组合,即第 一个综合指标记为F1,自然则希望F1能够 尽可能多的代表原来指标的信息,那么, 这里的“信息”用什么来表示呢? 最经典的方法就是用F1的方差来表示, 即 Var(F1)越大,表示F1包含的信息越多, 即方差大小是反映数据信息量多少的一个 指标。
13
因此,在所有线性组合中选取的 F1应该是方 差最大的,故称 F1为第一主成分。 如果第一主成分不足以代表原来P个指标的信 息量,则需再考虑选取第二个主成分F2,即选 第二个线性组合。 为了有效地反映原来的信息,F1 中已有的信 息就不需要再出现在F2 中了,用数学语言表 达就是要求 Cov(F1,F2 )=0,称F2 为第二 主成分,依此类推可以构造出第三,第 四,……,第P个主成分。
如果不经简化就直接把所有变量都拿来进行分析, 不可避免增加分析的难度和计算的复杂性;另外, 由于一些变量中包含的信息量(信息量的多少往往 可用其方差代表)较少,只能增加分析的难度,给 模型的构造带来很大困难。
因而就想到,在信息量损失尽可能少的前提下,首 先设法减少变量的个数,即降低空间的维数,然后, 再对少数的几个综合变量(它们从原始变量中提取 了绝大部分信息量)进行分析。 这就是降维的思想。主成分分析和因子分析就是这 样一类降维的统计技术。
15
Байду номын сангаас
§7.2 主成分分析的数学模型 及几何解释
设有n个样品,每个样品有p项指标(变 量): X1,X2,…,Xp ,得到原始数据 资料矩阵:
x11 x12 x1 p x x x 2p 21 22 X = ( X 1 X 2 , , X p ) xn1 xn 2 xnp
7
2. 主成分分析要达到的目标
第一个目标:从众多的变量中综合得出少数 几个相互无关的综合变量(即主成分),以 降低空间的维数;
这可从原始变量中有相互关系的变量进行线 性组合来完成,并且该组合作为一个整体与 其他变量的组合是线性无关的,这个组合出 的变量就是主成分。即主成分之间是无关的。
8
第二个目标:在第一个目标的基础上解释 数据或变量。
11
主成分分析的基本思想
主成分分析就是设法将原来众多的具有一 定相关性的指标(比如p个指标),重新组合成 一组新的、少数几个、相互无关的、综合指标 来代替原来的指标。通常数学上的处理,就是 将原来p个指标作线性组合,作为新的少数几 个综合指标. 但是这种线性组合,如果不加限制的话, 则可以有很多组合,我们应该如何去选取合适 的线性组合呢?
相关文档
最新文档