主成分分析讲解学习
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用数学语言描述就是要求:
(1)aiai 1 (i 1,L , p) (2)当i 1时,Cov(Fi , Fj ) 0
( j 1,L ,i 1)
(3)Var(Fi ) max Var(x) aa1,Cov( Fi ,Fj )0
( j 1,L ,i 1)
§11.2 主成分分析数学模型及几何解释
§11.3 总体主成分的推导及性质
(1)主成分的推导:
设F a1X1 a2X2 L apX p @aX,其中,a (a1,a2,L ,ap), X (X1, X2,L X p),
求主成分就是寻找X的线性函数 aX 使相应的方差尽可能地大,即
使
Var(aX ) E(aX E(aX ))(aX E(aX )) aE( X EX ) (X EX )a a a
主成分分析
§11.1 什么是主成分分析及其基本思想
问题的提出: 在对某一事物进行实证分析研究中,为了更全面准确反映出事
物的特征及其发展规律,往往考虑与其有关系的多个指标,因此会 产生的问题: (1)为避免漏掉重要信息而考虑尽量多的指标 (2)随着考虑指标的增多增加了问题的复杂性,并且多指标之间 不可避免会造成信息的大量重叠(相关性),这种重叠有时甚至会 掩盖事物的真正特征与内在规律。
§11.1 什么是主成分分析及其基本思想
实际工作中,挑选前几个最大的主成分代替原来的指标信息, 虽然会损失一部分信息,但是由于我们抓住了主要矛盾,在实际问 题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要 矛盾的做法有利于问题的分析和处理。
主成分分析流程图:
尽可能多地找出 相关指标作为原
x
作线性组合
p
(即综合指标)为:
F1 =a11 X1 a21 X1 L
ap1X1 @a1 X
F2
=a12
X1
a22
X1
L
ap2 X1 @a2 X
LL
Fp =a1p X1 a2 p X1 L
a pp
X1
@a
p
X
§11.2 主成分分析数学模型1i2 a2i2 L api2 1 i 1,L p且系数aij由下列原则决定:
§11.1 什么是主成分分析及其基本思想
例1:某厂商要做一件上衣,需要测量很多尺寸,如 身长,体重,袖长,胸围,腰围,肩宽,肩厚等十几项指标
将多种指标综合成几个少数的综合指标,作为分类的型号,可综合成3项指标: 一项反映长度的指标,一项反映胖瘦的指标,一项反映特体的指标。
例2:医学研究中常常需要对患者的健康状况等进行评价,而这类评价要求内 容全面,多个测量指标,最后产出综合评价结果。将多个指标进行综合总 会面临以下问题:
达到最大值,且aa 1。
§11.3 总体主成分的推导及性质
设协差阵的特征根为1 2 L p 0, 相应的单位
特征向量为1,2,L
,
。
p
11 12 L
目的:涉及的变量(指标)少,得到的信息量要较多。
§11.1 什么是主成分分析及其基本思想
主成分分析(Principal Component Analysis,PCA)也称为主分量 分析,是一种数据降维技术,主成分分析正是研究如何将多个具有较强相 关性指标化为少数几个综合指标来解释原来变量绝大多数信息的一种多元 统计方法。把转化生成的综合指标称之为主成分。
1. 各指标量纲不同,不能直接相加; 2. 各指标间存在相关,直接相加产生信息重叠; 3.相加时需要考虑各指标的权重。
§11.1 什么是主成分分析及其基本思想
主成分分析的基本思想: 设法将用原来众多具有一定相关性的指标(比如p个)重新组合成一
组新的相互无关的综合指标来代替原来指标,同时根据实际需要,从中 取几个较少的综合指标(主成分)尽可能多地反映原来指标的信息。
(2)Fi与Fj(i j,i, j, 1,L p)不相关;
(3)F1是X1,L
X
的一切线性组合(系数满足上述方程组)中方差最大
p
的,F2是与F1不相关的X1,L X p一切线性组合中方差最大的,L ,Fp
是与F1,L
Fp1都不相关的X1,L
X
一切线性组合中方差最大的.
p
§11.2 主成分分析数学模型及几何解释
分 分 析 的
几 何
••
•• •• •
•• •
• ••
•
• ••
•
• •
•
•
•
• •••
•
••
解
••
释
如果我们将xl 轴和x2轴先平移,再同时按 逆时针方向旋转角度,得到新坐标轴Fl和F2。 Fl和F2是两个新变量。
根据旋转变换的公式:
FF12
x1 cos x2 sin x1 sin x2 cos
注:
(1)数学模型中用线性组合基于两种原因:数学上容易处理和在 实践中效果好。
(2)每次主成分的选取使Var(Fi)最大,如果不加限制就可使Var(Fi) 趋于无穷大,就没有意义了,常用的限制要求就是:
a1i2 a2i2 L api2 1
i 1,L p
平移、旋转坐标轴
F1
主
F2
成
•• • • •
F1 F2
cos sin
sin x1
cos
x2
旋转变换的目的是为了使得n个样品点在Fl轴方向 上的离 散程度最大,即Fl的方差最大。变量Fl代表了 原始数据的绝大 部分信息,在研究某问题时,即使不
考虑变量F2也无损大局。经过上述旋转变换原始数据 的大部分信息集中到Fl轴上,对数据中包含的信息起 到了浓缩作用。
§11.1 什么是主成分分析及其基本思想
注: 通常数学上的处理:新的综合指标是原来p个指标的线性组合。 指标“信息量”的表达用方差来表示,方差越大,表示该指标包含的信
息越多。 因此,在所有的线性组合中选取方差最大的F1作为第一主成分,将 方差次大的F2作为第二主成分,且要求Cov(F1,)=0,保证F1中的信息 不出现在F2中,以此类推,构造第三、第四,…第p主成分。
始指标
原始指标的线 性组合
综合指标间 不相关,且 方差递减
第一主成分,第二主成 分,…第p主成分
选取前几个最大的主成分代替原来 指标的信息
§11.2 主成分分析数学模型及几何解释
设X ( X1,L X p )T 是P维随机向量,均值E(X)=,协差阵
D(X)=,用X的P个向量,(即P个指标向量)x1,L