(新)第5章 主成分分析与经验正交分解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第5章主成分分析与经验正交分解
5.1
主分量分析的数学模型
当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机 变量,是很必要的。首先我们看一个例子。
例5.1 为了调查学生的身材状况,可以测量他们的身高(1x )、体重(2x )、胸围(3x )和坐高(4x )。可是用这4个指标表达学生身材状况不方便。但若用
1y =3.63561x +3.32422x +2.47703x +2.16504x
表示学生身体魁梧程度;用
2y =-3.97392x +1.35821x +3.73233x -1.57294x
表示学生胖瘦程度。则这两个指标(1y ,2y )很好概括了4个指标(1x -4x )。
例中,学生不同,身高(1x )、体重(2x )、胸围(3x )和坐高(4x )不同;(1x , 2x , 3x ,
4x )是4维随机向量;1y ,2y 是他们的2个线性组合,1y ,2y 能很好表示1x , 2x , 3x ,
4x 的特性。类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变
量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA 方法,见吴洪宝(2005)。
主成分分析的数学模型是:对于随机向量X ,想选一些常数向量i c ,用X c i '尽可能多反映随机向量X 的主要信息,也即)'(X c D i 尽量大。但是i c 的模可以无限增大,从而使
)'(X c D i 无限变大,这是我们不希望的;于是限定i c 模的大小,而改变i c 各分量的比例,
使)'(X c D i 最大;通常取i c 的模为1最方便。
定义5.1 设随机向量)',...(1p x x X =二阶矩存在,若常数向量1c ,在条件c =1下 使)'(X c D 最大,则称X c Y '11=是X 的第一主成分或第一主分量。
由定义可见,1Y 尽可能多地反映原来p 个随机变量变化的信息。但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含1Y 的信息)。
定义5.2 若常数向量c=2c 在条件c =l ,0)',cov(1=X c Y 下,使)'(X c D 最大, 则称X c Y '22=是 X 的第二主成分;若常数向量c=3c 在条件c =l ,0)',cov(1=X c Y ,
0)',cov(2=X c Y 下,使)'(X c D 最大,则称X c Y '33=是 X 的第三主成分;…。
当随机向量方差已知时,定理5.1给出主成分的计算公式。
定理5.1 设随机向量)',...(1p X X X =方差存在为∑。∑特征值从大到小为
p λλλ≥≥≥...21,j λ对应的彼此正交单位特征向量为j c 。则X 的第j 个主成分
为 j c 与X 的内积,即
X c Y j j '= (5.1)
且i i Y Var λ=)(
证明:任取
p
维单位向量
c,必有∑∑==
1,2
j
j
j t
c t c 。于是
∑=∑=j j t c c X c D λ2')'(,
而在条件∑=12
j t 下,当11=t ,0...2===p t t 即1c c =时,∑=j j t X c D λ2)'(最大,所以X 的第一主成分是1c 与X 的内积X c Y '11=。由条件0)',cov(1=X c Y ,可得0''11111===∑t c c c c λλ,于是X c t X c j p
j j ''2∑==,从而
∑==∑=p
j j j t c c X c D 2
2')'(λ;
所以在条件c =1、0)',cov(1=X c Y 下,当2c c =时,c c X c D ∑=')'(最大,所以X 的第2个主成分为2c 与X 的内积X c Y '22
=。对第三,第四……主成分同样可证。
由证明过程可见:i i Y Var λ=)(。它称为第i 个主成分的方差贡献,表示第i 个主成分变化大小,从而反映第i 个主成分提供的信息的大小。 例5.2 设)',,(321X X X X =,且
⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡--=∑=210131011)(X Var
则
1λ=3.87939,'1c =[0.293128,-0.84403,-0.449099]
2λ=1.6527,'2c =[0.449099,-0.293128,0.84403] 3λ=0.467911,'3c =[0.84403,0.449099,-0.293128]
所以第一主成分就是X c Y '11==0.2931281X -0.84403 2X -0.4490993X ;
第二主成分就是X c Y '22==0.4490991X -0.2931282X +0.844033X ; 第三主成分就是X c Y '33
==0.844031X +0.4490992X -0.2931283X 。
它们的方差贡献分别是87939.3)(11==λY Var ;6527.1)(22==λY Var ;
467911.0)(33==λY Var 。
定义5.3 ∑j
i λ
λ/
称为主成分i y 的方差贡献率;
∑∑
=j i k
i λλ/1
称为前k 个主成分的累计
方差贡献率;i y 与X 第k 个分量的相关系数),(k i x y ρ称为因子负荷量。
当某个主成分的方差贡献率很小时,认为它提供的信息很少,可以略去此主成分。通常取q,使前q 个主成分的累计方差贡献率达到70%-80%,然后只考虑前q 个主分量,用它们解释随机向量X 的特性,其余主成分认为是观测误差等随机因素造成的。
在实际问题中,X 的每一分量可取不同单位,单位取小时(例如长度单位取毫米,甚至微米)该分量的方差会变大,从而在主成分中变得突出;而单位选取不应影响主成分。为了避免量纲对主成分的影响。常常将随机变量都标化,即令)(/)(*i i i i X Var EX X X -=,它就是无量纲量,令*)'*,...(*1p X X X =再求X*的主成分,即标准化后的主成分。将
)(/)(*i i i i X Var EX X X -=代入,可求随机向量X 的主成分。容易证明
定理5.2 设随机向量X 的相关阵为ρ,ρ特征值为*...*1p λλ≥≥,j λ对应的彼此正交单位特征向量为*j c ,则标准化后X 的第j 个主成分是***T X c Y j
j =。
因此,标准化后的主成分称为由相关阵决定的主成分。直接由随机向量的协方差阵算出的主成分称为由协差阵决定的主成分。
同样一组随机变量,用它们的协差阵和相关阵求出的主成分是不一样的。这是因为优化的准则(目标函数)不同:前者要求)'(X c D =c c ∑'最大,而后者要求
*)'(X c D ==c F F c 2/12/1'--∑最大,其中