浅谈主成分分析与因子分析-基本思想-主要性质-应用举例-计算步骤-主要区别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈主成分分析与因子分析
1、主成分分析
主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析,也是数学上处理降维的一种方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。
1.1基本思想
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。这些主成分不仅不相关,而且他们的方差依次递减。
1.2计算步骤
设有n个样品,每个样品观测P个指标,将原始数据写成矩阵。
(1)将原始数据标准化,即将每个指标的原始数据减去这个指标的均值后,再
除以这个指标的标准差。
(2)建立变量的相关系数阵:。
(3)求R 的特征根及相应的单位特征向量。
在解决实际问题时,一般不是取p 个主成分,而是根据累计贡献率的大小
取前k 个,称第一主成分的贡献率为,这个值越大,表明第一主成分
综合
信息的能力越强。前k 个主成分的累计贡献率达到85%,表
明取前k 个主成分基本包含了全部测量指标所具有的信息。
1.3算法原理
(1)对资料阵
⎥⎥
⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n p p x x x x x x X .............
......................
1221111标准化,得⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n p p a a a a a a A ................................1221111 其中
2)(1
/
)(j ij j ij ij x x n X x a --= i=1,2……n, j=1,2,……P 。
(2)求出相关矩阵
⎥⎥
⎥
⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎣⎡=pp n p p r r r r r r R (1221111)
∑∑∑===----=n
i k ik
n
i j ij
k ik n
i j ij jk a a
a a
a a a a r 1
2
1
2
1
)()
(/
)()(式中i 为标本编号,j,k=1,
2,…P 。其中,∑==n
i ij
j a n a 1
1。
此相关矩阵为一对称矩阵,所以在下面的计算中取上三角阵R 上=
⎥⎥⎥⎥⎥
⎥⎦⎤
⎢⎢⎢⎢⎢⎢⎣
⎡pp p p r r r r r r ...
(222)
11211
(3)求出R 上的特征及特征向量。
求R 上矩阵的特征值及特征向量有许多方法,特征方程法、迭代法等 (4)求出主成分。
将求出的特征值按大小依次排列,使得
p
λλλ>>>...21,根据%
85/1
1
≥∑∑==p
i i
m i i
λ
λ原则确定m ,并依次排列特征向量12,,....m u u u u r u u r u u r
就可得出我们所需的主成分。
1.4主要性质
主成分性质主要包括以下几点:
(1)设p个n维随机向量X1,X2….Xp 协方差矩阵为∑,∑的特征值为λ1≥λ2≥…
≥λp >0,相应的单位特征向量为:12p μμμ,,...,则x的主成分可表示为:Fi=μ’iX=μi1X1+μi2X2+…+μipXp, i=1,2,…,p 记μi=(μi1,μi2,…μip)T
(2)p个主成分均值为0,且p个主成分不相关。
(3)主成分的方差之和与原始变量的方差之和相等,也就是说,经过变化后,变量
间的变异性没有改变,信息没有损失。
(4) 称
1
k
k p
i
i λαλ
==
∑为第k个主成分的方差贡献率,称
11
1k
i
m
i i
p
i i
i λα
λ
====
∑∑∑为前k个主
成分的累积方差贡献率。
在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个。如果前k个主成分的累积贡献率达到85%,明取前k个主成分基本包含了全部测量指标所具有的信息,这样即减少了变量的个数有利于对实际问题的分析和研究。
(5) 若Fi=μ’iX
是数据矩阵x的主成分则1
Y k
X ρ=
,i=1,2,...p)
是Yi 与Xk 的相关系数。
1.5主成分分析方法应用实例
实例:对流域系统的主成分分析
下表给出了某流域系统57个流域盆地的9项变量指标。其中,x1代表流域盆地总高度(m ),x2代表流域盆地山口的海拔高度(m ),x3代表流域盆地周长(m ),x4代表河道总长度(m ),x5代表河道总数,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源数,x9代表流域盆地面积(km2)。