系统工程-主成分分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

F1
x1

x2 F2
••• • •• •• •• •• •• • • •• • •
F1
•• •• •• ••• •• • •• •
x1
y1 x1 cos x2 sin y2 x1 sin x2 cos
y1 cos y2 sin sin x1 Ux cos x2
U为旋转变换矩阵,它是正交矩阵,即有
U U1 , UU I

旋转变换的目的:为了使得n个样品点在Fl轴方向上 的离散程度最大,即Fl的方差最大。

(变量Fl代表了原始数据的绝大部分信息,在研究某 经济问题时,即使不考虑变量F2也无损大局)。经过 上述旋转变换原始数据的大部分信息集中到Fl轴上, 对数据中包含的信息起到了浓缩作用。
Var aX 1 bX 2 E aX 1 bX 2 a 1 b2 E a X 1 1 b X 2 2
2 2 2 2
2
E a X 1 1 b X 2 2 2ab X 1 1 X 2 2 a 2 Var X 1 b 2 Var X 2 2abCov X 1 , X 2
2
Cov aX 1 , bX 2 E aX 1 a1 bX 2 b2 abE X 1 1 X 2 2 abCov X 1 , X 2 ab 12
E aX1 bX 2 aE X1 bE X 2 a1 b2
F1 u11 X 1 u21 X 2 u p1 X p F2 u12 X 1 u22 X 2 u p 2 X p Fp u1 p X 1 u2 p X 2 u pp X p
满足如下的条件:
1. 每个主成分的系数平方和为1。即
2 u12i u2i u 2 1 pi
义:
◦ 设有n个样品,每个样品有两个观测变量x1和x2,在由变量 x1 和x2所确定的二维平面中,n个样本点所散布的情况如椭 圆状。由图可以看出这n个样本点无论是沿着x1 轴方向或x2 轴方向都具有较大的离散性,其离散的程度可以分别用观 测变量x1的方差和x2的方差定量地表示。显然,如果只考 虑x1和x2 中的任何一个,那么包含在原始数据中的经济信 息将会有较大的损失。

写为矩阵形式:
F UX
u11 u12 u1 p u u22 u2 p 21 U (u1 ,, u p ) u u p 2 u pp p1
X ( X 1 , X 2 ,, X p )

例,设协方差矩阵为:
2. 主成分之间相互独立,即无重叠的信息。即
Cov(Fi,Fj) 0,i j,i,j 1, 2, ,p
3. 主成分的方差依次递减,重要性依次递减,即
Var(F1) Var ( F2 ) Var (ຫໍສະໝຸດ BaiduFp )
F1、F2….Fp分别称为原变量的第一、第二….第p个主成分。
为了方便,我们在二维空间中讨论主成分的几何意
主成分分析 Principal Component Analysis
1、掌握什么是主成分分析。 2、理解主成分分析的基本思想和几何意义。 3、理解主成分求解方法:协方差矩阵与相关系数
矩阵的差异。

一项十分著名的工作是美国的统计学家斯通(stone) 在1947年关于国民经济的研究。他曾利用美国 1929一1938年各年的数据,得到了17个反映国民 收入与支出的变量要素,例如雇主补贴、消费资料 和生产资料、纯公共支出、净增库存、股息、利息 外贸平衡等等。
Y1 a11 a1k X 1 即Y=AX Yk ak1 akk X k
E cX1 cE X1 c1
Var cX 1 E cX 1 c1 c 2 Var X 1 c 2 11
a u1 ,u 2 , ,u p 1
2

Ua1 p
u 1 u 2 a 1 p u p
2

i au iua i
i 1
p
i (aui ) 2
U i u1i,u2i, ,u pi
i 1,2,, P


是否由U的第一列元素所构成为原始变量的线性组 合是否有最大的方差。 证明:设有P维正交向量a1 a11 , a21 ,, a p1
F1 a11 X 1 a p1 X p a1X
1 V ( F1 ) a1a1 a1U 1
的综合指标的多元统计方法。 主成分:由原始指标综合形成的几个新指标。依据 主成分所含信息量的大小成为第一主成分,第二主 成分等等。
主成分分析得到的主成分与原始变量之间的关系:
1. 2. 3. 4.
主成分保留了原始变量绝大多数信息。 主成分的个数大大少于原始变量的数目。 各个主成分之间互不相关。 每个主成分都是原始变量的线性组合。

假设我们所讨论的实际问题中,有p个指标,我们 把这p个指标看作p个随机变量,记为X1,X2,…, Xp,主成分分析就是要把这p个指标的问题,转变 为讨论p个指标的线性组合的问题,而这些新的指 标F1,F2,…,Fk (k≤p),按照保留主要信息量的 原则充分反映原指标的信息,并且相互独立。

这种由讨论多个指标降为少数几个综合指标的过程 在数学上就叫做降维。主成分分析通常的做法是, 寻求原指标的线性组合Fi。

第二主成分
◦ 在约束条件COV(F1,F2)=0下,寻找第二主成分
F2 u12 X 1 u p 2 X p
◦ 由U的正交性质可得: ◦ 对p维向量u2,有
p
u u1 0 2
p 2
p
V ( F2 ) u2u2 i u2u i uu 2 i (u2u i ) 2 (u ui ) 2 2 i
2 2 1 5.83 3 0.17
例, 2. 求特征根对应的特征向量

上述结论可推广到p个随机变量的线性组合。

设X的协方差阵为
11 12 1P 2P X 21 22 P1 P 2 PP

由于Σx为非负定的对称阵,则有利用线性代数的知 识可得,必存在正交阵U,使得

设:
11 21
12 22

则:
cc a 11 b 21
12 a 2 a 11 2ab 12 b2 22 22 b
Var(aX1 bX 2 ) Var(cX) cΣc
F1 F1 F2 F3 I ⊿I t 1 0 0 0.995 -0.056 -0.369
F2
F3
I
⊿I
t
1 0 -0.041 0.948 -0.282 1 0.057 -0.124 -0.836 1 -0.102 -0.414 1 -0.112 1
主成分分析:将原来较多的指标简化为少数几个新
i 1
p
i 1
i 2

2 u u i uu 2 2 i
i 1
2u UUu 2 2u u 2 2 2 2

F 所以如果取线性变换: 2 u12 X 1 u22 X 2 u p 2 X p 则F2的方差次大。

以此类推
F1 u11 X 1 u21 X 2 u p1 X p F2 u12 X 1 u22 X 2 u p 2 X p Fp u1 p X 1 u2 p X 2 u pp X p
1 0 UΣ X U 0 p

其中λ1, λ2, … λp为Σx的特征根,不妨假设λ1≥λ2≥…≥ λp 。而U恰好是由特征根相对应的特征向量所组成 的正交阵。
u11 u 21 U (u1 ,, u p ) u p1 u12 u22 u p2 u1 p u2 p u pp
i 1
p
1 (au i ) 1 au i ua 1aUUa 1aa 1 i
p 2
p
i 1
i 1

当且仅当a1=u1时,即F1=u11X1+……+up1Xp时,有最 大的方差λ1。因为
Var(F1 ) u X u1 1 1

如果第一主成分的信息不够,则需要寻找第二主成 分。
1 2 2 5 0 0 0 0 2
例, 1. 求协方差矩阵的特征根 依据 I 0 求解.

1 I 2 0
2
0
5 0 (1 )(5 )(2 ) (2)(2)(2 ) 0 0 2
由此可概括出主成分分析的几何意义:
◦ 主成分分析的过程也就是坐标旋转的过程,各主成分表达 式就是新坐标系与原坐标系的转换关系,新坐标系中各坐 标轴的方向就是原始数据方差最大的方向。



从相关的X1, X2,… Xk,求出相互独立的新综合变量 (主成分)Y1,Y2…Yk。 Y=( Y1, Y2…Yk )’ 所反映信息的含量无遗漏或 损失的指标—方差,等于X=( X1, X2 … Xk )’的 方差 。 X与Y之间的计算关系是:

在进行主成分分析后,竟以97.4%的精度,用三个 新变量就取代了原17个变量。根据经济学知识,斯 通给这三个新变量分别命名为总收入F1、总收入变 化率F2和经济发展或衰退的趋势F3。更有意思的是, 这三个变量其实都是可以直接测量的。斯通将他得 到的主成分与实际测量的总收入I、总收入变化率I 以及时间t因素做相关分析,得到下表:
2
2
a 2 11 b 2 22 2ab 12
引入c a, b, aX1 bX 2可写为
X1 a, b X cX 2
类似地,E aX1 bX 2 a1 b2可表示为
1 a, b cμ 2

Fl、 F2除了可以对包含在Xl,X2中的信息起着浓缩 作用之外,还具有不相关的性质,这就使得在研究 复杂的问题时避免了信息重叠所带来的虚假性。二 维平面上的个点的方差大部分都归结在Fl轴上,而 F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综 合变量。F简化了系统结构,抓住了主要矛盾。

如果我们将x1轴和x2轴先平移,再同时按逆时针方 向旋转Ɵ角度,得到新坐标轴Fl和F2。Fl和F2是两个 新变量。 F2 F1 •• • • • • • • • • • • •• • •• • •• • • • •• • • • x1 • •• • • • • • •
x2 F2
• •• •• • •• ••• • •• • • •• • • •• • •• • • • • • • • • •• ••
相关文档
最新文档