主成分分析(数学建模)实用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
U i u1i,u2i, ,u pi i 1,2,, P
下面我们来看,是否由U的第一列元素所构成为原始 变量的线性组合是否有最大的方差。
设有P维正交向量 a1 a11 , a21 ,, a p1
F1 a11 X 1 a p1 X p aX
1 2 Ua1 V ( F1 ) a1a1 a1U p 1 u 1 u 2 2 a a u1 ,u 2 ,,u p 1 1 u p p
则 F3的方差次大。
F1 u11 X 1 u21 X 2 u p1 X p
类推
F2 u12 X 1 u22 X 2 u p 2 X p Fp u1 p X 1 u2 p X 2 u pp X p
思考题:第k(k≤p)个特征根约为0,说明什么? 说明第k到第p个特征根所对应的特征向量构成 的线性组合等于常数,因为其方差为零。
主成分分析试图在力保数据信息丢失最少 的原则下,对这种多变量的截面数据表进行 最佳综合简化,也就是说,对高维变量空间
进行降维处理。
很显然,识辨系统在一个低维空间要比
在一个高维空间容易得多。
在力求数据信息丢失最少的原则下,研究 指标体系的少数几个线性组合,并且这几个 线性组合所构成的综合指标将尽可能多地保 留原来指标变异方面的信息,这种分析叫主成 分分析,这些综合指标就称为主成分,主成 分相互独立。
i (u u i ) 2 2 (u u i ) 2 3 3
i 1 p i 3 p p
iu u iuu 3 3 i
i 1
3 u uiuu3 3 i
p
3u UUu3 3u u3 3 3 3
所以如果取线性变换,
i 1
F3 u13 X 1 u23 X 2 u p 3 X p
cov( F2 , F3 ) 0 a3a3 1
F3 u13 X 1 u p 3 X p
寻找第三主成分
因为 cov( F , F ) cov( ux, u x) u u u u 0 1 2 1 2 2 1 1 2 1
则,对p维向量 u2 ,有
V ( F3 ) u3u3
或衰退的趋势F3。更有意思的是,这三个变
量其实都是可以直接测量的。斯通将他得到
的主成分与实际测量的总收入I、总收入变化
率I以及时间t因素做相关分析,得到下表:
F1
F1 F2 F3 i Δi t 1 0 0
F2
F3
i
i
t
1 0 -0.041 1 0.057 -0.124 l -0.102 -0.414 l -0.112 1
1 Σ X U U 0 p
ຫໍສະໝຸດ Baidu
其中1, 2,…, p为Σx的特征根,不妨假设1
2 … p 。而U恰好是由特征根相对应的特征(列)向 量所组成的正交阵。
u11 u12 u1 p u u22 u2 p 21 U (u1 ,, u p ) u u p 2 u pp p1
一、线性代数的结论
的特征根。即有ui
若A是p阶实对称阵, 其中 i(i=1,2,┅,p)是 A
,使
Aui iui uAui uiui i i i
Ui是正交的特征向量。
u1 u 2 ... up A u1 u 2 ... up
则一定可以找到正交阵U,使
1 0 0 2 UAU 0 0 0 0 p P P
x1
平移、旋转坐标轴 主 成 分 分 析 的 几 何 解 释
F2
x2
•
F1
• •• •• • • • • • • •• •• • • • • • • • ••• • • • •• • •••• • • •• • • • • • • • • • •• • ••• • • • • • •• • • • • •••• • • •• • • • •• • • • • • •• • • • •• • • • • • •
F1 u11 X 1 u21 X 2 u p1 X p F2 u12 X 1 u22 X 2 u p 2 X p Fp u1 p X 1 u2 p X 2 u pp X p
满足如下的条件: 每个主成分的系数平方和为1。即
u u u 1
Fl,F2除了可以对包含在Xl,X2中的信息起着 浓缩作用之外,还具有不相关的性质,这就使得
在研究复杂的问题时避免了信息重叠所带来的虚
假性。二维平面上的个点的方差大部分都归结在
Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变
量x1和x2的综合变量。F简化了系统结构,抓住了 主要矛盾。
§3
主成分的推导
2 1i 2 2i 2 pi
主成分之间相互独立,即无重叠的信息。即
Cov Fi,Fj) 0,i j,i,j 1, 2, ,p (
主成分的方差依次递减,重要性依次递减,即
Var F1) Var ( F2 ) Var ( Fp ) (
为了方便,我们在二维空间中讨论主成分的几何意义。
F2 a12 X 1 a p 2 X p
因为cov( F1 , F2 ) cov(u x,a x) a u1 1a u1 0 1 2 2 2
则,对p维向量 a 2 ,有
V ( F2 ) a2a 2
ia2u iua 2 i 2u i ) 2 2 (a2u i ) 2 i (a
•
• •• •• • •• ••• • •• • • •• • • •• • •• • • • • • • • • •• ••
x1
平移、旋转坐标轴
x2 F1
•
主 成 分 分 析 的 几 何 解 释
F2
••• • •• •• •• •• •• • • •• •
•• •• •• ••• •• • •• •
主成分分析
主成分分析要求: 1、主成分假定条件? 2、主成分的方差与原始变量方差有何关系? 3、主成分如何求解?主成分分析的结构,即 线性组合的系数和方差的数学上的含义? 4、主成分分析如何评价? 5、主成分分析的应用。
§1
引言
一、一个例子
一项十分著名的工作是美国的统计学家斯通 (stone)在1947年关于国民经济的研究。他曾利用美
设有n个样品,每个样品有两个观测变量xl和x2,在由变量
xl和x2 所确定的二维平面中,n个样本点所散布的情况如
椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向 或x2轴方向都具有较大的离散性,其离散的程度可以分别 用观测变量xl 的方差和x2 的方差定量地表示。显然,如果 只考虑xl和x2 中的任何一个,那么包含在原始数据中的经
写为矩阵形式:
F UX
u11 u12 u1 p u u22 u2 p 21 U (u1 ,, u p ) u u p 2 u pp p1
X ( X 1 , X 2 ,, X p )
国1929一1938年各年的数据,得到了17个反映国民
收入与支出的变量要素,例如雇主补贴、消费资料
和生产资料、纯公共支出、净增库存、股息、利息
外贸平衡等等。
在进行主成分分析后,斯通竟以97.4%的
精度,用三新变量就取代了原17个变量。根
据经济学知识,斯通给这三个新变量分别命
名为总收入F1、总收入变化率F2和经济发展
i 1 i 1 p p i 2
p
2 a2uiua 2 i
i 1
p
2a2 UUa 2 2a2a 2 2
F 所以如果取线性变换, 2 u12 X 1 u22 X 2 u p 2 X p
则 F2 的方差次大。
(三) 第三主成分
在约束条件
cov( F1 , F3 ) 0
iauiua i
i 1
p
i (aui ) 2
i 1
p
1 (au i ) 2
p
1 auiua i
i 1
i 1 p
1aUUa 1aa 1
当且仅当a1 =u1时,即 F1 u11 X 1 u p1 X p 时,有最 大的方差1。因为
0.995
-0.056 -0.369
0.948
-0.282
-0.836
二、主成分分析的意义 主成分分析是把各变量之间互相关联的复杂
关系进行简化的分析方法。
在社会经济的研究中,为了全面系统的分析
和研究问题,必须考虑许多经济指标,这些指标
能从不同的侧面反映我们所研究的对象的特征, 但在某种程度上存在信息的重叠,具有一定的相 关性。
Var ( F1 ) Var (u x) 1 uVar (x)u1 1 u Σu1 1u u1 1 1 1
第一主成分的信息不够,则需要寻找第二主成分。
(二) 第二主成分
在约束条件 cov( F1 , F2 ) 0 和 a2a 2 1 下,寻找第二 主成分。
UU UU I
二、主成分的推导
(一) 第一主成分
设X的协方差阵为
12 1 p 22 2 p 21 Σx 2 p1 p 2 p
2 1
由于Σ x 为非负定的对称阵,则有利用 线性代数的知识可得,必存在正交阵U,使 得 0
纲,变量水平差异很大,应该选择基于相关系数矩阵
的主成分分析。 (2) 选择几个主成分。主成分分析的目的是简化 变量,一般情况下主成分的个数应该小于原始变量的 个数。关于保留几个主成分,应该权衡主成分个数和
保留的信息。
(3)如何解释主成分所包含的经济意义。
§2
数学形状与几何解释
假设我们所讨论的实际问题中,有p个指标, 我们把这p个指标看作p个变量,记为X1,X2,…, Xp,主成分分析就是要把这p个指标的问题,转变 为讨论p个指标的线性组合的问题,而这些新的指 标F1,F2,…,Fk(k≤p),按照保留主要信息量 的原则充分反映原指标的信息,并且相互独立。
要讨论的问题是:
1、主成分假定条件? 2、主成分的方差与原始变量方差有何关系? 3、主成分如何求解?主成分分析的结构,即 系数和方差的数学上的含义? 4、主成分分析如何评价? 5、主成分分析的应用。
主成分分析中要思考的问题
(1) 基于相关系数矩阵还是基于协方差矩阵做主
成分分析。当分析中所选择的经济变量具有不同的量
上述矩阵的特征根所对应的单位特征向量为
u1 ,, up
则U为
u11 u12 u1 p u u22 u2 p 21 U (u1 ,, up ) u u p 2 u pp p1
实对称阵A属于不同特征根所对应的特征 向量是正交的,即有
济信息将会有较大的损失。
平移、旋转坐标轴
x2 F1
主 成 分 分 析 的 几 何 解 释
F2
•• • • • • • • • • • • •• • •• • •• • • • •• • • • • •• • • • • • •
x1
平移、旋转坐标轴
x2 F1
主 成 分 分 析 的 几 何 解 释
F2
x1
上面的四张图中,哪一种有更高的 精度?原始变量的信息损失最少?
旋转变换的目的是为了使得n个样品点在 Fl轴方向上的离 散程度最大,即Fl的方差最大。 变量Fl代表了原始数据的绝大 部分信息,在研 究某经济问题时,即使不考虑变量F2也无损大 局。经过上述旋转变换原始数据的大部分信息 集中到Fl轴上,对数据中包含的信息起到了浓 缩作用。