数学建模:主成分分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
378.9 1 Var ( F1 ) 74.16% 1 2 Var ( F1 ) Var ( F2 ) 378.9 132
这是个什 么矩阵?
对角线外的元素不 为0意味着什么?
对角线外的元素不全为0,意味着原始变量 x1,x2, …,xp存在相关关系。 如何运用主成分分析将这些具有相关关系的变量 转化为没有相关关系的新变量(主成分)呢?? 新变量之间没有相关关系,则意味着它的方差协 方差阵为对角矩阵:
1 0 0 p
11 12 1P 22 2P X 21 P1 P 2 PP
对角线上的元素 11 , 22 pp 分别代表 x1 , x2 x p的方差; 对角线外的元素 12 21 , 13 31 ,, p 2 2 p , 且不全为0;
Fl轴方向上的离散程度最大,即Fl的方差最大。说明变量Fl代表了原 始数据的绝大部分信息,即使不考虑变量F2也无损大局。
根据旋转变换的公式:
f1 x1 cos x2 sin f 2 x1 sin x2 cos
f1 cos sin f 2 sin x1 Ax cos x2
结论:X的协方差矩阵的最大特征根 位特征向量 即为 1
所对应的单 1
a
并且
1就是F1的方差。
11
, a12 ,, a1 p
X的协方差矩阵的第二大特征根 2所对应的单位特征 2 向量 即为 。并且 就是F2的方差。
a
21
ຫໍສະໝຸດ Baidu
, a22 ,, a2 p
2
4 确定主成分个数
Var ( F1 ) Var ( 1 X ) 1 1
寻找合适的单位向量 1 ,使F1的方差最大。
1 1 (1 1 1) max Q 1
Q 21 211 0 1
Q 21 211 0 1
1 11
Q 2 2 22 2 2 1 0 2
2 2 2 1 0
用 左乘上式,
1
1
2
2 1 1 0 21
0
0
因而 0
2 2 2 0
表明: 对应的单 2 应为 的特征值,而 为与 2 2 位特征向量。
2 而且 Var( F2 ) 2
2 2 2 2
这时 不能再取 1了,应取 2 。
F1 a11 x1 a12 x2 a1 p x p F2 a21 x1 a22 x2 a2 p x p Fp a p1 x1 a p 2 x2 a pp x p
323.4 103.1 S 103.1 187.5
2. 求解特征方程
S I =0
323.4 103.1 S 103.1 187.5
323.4 103.1 0 103.1 187.5
(323.4 )(187.5 ) 103.12 0
A为旋转变换矩阵,它是 正交矩阵,即有
1 A A , AA I
X 11 X 21 X X n1
X1
X2 X p
X 12 X 1 p X 22 X 2 p X n 2 X np
其中
X 1i X 2i Xi X ni
主成分分析
Principal component analysis
•主成分分析的基本思想 •主成分数学模型与几何解释 •主成分的推导 •主成分分析的应用 •主成分回归
§1
基本思想
主成分分析,是一种通过降维来简化数据结构的方法: 把多个变量化为少数几个综合变量(综合指标) ,
而这几个综合变量可以反映原来多个变量的大部分信
表明:1 应为 的特征值,而 为与 1 对应的 1 单位特征向量。
1 而且Var ( F1 ) 1
可见 1 应取
1 1 1
的最大特征根。
如果第一主成分的信息不够,则需要寻找第二主成分。
(二) 第二主成分
X F2 a12 x1 a2 p x p 2
如何计算Σx的特征 根λ和特征向量A?
•Σx的特征根 1, 2,…, p 分别代表主成分F1, F2,……, FP的方差; 且1 2 … p •正交变换矩阵A是 原始变量协方差阵Σx的特征根 对应的特征向量,且满足 A’A=1.
§3主成分的推导
(一) 第一主成分
X F1 a11x1 a1 p x p 1
§2
数学模型与几何解释
假设我们所讨论的实际问题中,有p个指标, 我们把这p个指标看作p个随机变量,记为
X1,X2,…,Xp,
主成分分析就是要把这p个指标的问题,转变为讨论
m 个新的指标
F1,F2,…,Fm (m<p), 按照保留主要信息量的原则充分反映原指标的信息, 并且新的指标之间相互独立、互不相关。
(323.4 132)a21 103.1a22 0 103.1a21 (187.5 132)a22 0
2 a21 a2 1 22
解得: (a21 , a22 ) (0.47,0.88)
4. 得到主成分的表达式
y1 0.88( x1 71.25) 0.47( x2 67.5) 第一主成分:
平移、旋转坐标轴
由图可以看出这n个样本点无论是沿着xl 轴方向或 x2轴方向都具有较大的离散性,其离散的程度可以 分别用观测变量xl 的方差和x2 的方差定量地表示 。显然,如果只考虑xl和x2 中的任何一个,那么包 含在原始数据中的经济信息将会有较大的损失。 如果我们将xl 轴和x2轴先平移,再同时按逆时针方 向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两 个新变量。
寻找合适的单位向量 2 ,使F2的方差最大。
X ) 2 2 max Var ( F2 ) Var ( 2 1 2 2 0 2 11 1 2 1 Cov( F1 , F2 ) 1
2 2 ( 2 2 1) 2 2 1 Q 2
对主成分的要求 上例可见,用总分 有时可以反映原分数表的情况,保留原有信息;
有时则把信息丢尽,不能反映原理的情况和差异。
根据总分所对应的方差可以确定其代表了多大比
例的原始数据(分数)信息。
一般来说,我们希望能用一个或少数几个综合指
标(分数)来代替原来分数表做统计分析,而且希
望新的综合指标能够尽可能地保留原有信息,并具 有最大的方差。
如何将 Σx 转化为 λ并计算出新变量 (主成分)?
因为Σx 为正定对称矩阵,依据线性代数的知识 可知有正交矩阵 A 将Σx 旋转变换为:
1 0 A ΣX A 0 p
λ为协方差阵Σx的特征根﹔ A为协方差阵Σx的特征根所对 应的特征向量。
.9 0 化简得:2 510.9 50007
解得: 1 378.9, 2 132
3.求特征值所对应的单位特征向量
323.4 S 103.1 187.5
a11 1 所对应的单位特征向量 (S 1) 0 ,其中 a 12
二、数学模型 这种由讨论多个指标降为少数几个综合指标的过 程在数学上就叫做降维。主成分分析通常的做法是, 寻求原指标的线性组合Fi。
F1 a11 x1 a12 x2 a1 p x p F2 a21 x1 a22 x2 a2 p x p Fp a p1 x1 a p 2 x2 a pp x p
确定权重系数的过程就可以看作是主成分分 析的过程,得到的加权成绩总和就相对于新的综 合变量——主成分 主成分分析法是一种常用的基于变量协方差矩阵 对信息进行处理、压缩和抽提的有效方法。
为什么要根据方差确定主成分?
情形II下总分的方差为0,显然不能反映三个学生各 科成绩各有所长的实际情形,而红色标记的变量对应 的方差最大,可反映原始数据的大部分信息
a a a 1
2 i1 2 i2 2 ip
主成分之间相互独立,即无重叠的信息。即
Cov(Fi,Fj) 0,i j,i,j 1, 2, ,p
主成分的方差依次递减,重要性依次递减,即
Var(F1) Var ( F2 ) Var ( Fp )
假设p个原始变量的协方差阵为:
息,(85%以上),所含的信息又互不重叠,即各个指 标它们之间要相互独立,互不相关。 主成分分析主要起着降维和简化数据结构的作用。 这些综合变量就叫因子或主成分,它是不可观测的, 即它不是具体的变量,只是几个指标的综合。
例:小学各科成绩的评估可以用下面的综合成绩来
体现:
a1×语文+a2×数学+a3×自然+a4×社会科学
例1 下面是8 个学生两门课程的成绩表
语文 x 100 90 70 70 85 55 55 45 1 数学 x2 65 85 70 90 65 45 55 65
对此进行主成分分析。 1. 求样本均值和样本协方差矩阵
x1 71.25 X 67.5 x 2
(323.4 378.9)a11 103.1a12 0 103.1a11 (187.5 378.9)a12 0
2 2 a11 a12 1
解得 ( a11 , a12 )= (0.88,0.47)
21 22
2 所对应的单位特征向量 (S 2) 0,其中
第二主成分:y2 0.47( x1 71.25) 0.88( x2 67.5) 5.主成分的含义
通过分析主成分的表达式中原变量前的系数来解释 各主成分的含义。
第一主成分F1是 的好坏。
x1和 x 的加权和,表示该生成绩 2
第二主成分F2表示学生两科成绩的均衡性
6. 比较主成分重要性 第一主成分F1的方差为 1 378.9 方差贡献率
一、几何解释
假设有n个样品,每个样品有两个观测变量x l和x 2, 在由变量x l和x 2所确定的二维平面中,n个样本点 所散布的情况如椭圆状。如图所示: x2 F1 F2 • •• • •• • • •• • • • • • • • • • • • • • • • • • • x1 • • •• • • • • •
(1)根据累积贡献率
m 1 2 m /(1 2 p )
m 当 大于某个阈值时( 85%以上),可认为主 成分数目为m。 (2)根据其它准则 * 特征值大于1.0的因子数定为主成分数。 * (公共因子碎石图)利用特征值与因子数目的曲线 ,到某一因子数后,特征值减小幅度变化不大, 此转折点的因子数即为主成分数m。
a11 a21 F a p1 a12 a1 p X 1 a22 a2 p X 2 AX X a p 2 a pp P
这就是正交旋转变换矩阵
满足如下的条件:
每个主成分的系数平方和为1。即
这是个什 么矩阵?
对角线外的元素不 为0意味着什么?
对角线外的元素不全为0,意味着原始变量 x1,x2, …,xp存在相关关系。 如何运用主成分分析将这些具有相关关系的变量 转化为没有相关关系的新变量(主成分)呢?? 新变量之间没有相关关系,则意味着它的方差协 方差阵为对角矩阵:
1 0 0 p
11 12 1P 22 2P X 21 P1 P 2 PP
对角线上的元素 11 , 22 pp 分别代表 x1 , x2 x p的方差; 对角线外的元素 12 21 , 13 31 ,, p 2 2 p , 且不全为0;
Fl轴方向上的离散程度最大,即Fl的方差最大。说明变量Fl代表了原 始数据的绝大部分信息,即使不考虑变量F2也无损大局。
根据旋转变换的公式:
f1 x1 cos x2 sin f 2 x1 sin x2 cos
f1 cos sin f 2 sin x1 Ax cos x2
结论:X的协方差矩阵的最大特征根 位特征向量 即为 1
所对应的单 1
a
并且
1就是F1的方差。
11
, a12 ,, a1 p
X的协方差矩阵的第二大特征根 2所对应的单位特征 2 向量 即为 。并且 就是F2的方差。
a
21
ຫໍສະໝຸດ Baidu
, a22 ,, a2 p
2
4 确定主成分个数
Var ( F1 ) Var ( 1 X ) 1 1
寻找合适的单位向量 1 ,使F1的方差最大。
1 1 (1 1 1) max Q 1
Q 21 211 0 1
Q 21 211 0 1
1 11
Q 2 2 22 2 2 1 0 2
2 2 2 1 0
用 左乘上式,
1
1
2
2 1 1 0 21
0
0
因而 0
2 2 2 0
表明: 对应的单 2 应为 的特征值,而 为与 2 2 位特征向量。
2 而且 Var( F2 ) 2
2 2 2 2
这时 不能再取 1了,应取 2 。
F1 a11 x1 a12 x2 a1 p x p F2 a21 x1 a22 x2 a2 p x p Fp a p1 x1 a p 2 x2 a pp x p
323.4 103.1 S 103.1 187.5
2. 求解特征方程
S I =0
323.4 103.1 S 103.1 187.5
323.4 103.1 0 103.1 187.5
(323.4 )(187.5 ) 103.12 0
A为旋转变换矩阵,它是 正交矩阵,即有
1 A A , AA I
X 11 X 21 X X n1
X1
X2 X p
X 12 X 1 p X 22 X 2 p X n 2 X np
其中
X 1i X 2i Xi X ni
主成分分析
Principal component analysis
•主成分分析的基本思想 •主成分数学模型与几何解释 •主成分的推导 •主成分分析的应用 •主成分回归
§1
基本思想
主成分分析,是一种通过降维来简化数据结构的方法: 把多个变量化为少数几个综合变量(综合指标) ,
而这几个综合变量可以反映原来多个变量的大部分信
表明:1 应为 的特征值,而 为与 1 对应的 1 单位特征向量。
1 而且Var ( F1 ) 1
可见 1 应取
1 1 1
的最大特征根。
如果第一主成分的信息不够,则需要寻找第二主成分。
(二) 第二主成分
X F2 a12 x1 a2 p x p 2
如何计算Σx的特征 根λ和特征向量A?
•Σx的特征根 1, 2,…, p 分别代表主成分F1, F2,……, FP的方差; 且1 2 … p •正交变换矩阵A是 原始变量协方差阵Σx的特征根 对应的特征向量,且满足 A’A=1.
§3主成分的推导
(一) 第一主成分
X F1 a11x1 a1 p x p 1
§2
数学模型与几何解释
假设我们所讨论的实际问题中,有p个指标, 我们把这p个指标看作p个随机变量,记为
X1,X2,…,Xp,
主成分分析就是要把这p个指标的问题,转变为讨论
m 个新的指标
F1,F2,…,Fm (m<p), 按照保留主要信息量的原则充分反映原指标的信息, 并且新的指标之间相互独立、互不相关。
(323.4 132)a21 103.1a22 0 103.1a21 (187.5 132)a22 0
2 a21 a2 1 22
解得: (a21 , a22 ) (0.47,0.88)
4. 得到主成分的表达式
y1 0.88( x1 71.25) 0.47( x2 67.5) 第一主成分:
平移、旋转坐标轴
由图可以看出这n个样本点无论是沿着xl 轴方向或 x2轴方向都具有较大的离散性,其离散的程度可以 分别用观测变量xl 的方差和x2 的方差定量地表示 。显然,如果只考虑xl和x2 中的任何一个,那么包 含在原始数据中的经济信息将会有较大的损失。 如果我们将xl 轴和x2轴先平移,再同时按逆时针方 向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两 个新变量。
寻找合适的单位向量 2 ,使F2的方差最大。
X ) 2 2 max Var ( F2 ) Var ( 2 1 2 2 0 2 11 1 2 1 Cov( F1 , F2 ) 1
2 2 ( 2 2 1) 2 2 1 Q 2
对主成分的要求 上例可见,用总分 有时可以反映原分数表的情况,保留原有信息;
有时则把信息丢尽,不能反映原理的情况和差异。
根据总分所对应的方差可以确定其代表了多大比
例的原始数据(分数)信息。
一般来说,我们希望能用一个或少数几个综合指
标(分数)来代替原来分数表做统计分析,而且希
望新的综合指标能够尽可能地保留原有信息,并具 有最大的方差。
如何将 Σx 转化为 λ并计算出新变量 (主成分)?
因为Σx 为正定对称矩阵,依据线性代数的知识 可知有正交矩阵 A 将Σx 旋转变换为:
1 0 A ΣX A 0 p
λ为协方差阵Σx的特征根﹔ A为协方差阵Σx的特征根所对 应的特征向量。
.9 0 化简得:2 510.9 50007
解得: 1 378.9, 2 132
3.求特征值所对应的单位特征向量
323.4 S 103.1 187.5
a11 1 所对应的单位特征向量 (S 1) 0 ,其中 a 12
二、数学模型 这种由讨论多个指标降为少数几个综合指标的过 程在数学上就叫做降维。主成分分析通常的做法是, 寻求原指标的线性组合Fi。
F1 a11 x1 a12 x2 a1 p x p F2 a21 x1 a22 x2 a2 p x p Fp a p1 x1 a p 2 x2 a pp x p
确定权重系数的过程就可以看作是主成分分 析的过程,得到的加权成绩总和就相对于新的综 合变量——主成分 主成分分析法是一种常用的基于变量协方差矩阵 对信息进行处理、压缩和抽提的有效方法。
为什么要根据方差确定主成分?
情形II下总分的方差为0,显然不能反映三个学生各 科成绩各有所长的实际情形,而红色标记的变量对应 的方差最大,可反映原始数据的大部分信息
a a a 1
2 i1 2 i2 2 ip
主成分之间相互独立,即无重叠的信息。即
Cov(Fi,Fj) 0,i j,i,j 1, 2, ,p
主成分的方差依次递减,重要性依次递减,即
Var(F1) Var ( F2 ) Var ( Fp )
假设p个原始变量的协方差阵为:
息,(85%以上),所含的信息又互不重叠,即各个指 标它们之间要相互独立,互不相关。 主成分分析主要起着降维和简化数据结构的作用。 这些综合变量就叫因子或主成分,它是不可观测的, 即它不是具体的变量,只是几个指标的综合。
例:小学各科成绩的评估可以用下面的综合成绩来
体现:
a1×语文+a2×数学+a3×自然+a4×社会科学
例1 下面是8 个学生两门课程的成绩表
语文 x 100 90 70 70 85 55 55 45 1 数学 x2 65 85 70 90 65 45 55 65
对此进行主成分分析。 1. 求样本均值和样本协方差矩阵
x1 71.25 X 67.5 x 2
(323.4 378.9)a11 103.1a12 0 103.1a11 (187.5 378.9)a12 0
2 2 a11 a12 1
解得 ( a11 , a12 )= (0.88,0.47)
21 22
2 所对应的单位特征向量 (S 2) 0,其中
第二主成分:y2 0.47( x1 71.25) 0.88( x2 67.5) 5.主成分的含义
通过分析主成分的表达式中原变量前的系数来解释 各主成分的含义。
第一主成分F1是 的好坏。
x1和 x 的加权和,表示该生成绩 2
第二主成分F2表示学生两科成绩的均衡性
6. 比较主成分重要性 第一主成分F1的方差为 1 378.9 方差贡献率
一、几何解释
假设有n个样品,每个样品有两个观测变量x l和x 2, 在由变量x l和x 2所确定的二维平面中,n个样本点 所散布的情况如椭圆状。如图所示: x2 F1 F2 • •• • •• • • •• • • • • • • • • • • • • • • • • • • x1 • • •• • • • • •
(1)根据累积贡献率
m 1 2 m /(1 2 p )
m 当 大于某个阈值时( 85%以上),可认为主 成分数目为m。 (2)根据其它准则 * 特征值大于1.0的因子数定为主成分数。 * (公共因子碎石图)利用特征值与因子数目的曲线 ,到某一因子数后,特征值减小幅度变化不大, 此转折点的因子数即为主成分数m。
a11 a21 F a p1 a12 a1 p X 1 a22 a2 p X 2 AX X a p 2 a pp P
这就是正交旋转变换矩阵
满足如下的条件:
每个主成分的系数平方和为1。即