主成分分析原理——数学建模竞赛
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
于是,称 F1 为第一主成分, F2 为第二主成分,依此类推,有第 p 个主成分。主成分又
叫主分量。这里 aij 我们称为主成分系数。
上述模型可用矩阵表示为:
F AX ,其中
F1
F
F2
Fp
x1
X
x2
x p
a11 a12 a1p a1
A
a21
a22
a2
变量的信息,这里“信息”用方差来测量,即希望Var (F1 ) 越大,表示 F1 包含的信息越多。
因此在所有的线性组合中所选取的 F1 应该是方差最大的,故称 F1 为第一主成分。如果第一
主成分不足以代表原来 p 个变量的信息,再考虑选取 F2 即第二个线性组合,为了有效地反
映 原 来 信 息 , F1 已 有 的 信 息 就 不 需 要 再 出 现 在 F2 中 , 用 数 学 语 言 表 达 就 是 要 求
Cov(F1, F2 ) 0 ,称 F2 为第二主成分,依此类推可以构造出第三、四„„第 p 个主成分。
(二)主成分分析的数学模型
对于一个样本资料,观测 p 个变量 x1, x2,xp , n 个样品的数据资料阵为:
x11 x12 x1p
X
x21
x22
x2 p
x1, x2 ,x p
Fj j1x1 j2 x2 jp x p
j 1,2,, p
要求模型满足以下条件:
① Fi , Fj 互不相关( i j , i, j 1,2,, p )
② F1 的方差大于 F2 的方差大于 F3 的方差,依次类推
③ ak12 ak22 akp2 1 k 1,2, p .
sin 2 cos2 1。
经过旋转变换后,得到下图的新坐标:
图 7.2 主成分几何解释图
新坐标 y1 y2 有如下性质: (1) n 个点的坐标 y1 和 y2 的相关几乎为零。 (2)二维平面上的 n 个点的方差大部分都归结为 y1 轴上,而 y2 轴上的方差较小。 y1 和 y2 称为原始变量 x1 和 x2 的综合变量。由于 n 个点在 y1 轴上的方差最大,因而将 二维空间的点用在 y1 轴上的一维综合变量来代替,所损失的信息量最小,由此称 y1 轴为第 一主成分, y2 轴与 y1 轴正交,有较小的方差,称它为第二主成分。
一个系统的营运状态往往需要综合考察许多营运变量,例如对某一类企业的经济效益作评 估,影响经济效益的变量很多,很难直接比较其优劣,所以解决评估问题的焦点是希望客观、 科学地将一个多变量问题综合成一个单变量形式,也就是说只有在一维空间中才能使排序评 估成为可能,这正符合主成分分析的基本思想。在经济统计研究中,除了经济效益的综合评 价研究外,对不同地区经济发展水平的评价研究,不同地区经济发展竞争力的评价研究,人 民生活水平、生活质量的评价研究,等等都可以用主成分分析方法进行研究。
xn1 xn2 xnp
x1 j
其中: x j
x2
j
,
xnj
j 1,2, p
主成分分析就是将 p 个观测变量综合成为 p 个新的变量(综合变量),即
简写为:
F1 a11x1 a12x2 a1p x p
F2
a21x1
a22x2
a2p xp
Fp a p1x1 a p2 x2 a pp x p
第一节 主成分分析的原理及模型
一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想
主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使 这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变 量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的 相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组 合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?
如果将选取的第一个线性组合即第一个综合变量记为 F1 ,自然希望它尽可能多地反映原来
p
a2
a p1 a p2 a pp a p
A 称为主成分系数矩阵。
二、主成分分析的几何解释
假设有 n 个样品,每个样品有二个变量,即在二维空间中讨论主成分的几何意义。设 n
个样品在二维空间中的分布大致为一个椭园,如下图所示:
图 7.1 主成分几何解释图
将坐标系进行正交旋转一个角度 ,使其椭圆长轴方向取坐标 y1 ,在椭圆短轴方向取 坐标 y2 ,旋转公式为
y1 j x1 j cos x2 j sin
y
2
j
x1 j ( sin ) x2 j
cos
j 1,2n
写成矩阵形式为: Y
y11
y
21
y12 y22
y1n
y2n
ຫໍສະໝຸດ Baidu
cos sin
sin cos
x11 x21
x12 x22
x1n x2n
U
X
其 中 U 为坐标旋转变换矩阵,它是正交矩阵,即有 U U 1,UU I ,即满足
三、主成分分析的应用 主成分概念首先是由 Karl parson 在 1901 年引进,但当时只对非随机变量来讨论的。 1933 年 Hotelling 将这个概念推广到随机变量。特别是近年来,随着计算机软件的应用,
使得主成分分析的应用也越来越广泛。 其中,主成分分析可以用于系统评估。系统评估是指对系统营运状态做出评估,而评估
在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之 间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问 题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多 数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进 行主成分分析。
第七章 主成分分析
(一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思 想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析 方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3 课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤