数学建模主成分分析方法
大学生数学建模-主成分分析方法
要点三
结合深度学习技术
随着深度学习技术的不断发展,为主 成分分析方法提供了新的思路和方法 。未来研究可以关注如何将深度学习 技术与主成分分析方法相结合,构建 更加高效、准确的模型,以应对更加 复杂的问题和挑战。
THANKS FOR WATCHING
感谢您的观看Βιβλιοθήκη 案例背景介绍案例来源
本案例来自某高校数学建模竞赛,旨在通过主成 分分析方法对一组多维数据进行降维处理。
数据特点
原始数据集包含多个特征,且特征之间存在相关 性,数据维度较高。
建模目标
通过主成分分析,提取数据中的主要特征,降低 数据维度,以便进行后续的数据分析和建模。
数据采集与预处理
数据采集
01
从相关数据源获取原始数据集,确保数据的完整性和准确性。
简化数据结构
主成分分析能够将多个相关变量 转化为少数几个综合变量,简化 数据结构,方便后续分析和建模。
应用于多个领域
主成分分析方法在经济学、金融 学、社会学、医学等多个领域都 有广泛应用,为相关领域的研究 提供了有力支持。
主成分分析方法的概述
01 02
线性变换方法
主成分分析通过线性变换将原始数据转换为新的坐标系,使得新坐标系 下的各主成分之间互不相关,且第一主成分解释原始数据变异的能力最 强,后续主成分依次减弱。
大学生数学建模-主成分分析方法
目录
• 引言 • 主成分分析方法的基本原理 • 主成分分析方法在大学生数学建模中
的应用 • 主成分分析方法的优缺点及适用范围
目录
• 案例分析:基于主成分分析的大学生 数学建模实践
• 总结与展望
01 引言
目的和背景
探究数据内在结构
主成分分析是一种常用的多元统 计方法,通过降维技术探究数据 内在结构,揭示变量之间的关系。
大学生数学建模——主成分分析方法页PPT文档
从以上的分析可以看出,主成分分析的
实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的荷载 lij ( i=1,2,…,m; j=1,2 ,…,p)。
从数学上容易知道,从数学上可以证明,
它们分别是的相关矩阵的m个较大的特征值所 对应的特征向量。
二、计算步骤
1540.29 926.35 1501.24 897.36 911.24 103.52 968.33 957.14 824.37 1255.42 1251.03 1246.47 814.21 1124.05 805.67 1313.11
216.39 291.52 225.25 196.37 226.51 217.09 181.38 194.04 188.09 211.55 220.91 242.16 193.46 228.44 175.23 236.29
65.601 1181.54 270.12 18.266 0.162 7.474 12.489
33.205 1436.12 354.26 17.486 11.805 1.892 17.534
16.607 1405.09 586.59 40.683 14.401 0.303 22.932
6 68.337 7 95.416 8 62.901 9 86.624 10 91.394 11 76.912 12 51.274 13 68.831 14 77.301 15 76.948 16 99.265 17 118.505 18 141.473 19 137.761 20 117.612 21 122.781
人) 295.34
x 6:经济 作物占农 作物面积 比例(%)
26.724
x 7:耕地 占土地面 积比率
主成分分析数学建模
(Σ I)T2 0
(11)
而且 T2ΣT2
(12)
这样说明,如果 X 的协差阵 Σ 的特征根为 1 2 p 0 。
由(12)知道 Y2 的最大方差值为第二大特征根 2 ,其相应的单位化
的特征向量为 T2 。
针 对 一 般 情 形 , 第 k 主 成 分 应 该 是 在 TkTk 1 且 TkTi 0 或
2 (T2 , , ) T2ΣT2 (T2T2 1) 2 (T1T2 )
(9)
对目标函数2 (T2 , , ) 求导数有:
2
T2
2ΣT2
2T2
2T1
0
(10)
用 T1 左乘(10)式有
T1ΣT2 T1T2 T1T1 0
由于 T1ΣT2 0 , T1T2 0 ,那么, T1T1 0 ,即有 0 。从而
TiTk 0 ( i k ) 的 条 件 下 , 使 得 D(Yk ) TkΣTk 达 到 最 大 的
Yk TkX 。这样我们构造目标函数为
k (Tk , , i )
TkΣTk
(TkTk
1)
k 1
2
i
(TiTk
)
i 1
对目标函数k (Tk , , i ) 求导数有:
k
Tk
2ΣTk
2Tk
p
k k
k
k 1
(23)
为第 k 个主成分 Yk 的贡献率。第一主成分的贡献率最大,这表
明 Y1 T1X 综 合 原 始 变 量 X1, X 2 , , X p 的 能 力 最 强 , 而
Y2 ,Y3 , ,Yp 的综合能力依次递减。若只取 m( p) 个主成分,
则称
m
p
m k
数学建模方法-主成分分析和MATLAB应用
1 0.55341 0.51434 0.51538 0.4688 8 0.73562 0.71214
1
0.98793 0.9776 0.97409 0.68282 0.7 8019
1
0.98071 0.9798 0 .69735 0.77306
1
0.99235 0.6266 3 0.78718
X j e1 jY1 e2 jY2 e pjYp , Cov(Yi , X j ) ieij .
由此可得 Yi 与 Xj 的相关系数为
Yi ,X j
Cov(Yi , X j ) Var(Yi ) Var( X j )
ieij i jj
i jj
eij
24.423 36.283
36.283 56.046
49.146 75.404
3.67 47 38.718 5.0022 59.723
71.672 29.029 49.278 49.146 75.404 103.02 6.82 15 74.523
8.602 4.7846 3.629 3.6747 5.0022 6.8215 1.137 6 .7217
i* 的正
交单位特征向量。
第 i 个主成分的贡献率: i* ; p
m
i*
前 m 个主成分的累计贡献率: i1 ; p
Yi*
与
X
* i
的相关系数为
Yi*
,
X
* j
* i
ei*j
。
二、样本主成分 前面讨论的是总体主成分,但在实际问题中,一般 (或 )是未知的,需要通
过样本来估计。设
xi ( xi1, xi 2 , ..., xip )T , i 1, 2, ..., n.
主成分分析(数学建模)
主成分分析
每个人都会遇到有很多变量的数据。
比如全国或各个地区的带有许多经济和社会变 量的数据;各个学校的研究、教学等各种变量 的数据等等。
这些数据的共同特点是变量很多,在如此多的 变量之中,有很多是相关的。人们希望能够找 出它们的少数“代表”来对它们进行描述。
本章就介绍两种把变量维数降低以便于描述、 理 解 和 分 析 的 方 法 : 主 成 分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor analysis)。实际上主成分分析可以说是因子 分析的一个特例。在引进主成分分析之前,先 看下面的例子。
• 这里的Initial Eigenvalues就是这里的六个
主轴长度,又称特征值(数据相关阵的特
征值)。头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。
• 特征值的贡献还可以从SPSS的所谓碎石图看出
Scree Plot
4
3
2
1
0
1
2
3
4
5
6
Component Number
现:
1.analyze-description statisticdescription-save standardized as variables
2.analyze-data reduction-factor 3.指定参与分析的变量 4.运行factor 过程
• 对于我们的数据,SPSS输出为
成绩数据(student.sav)
100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
从本例可能提出的问题
目前的问题是,能不能把这个数据的6 个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信 息呢? 能不能利用找到的综合变量来对学生排 序呢?这一类数据所涉及的问题可以推 广到对企业,对学校进行分析、排序、 判别和分类等问题。
主成分分析操作详细步骤
主成分分析操作详细步骤1.去除均值:对于给定的数据集,先计算每个特征的均值,然后将原始数据减去均值,即进行去均值处理。
这样可以使得数据的中心位于原点附近。
2.计算协方差矩阵:对去均值后的数据集,计算其协方差矩阵。
协方差矩阵描述了各个特征之间的相互关系。
协方差可以通过以下公式计算:cov(X,Y) = Σ((X-μ_X)(Y-μ_Y)) / (n-1)其中,X和Y分别是两个特征向量,μ_X和μ_Y是它们的均值,n 是样本数。
协方差矩阵是一个对称矩阵,对角线上的元素是各个特征的方差。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,可以得到特征值和对应的特征向量。
特征值表示了数据在特征向量方向上的方差,而特征向量则表示了数据在这个方向上的投影。
特征值和特征向量是成对出现的,每个特征值对应一个特征向量。
4.选择主成分:根据特征值的大小,选择前k个特征值对应的特征向量作为主成分。
这些主成分具有较大的特征值,表示数据在这些方向上的方差较大,所以选择这些主成分可以保留较多的数据信息。
5.数据映射:将原始的数据集映射到选取的主成分所构成的低维空间中。
对于一个样本,可以通过将其与各个主成分进行内积运算,得到其在主成分上的投影。
这样就将高维数据转换为低维数据。
6.可视化和解释:对于得到的低维数据,可以进行可视化展示,以了解数据的分布和结构。
同时,可以通过解释各个主成分的特征向量,来理解数据在不同维度上的重要特征。
7.降维应用:降维后的数据可以应用于其他任务,如数据挖掘、分类、聚类等。
由于降维后的数据具有较低的维度,所以可以提高计算效率,并且可能减小过拟合问题。
需要注意的是,主成分分析假设数据服从线性分布,并且对数据的方差敏感。
因此,在进行主成分分析之前,需要对原始数据进行归一化处理,以避免量纲对结果的影响。
另外,主成分分析还可以通过计算解释方差比例,来评估选择的主成分个数是否合适。
如果选择的主成分个数能够解释大部分的方差,那么可以认为降维后的数据已经保留了原始数据的主要信息。
数学建模优秀课件之主成分分析
1 2 , p 0
2.求出的特征向量:每一个特征值对应的特征向量,由此可 以得出第一,二,第三主成分表达式
四、计算主成分贡献率及累计贡献率
1.贡献率:
i
p
k
k 1
(i 1,2,, p)
2.累计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)
如果累计贡献率超过了0.85,则说明前k个主成分基本包括了全部指标具 有的信息,因此可以只选前k个成分来分析
X
(X1, X 2,...,X P )
x21
...
x22 ...
... x2p
...
...
xn1 xn2 ... xnp
定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p) 为新变量指标
z1 l11x1 l12 x2 l1p xp
z2
l21x1
l22 x2
将“成分矩阵”表中每一列值分别除以特征值的开方,就得 z
出了每一个特征值对应的特征向量,由此可以得出第一,第二, 第三主成分表达式(令各因素为X1,X2……X8)
z1=0.4567*X1+0.4095*X2+0.8274*X3+0.735*X4+1.053*X51.37*X6-2.4318*X7+6.72*X8
rpp
rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为:
rij
n
( xki xi )(xkj x j )
k 1
n
n
( xki xi )2 ( xkj x j )2
【算法系列】主成分分析的数学模型
【算法系列】主成分分析的数学模型定义主成分分析又称主分量分析或主轴分析,是将多个指标化为少数几个综合指标的一种多元统计分析方法.从数学角度来看,这是一种降维处理技术。
通常把转化生成的综合指标称之为主成分。
主成分分析基本思想在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每个样本往往要观测它的很多指标,少到四、五项,多则几十项。
例如:人口普查往往要调查每个人的姓名、年龄、性别、文化程度、职业、住房等几十项指标。
从搜集资料的角度看,多记录几项可以避免重要信息的遗漏,但是由于这些指标从统计角度来看相互之间有一定的依赖关系,因而使得所观测的数据在一定程度上反映的信息有所重叠。
因此,从统计分析或推断的角度来说,人们总是希望能把大量的原始指标组合成较少的几个综合指标,从而使分析简化。
这些综合指标的变化要能大体上反映样本全部指标的变化,而不丧失或者只丧失很少一部分原始指标所提供的信息。
例如:一个人的身材需要用好多项指标才能完整地描述,诸如身高、臂长、腿长、肩宽、胸围、腰围、臀围等等,但人们购买衣服时一般只用长度和肥瘦两个指标就够了,这里长度和肥瘦就是描述人体形状的多项指标组合而成的两个综合指标。
主成分分析的一般数学模型1、通常,一些变量具有不同的量纲,有的变量值数量级上也有很大差异,在应用主成分分析研究实际问题时,不同的量纲和数量级会引出新的问题;为了消除由于量纲的不同可能带来的一些不合理的影响,在进行主成分分析之前先对数据进行标准化处理。
2、为了方便,将数据标准化后的矩阵仍用原来的x记,考虑它的线性变换——新的综合变量由原来的变量x1,x2,…,xP线性表示,即:由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量y的统计特性也不尽相同。
假如我们希望用y1来代替原来的p个变量x1,x2,…,xP,这就要求y1尽可能多地反映原来p个变量的信息,即希望y1是x1,x2,…,xP的一切线性函数中方差最大的。
数学建模中的主成分分析法
Science &Technology Vision 科技视界全国大学生数学建模竞赛,已经成为许多高校学生课外科技活动的重要项目,人们也越来越关注数学建模竞赛。
数学规划、微分方程、图论等是较为常见的建模方法。
而近年来,越来越多的数据处理题目出现在数学建模竞赛当中,数据处理的任务是降低数据的维数,保留数据的有用信息。
主成分分析法作为一种主要的数据处理方法,能够提取变量信息,减少分析的维度,使问题变得更简单、直观。
因此,尽快掌握主成分分析法的基本知识,显得尤为迫切。
下面介绍主成分分析法的基本知识,利用主成分分析法的思想方法建立数学模型。
1主成分分析的基本思想和数学模型1.1主成分分析简介主成分这个概念由美国统计学家Karl Pearson 在1901年提出,当时只是进行了非随机变量的讨论。
是从多指标分析出发,运用统计分析原理与方法提取少数几个彼此不想关的综合性指标而保持其原指标所提供的大量信息的一种统计方法。
1933年Hotelling 则将此概念推广到了随机变量中。
主成分分析的原理,是以较少数的综合变量取代原有的多维变量,使数据结构简化,把原指标综合成较少几个主成分,再以这几个主成分的贡献率为权数进行加权平均,构造出一个综合评价函数。
作为一种多指标分析方法,在综合评价函数中,各主成分的权术为其贡献率,它反映了该主成分包含原数据的信息量占全部信息量的比重,这样确定权术是客观、合理的,它克服了某些评价方法中人为确定权术的缺陷,这种方法的计算比较规范,便于在计算机上实现。
1.2主成分分析基本思想在许多实际问题中,为了全面系统的反应问题,我们通常用多个变量来刻画某一事物,但由于这些变量间具有较强的相关关系,变量间存在大量的重复信息,直接用它们分析问题时,往往会引起极大的误差。
因此人们希望用较少的新指标代替原来较多的旧变量,同时要求这些新指标尽可能的反应原来的信息。
一般来说,主成分与原始变量之间的关系:(1)各主成分都是原始变量的线性组合。
主成分分析PCA(含有详细推导过程以和案例分析matlab版)
主成分分析法(PCA)在实际问题中.我们经常会遇到研究多个变量的问题.而且在多数情况下.多个变量之间常常存在一定的相关性。
由于变量个数较多再加上变量之间的相关性.势必增加了分析问题的复杂性。
如何从多个变量中综合为少数几个代表性变量.既能够代表原始变量的绝大多数信息.又互不相关.并且在新的综合变量基础上.可以进一步的统计分析.这时就需要进行主成分分析。
I. 主成分分析法(PCA)模型(一)主成分分析的基本思想主成分分析是采取一种数学降维的方法.找出几个综合变量来代替原来众多的变量.使这些综合变量能尽可能地代表原来变量的信息量.而且彼此之间互不相关。
这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
主成分分析所要做的就是设法将原来众多具有一定相关性的变量.重新组合为一组新的相互无关的综合变量来代替原来变量。
通常.数学上的处理方法就是将原来的变量做线性组合.作为新的综合变量.但是这种组合如果不加以限制.则可以有很多.应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F .自然希望它尽可能多地反映原来变量的信息.这里“信息”用方差来测量.即希望)(1F Var 越大.表示1F 包含的信息越多。
因此在所有的线性组合中所选取的1F 应该是方差最大的.故称1F 为第一主成分。
如果第一主成分不足以代表原来p 个变量的信息.再考虑选取2F 即第二个线性组合.为了有效地反映原来信息.1F 已有的信息就不需要再出现在2F 中.用数学语言表达就是要求0),(21 F F Cov .称2F 为第二主成分.依此类推可以构造出第三、四……第p 个主成分。
(二)主成分分析的数学模型 对于一个样本资料.观测p 个变量p x x x ,,21.n 个样品的数据资料阵为:⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n n p p x x x x x x x x x X 212222111211()p x x x ,,21=其中:p j x x x x nj j j j ,2,1,21=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=主成分分析就是将p 个观测变量综合成为p 个新的变量(综合变量).即⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=ppp p p p pp p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为:p jp j j j x x x F ααα+++= 2211p j ,,2,1 =要求模型满足以下条件:①j i F F ,互不相关(j i ≠.p j i ,,2,1, =) ②1F 的方差大于2F 的方差大于3F 的方差.依次类推 ③.,2,1122221p k a a a kp k k ==+++于是.称1F 为第一主成分.2F 为第二主成分.依此类推.有第p 个主成分。
数学建模案例分析—主成分分析的应用--概率统计方法建模
§8 主成分分析的应用主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。
即在尽可能少丢失信息的前提下从所研究的m 个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。
设有n 个样品,m 个变量(指标)的数据矩阵(1)11121(2)21222()12m m n mn n n nm x x x x x x x x X x x x x ⨯⎛⎫⎛⎫⎪ ⎪ ⎪⎪== ⎪⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭寻找k 个新变量12,,,()k y y y k m ≤ ,使得 1、1122,(1,2,,)l l l lm m y a x a x a x l k =+++= 2、12,,k y y y 彼此不相关这便是主成分分析。
主成分的系数向量12(,,,)l l l lm a a a a = 的分量lj a 刻划出第j 个变量关于第l 个主成分的重要性。
可以证明,若12(,,,)T m x x x x = 为m 维随机向量,它的协方差矩阵V 的m 个特征值为120m λλλ≥≥≥≥ ,相应的标准正交化的特征向量为12,,,m u u u ,则12(,,,)T m x x x x = 的第i 主成分为(1,2,,)T i i y u x i m == 。
称1/mi jj λλ=∑为主成分(1,2,,)Ti i y u x i m == 的贡献率,11/k mj jj j λλ==∑∑为主成分12,,k y y y 的累计贡献率,它表达了前k 个主成分中包含原变量12,,,m x x x 的信息量大小,通常取k 使累计贡献率在85%以上即可。
当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。
主成分分析的数学模型
一、主成分分析的数学模型假设原来的变量指标为X1,X2…,X k经过标准化后得到标准指标变量X1,X2,…,X K;X j=X j−X js j,j=1,2…,k其中X j是第j个指标变量的均值,s j是第j个指标变量的标准差。
他们的综合指标(新变量指标)为z1,z2,…,z m(m<=k),则进行线性变换:z1=l11X1+l12X2+⋯+l1k X K z2=l21X1+l22X2+⋯+l2k X K z m=l k1X1+l k2X2+⋯+l k k X K将k个标准变量X1,X2,…,X K转换成了k个新变量z1,z2,…,z m,但是线性变换应满足以下三个条件:●z i和z j独立,i≠j,i,j=1,2,…,k;●vaX(z1)≥vaX(z2)≥…≥vaX(z k) ;●l i12+l i22+⋯+l ik2=1,i=1,2,…,k;z1,z2,…,z m是X1,X2,…,X K的k个主成分,其中z1为第一主成分,z2为第二主成分,z k为第k主成分,称l i j为第i主成分在第j个标准指标量X j上的得分系数,将每一个样本的标准化观察值代入计算公式中,计算得每一个样本的k个主成分值,即为主成分得分。
二、主成分分析的方法步骤主成分分析的过程就是确定原来的变量X j(j=1,2,…,k)在个主成分z j(j=1,2,…,k)上的载荷l i j(i,j=1,2,…,k)。
从主成分分析的数学模型可以看出,主成分分析的任务是估计主成分,确定主成分的个数,解释主成分的实际意义和计算主成分得分。
假设有k个指标X1,X2…,X k,每个指标有n个观测值,它们的标准化变量是X1,X2,…,X K,记录如下表所示计算步骤如下:(1)对原始指标数据进行标准化变换:X ij=X ij−X js j,j=1,2,…,k将原始数据标准化,然后利用标准化的数据计算主成分,X为标准化后的数据矩阵,则:X=X11X12⋯X k1 X21X22⋮⋯X2k⋮X n1X n2⋯X nk(2)计算相关系数矩阵:R=Cov(X)=r11r12⋯rk1r21r22⋮⋯r2k⋮r k1r k2⋯rkk=1r12⋯r k1r211⋮⋯r2k⋮r k1r k2⋯1其中, r i j =(X ki −X)(k ij −X )n k =1 (X ki −X i)2n k =1 (X kj −X j )2n k =1(3) 计算相关矩阵的特征值和特征值所对应的特征向量:Cov (X )L=LV ar (Z 1)0V ar (Z 1)⋱0V ar (Z k )其中,L=l 11r 12⋯ l k 1l 21r 22⋮⋯l 2k ⋮l k 1r k 2⋯l kk由于R 为半正定矩阵,故可由R 的特征方程R −λI =0求得k 个非负特征值λi (i=1,2,…,k )将这些值按从大到小排序为 λ1≥λ2≥…≥λk ≥0 再由 R −λ1I l i =0l i ′l i =1i=1,2,…,k解得每一个特征值对应的特征向量l i =(l i 1,l i 2,…,l ik )′,从而求得各主成分:Z i =l i ′X=l i 1X 1+l i 2X 2+⋯+l i k X K ,i=1,2,…,k (4) 计算主成分贡献率及累计贡献率 各个主成分互不相关,即z i 和z j 的相关系数:r z i ,z j =i i Cov Z i ,Z i .Cov (Z j ,Z j )=0(i ≠j)于是各相关系数的矩阵为单位矩阵。
数学建模主成分分析
§3主成分的推导 (一) 第一主成分
F 1a 1x 1 1 a 1pxp1 X
例:小学各科成绩的评估可以用下面的综合成绩来 体现:
a1×语文+a2×数学+a3×自然+a4×社会科学 确定权重系数的过程就可以看作是主成分分
析的过程,得到的加权成绩总和就相对于新的综 合变量——主成分
主成分分析法是一种常用的基于变量协方差矩阵 对信息进行处理、压缩和抽提的有效方法。
为什么要根据方差确定主成分?
如何将 Σx 转化为 λ并计算出新变量
(主成分)?
因为Σx 为正定对称矩阵,依据线性代数的知识 可知有正交矩阵 A 将Σx 旋转变换为:
AΣXA 1
0
0 p
λ为协方差阵Σx的特征根﹔ A为协方差阵Σx的特征根所对
应的特征向量。
如何计算Σx的特征 根λ和特征向量A?
主成分分析
Principal component analysis
•主成分分析的基本思想 •主成分数学模型与几何解释 •主成分的推导 •主成分分析的应用 •主成分回归
§1 基本思想
主成分分析,是一种通过降维来简化数据结构的方法: 把多个变量化为少数几个综合变量(综合指标) , 而这几个综合变量可以反映原来多个变量的大部分信 息,(85%以上),所含的信息又互不重叠,即各个指 标它们之间要相互独立,互不相关。 主成分分析主要起着降维和简化数据结构的作用。 这些综合变量就叫因子或主成分,它是不可观测的, 即它不是具体的变量,只是几个指标的综合。
数学建模主成分分析方法
主成分分析方法地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
一、主成分分析的基本原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n 个地理样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的地理数据矩阵:111212122212p p n n npx x x x x x X x x x ⎧⎪⎪=⎨⎪⎪⎩ (1)如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm (m≤p)。
则 11111221221122221122,,.........................................,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ (2)在(2)式中,系数l ij 由下列原则来决定:(1)z i 与z j (i≠j ;i ,j=1,2,…,m)相互无关;(2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m -1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。
数学建模-主成分分析法模板
根据主成分分析的方法,分析……的数据。
步骤如下:Step 1:为了消除不同变量的量纲的影响,首先需要对变量进行标准化,设检测数据样本共有n 个,指标共有p 个,分别设1X ,2X ,p X ,令ij X (i=1,2,…,n;j=1,2,…,p)为第i 个样本第j 个指标的值。
作变换)Var(X )E(X X Y j j j j -=(j=1,2,…,p)得到标准化数据矩阵jjij ij s x x y -=,其中∑==i 1i ij j x n 1x ,∑=-=n 1i 2j ij 2j )x x (n 1sStep 2:在标准化数据矩阵p n ij )y (Y ⨯=的基础上计算p 个原始指标相关系数矩阵其中,∑∑∑===----=n1k n1k 2j k j 2i k in1k j k j i k iij )x x ()x x()x x )(x x(r (i,j=1,2,…,p)Step 3:求相关系数矩阵R 的特征值并排序0p 21≥λ≥≥λ≥λ ,再求出R 的特征值相应的正则化特征向量)e ,,e ,e (e ip i21i i =,则第i 个主成分表示为各指标k X 的组合∑=⋅=p1i k ik i X e Z 。
Step 4:计算累积贡献率确定主成分的数目。
主成分i Z 的贡献率为 累计贡献率为一般取累计贡献率达85%~95%的特征值m 21,,,λλλ 所对应的第1、第2,…,第m (m ≤p )个主成分。
Step 5:计算主成分载荷,确定综合得分。
当主成分之间不相关时,主成分载荷是主成分和各指标的相关系数,相关系数越大,说明主成分对该指标变量的代表性就越好,计算公式为 Step 6:各主成分的得分,确定综合评分函数。
得到各主成分的载荷以后,可以计算各主成分的得分)p ,,2,1i (p1k ki1k k =λλ∑∑==⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡==⨯nm 2n 1n m 22221m 11211mn ij z z z z z z z z z )z (Z ,其中ij z 表示第i 个样本第j 个主成分得分,则第i 个样本的综合得分∑=⋅=m1k ik k i z w f (i=1,2,…,n);附件中共有 28 个月的数据,这里仅随机选择 2005 年 4 月的数据来说明利 分析进行水质综合评价的过程(同理可进行其他月份的数据分析)。
主成分分析(数学建模)
1 0
UAU
0
2
0
0
0
0
p
PP
上述矩阵的特征根所对应的单位特征向量为 u1,,up
则U为
u11 u12 u1p
U
(u1
,, up
)
u21
u22
u2
p
u p1
up2
u
pp
实对称阵A属于不同特征根所对应的特征 向量是正交的,即有
UU UU I
二、主成分的推导
(一) 第一主成分
设X的协方差阵为
2 1
12
1p
Σx
21
2 2
2
p
p1
p2
2 p
由于Σ x为非负定的对称阵,则有利用 线性代数的知识可得,必存在正交阵U,使
得
1
0
UΣX
U
集中到Fl轴上,对数据中包含的信息起到了浓 缩作用。
上述坐标的旋转和平移可用公式表示如下:
定义:如果n阶实矩阵A满足: 则A是正交矩阵,其中E为单位矩阵
Fl,F2除了可以对包含在Xl,X2中的信息起着 浓缩作用之外,还具有不相关的性质,这就使得 在研究复杂的问题时避免了信息重叠所带来的虚 假性。二维平面上的个点的方差大部分都归结在 Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变 量x1和x2的综合变量。F简化了系统结构,抓住了 主要矛盾。
F1
数模第16讲主成分分析
Y 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
X1 2297.86 2262.19 2303.29 2308.70 2337.65 2418.96 2702.34 3015.32 3135.65 3415.92
X2 589.62 571.69 589.99 551.14 589.28 618.60 735.01 779.68 849.53 1038.98
二、主成分分析法
设有 p 项指标 X1 , X 2 ,……, X p ,每个指标有 n 个观
测数据,得到原始数据资料矩阵
x11 x12 x1p
X
x21x22 ຫໍສະໝຸດ x2 p(
X1
,
X 2 ,,
Xp)
xn1 xn2 xnp
x1i
Xi
x2i
xni
i 1, 2,, p
用矩阵 X 的 p 个向量 X1, X 2 ,, X p 作线性组合为:
主成分分析过程
(1)录入原始数据
X=[2297.86 589.62 474.74 2262.19 571.69 461.25 2303.29 589.99 516.21 2308.70 551.14 476.45 2337.65 589.28 509.82 2418.96 618.60 454.20 2702.34 735.01 475.36 3015.32 779.68 474.15 3135.65 849.53 583.50 3415.92 1038.98 615.74
164.19 185.90 236.55 293.23 334.05 429.60 459.69 537.95 629.32 705.72
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主
成分分析方法
地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
一、主成分分析的基本原理
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n个地理样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的地理数据矩阵:
111212122212p p n n np x x x x x x X x x x ⎧⎪⎪=⎨⎪⎪⎩L L L
L L L L (1)
如何从这么多变量的数据中抓住地理事物的内在规律性呢要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm (m≤p)。
则
11111221221122221122,,.........................................
,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩L L L (2)
在(2)式中,系数l ij由下列原则来决定:(1)z i与z j(i≠j;i,j=1,2,…,m)相互无关;
(2)z1是x1,x2,…,x p的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,…,x p的所有线性组合中方差最大者;……;z m 是与z1,z2,……z m-1都不相关的x1,x2,…,x p的所有线性组合中方差最大者。
这样决定的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,x p的第一,第二,…,第m主成分。
其中,z1在总方差中占的比例最大,z2,z3,…,z m的方差依次递减。
在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
从以上分析可以看出,找主成分就是确定原来变量x j(j=1,2,…,p)在诸主成分z i (i=1,2,…,m)上的载荷l ij(i=1,2,…,m;j=1,2,…,p),从数学上容易知道,它们分别是x1,x2,…,x p的相关矩阵的m 个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤
通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:
(1) 计算相关系数矩阵
111212122212p p p p pp r r r r r r R r r r ⎧⎪⎪=⎨⎪⎪⎩L L L
L L L L
(3)
在公式(3)中,r ij (i ,j=1,2,…,p)为原来变量x i 与x j 的相关系数,其计算公式为
因为R 是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素即可。
(2)计算特征值与特征向量
首先解特征方程|λI -R |=0求出特征值λi (i=1,2,…,p),并使其按大小顺序排列,即λ1≥λ2≥…,≥λp ≥0;然后分别求出对应于特征值λi 的特征向量e i (i=1,2,…,p)。
(2) 计算主成分贡献率及累计贡献率 主成分i z 贡献率:1/(1,2,,)p i k k r i p γ==∑L ,累计贡献率:
11/p m k k k k γγ==∑∑。
一般取累计贡献率达85-95%的特征值λ1,λ2,…,λm 所对应的第一,第二,……,第m (m ≤p)个主成分。
(3) 计算主成分载荷
(,)(,1,2,,)k i ki p z x i k p ==L (5)
由此可以进一步计算主成分得分: 1112121
22212m m n n nm z z z z z z Z z z z ⎧⎪⎪=⎨⎪⎪⎩L L L
L L L L (6)
三、主成分分析实例
对于某区域地貌-水文系统,其57个流域盆地的九项地理要素:x 1为流域盆地总高度(m)x 2为流域盆地山口的海拔高度(m),x 3为流域盆地周长(m),x 4为河道总长度(km),x 5为河
表2-14 某57个流域盆地地理要素数据
道总数,x6为平均分叉率,x7为河谷最大坡度(度),x8为河源数及x9为流域盆地面积(km2)的原始数据如表2-14所示。
张超先生(1984)曾用这些地理要素的原始数据对该区域地貌-水文系统作了主成分分析。
下面,我们将其作为主成分分析方法的一个应用实例进行介绍。
表2-15相关系数矩阵
(1)首先将表2-14中的原始数据作标准化处理,由公式(4)计算得相关系数矩阵(见表2-15)。
(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表2-16)。
由表2-16可知,第一,第二,第三主成分的累计贡献率已高达%,故只需求出第一,第二,第三主成分z1,z2,z3即可。
表2-16 特征值及主成分贡献率
(3)对于特征值λ1=,λ2=,λ3=分别求出其特征向量e1,e2,e3,并计算各变量x1,x2,……,x9在各主成分上的载荷得到主成分载荷矩阵(见表2-17)。
表2-17 主成分载荷矩阵
从表2-17可以看出,第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,这是由于这六个地理要素与流域盆地的规模
有关,因此第一主成分可以被认为是流域盆地规模的代表:第二主成分z2与x2有较大的正相关,与x7有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此第二主成分可以被认为是流域侵蚀状况的代表;第三主成分z3与x6有较大的正相关,而地理要素x6是流域比较独立的特性——河系形态的表征,因此,第三主成成可以被认为是代表河系形态的主成分。
以上分析结果表明,根据主成分载荷,该区域地貌-水文系统的九项地理要素可以被归为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。
如果选取其中相关系数绝对值最大者作为代表,则流域面积,流域盆地出口的海拔高度和分叉率可作为这三类地理要素的代表,利用这三个要素代替原来九个要素进行区域地貌-水文系统分析,可以使问题大大地简化。