主成分分析

合集下载

主成分分析

主成分分析

但是这种线性组合,如果丌加限制,则可以有很多,应 该如何去选取呢?
对a加以限制
对组合系数ai' = (a1i,a2i,…,api)作如下要求:
a a ... a
2 1i 2 2i
2 pi
1,
i 1, 2 ,..., p
即:ai为单位向量。 此外,
对F限制
1) Fi不Fj(i≠j, i, j = 1, …, p)互丌相关,即 协方差:Cov(Fi,Fj) = 0
2) F1是X1,X2,…,Xp的一切线性组合(系数满足上述要 求)中方差最大的,即
Var ( F1 ) max Var ( c i X i )
c ' c 1 i 1 p
其中c = (c1,c2,…,cp)' 3)F2是不F1丌相关的X1,X2,…,Xp一切线性组合中方差最 大的,…,Fp是不F1,F2,…,Fp-1都丌相关的X1,X2,… ,Xp的一切线性组合中方差最大的。 满足上述要求的综合指标向量F1,F2,…,Fp就是主成分。
i 1 k 1
达到足够大(一般在85%以上)为原则。
3.5 计算主成分得分
计算n个样品在m个主成分上的得分:
Fi a1i X 1 a 2 i X 2 ... a pi X p
i = 1,2,…,m
主成分分析程序代码
例 输出原始数据矩阵x x=[7.47,1.73,7.20,0.13,0.40,1.33,1.07,36.05;6.67,1.67,18.00,0.67,4.67,19. 00,5.50,26.00;3.32,2.48,36.43,2.17,7.15,22.99,11.95,60.95;3.00,2.29,19.0 2,1.62,6.90,3.57,18.50,49.14;1.67,3.08,48.98,3.69,29.66,31.50,65.53,272. 23;1.96,3.23,14.44,1.64,18.02,33.12,33.10,68.73;1.25,3.69,42.00,4.25,22. 22,19.94,53.50,70.00;1.47,9.87,49.15,3.48,4.11,22.37,19.92,67.10;2.02,0. 97,16.99,12.29,18.00,17.36,3.66,16.59;2.41,1.56,2.81,15.79,3.42,21.61,2. 44,24.26;1.00,2.15,40.16,14.27,5.74,53.90,9.24,27.90;1.70,0.77,3.13,5.00, 6.32,11.48,10.23,30.77;0.97,0.12,2.39,21.16,8.08,16.21,41.26,18.84;2.86, 3.29,29.70,1.91,17.04,41.90,12.05,31.90;1.41,5.58,44.18,6.51,10.88,31.98 ,12.92,31.69;1.02,0.86,13.08,1.59,11.15,21.91,26.67,22.28;0.84,0.24,2.16, 21.14,3.56,24.94,18.73,25.61;1.00,0.23,6.11,13.95,4.59,17.19,26.95,18.01 ;0.74,1.39,14.21,20.55,4.29,15.54,54.11,38.96;0.49,0.83,9.03,13.69,1.39,2 4.35,59.15,49.86;1.20,0.23,2.01,20.99,1.06,25.23,23.84,52.05;1.38,0.31,0. 71,5.27,0.98,3.97,68.88,33.79;1.79,0.63,8.00,4.67,4.58,6.92,65.92,61.50;1. 53,2.84,17.27,3.06,18.51,11.59,19.65,49.50;0.78,2.33,33.11,2.78,18.17,7. 28,75.46,51.56;3.83,1.00,53.83,3.53,3.50,0.17,52.67,111.67;2.50,2.67,49. 88,3.14,3.83,8.33,48.33,43.33;1.48,4.32,27.61,1.68,47.29,1.81,69.42,443. 10]

主成分分析

主成分分析

一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。

从数学角度来看,这是一种降维处理技术。

思路:一个研究对象,往往是多要素的复杂系统。

变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。

原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。

2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。

从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。

从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。

二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。

主成分分析法

主成分分析法

主成分分析法什么事主成分分析法:主成分分析(principal components analysis , PCA 又称:主分量分析,主成分回归分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分,忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是,这也不是一定的,要视具体应用而定。

主成分分析的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。

这些涉及的因素一般称为指标,在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

主成分分析正是适应这一要求产生的,是解决这类题的理想工具同样,在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。

如上所述,主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。

根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。

什么是主成分分析

什么是主成分分析

主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。

这就需要多变量数据统计分析。

多变量数据统计分析中一个重要方法是主成份分析。

主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。

从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。

因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。

基于偏最小二乘法原理,可以计算得到这个轴线。

在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。

如果有三条轴线,就是三维立体坐标轴。

形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。

X、Y、Z轴就是第1、2、3主成份。

由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。

图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。

即,主成分上所有观测值的坐标投影方差最大。

从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。

这些转换后的变量,称为主成分(principal component, PC)。

主成分的数目因此低于或等于原有数据集中观测值的变量数目。

PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。

主成分分析

主成分分析

Extraction Method: Principal Component Analysis. Component Scores.
主成分系数矩阵,从而得出各主成分的表达式, 主成分系数矩阵,从而得出各主成分的表达式,注意在表达 式中各变量已经不是原始变量,而是标准化变量。 式中各变量已经不是原始变量,而是标准化 身高(X1,cm)、头围(X2,cm)、 体重(X3,g)的数据。
实验报告
写出X1, , 的相关矩阵 的相关矩阵。 写出 ,X2,X3的相关矩阵。 写出KMO与球形检验的结果(P值), 与球形检验的结果( 值 写出 与球形检验的结果 并做出判断, 并做出判断,该数据是否适合主成分分 析。 写出3个主成分的贡献率 个主成分的贡献率。 写出 个主成分的贡献率。 写出3个主成分关于 个主成分关于X1, , 的标准 写出 个主成分关于 ,X2,X3的标准 化的数值的线性组合。 化的数值的线性组合。
Rotation子对话框:用于因子分析。 子对话框:用于因子分析。 子对话框 Score子对话框 子对话框
选择是否将因子得分存入文件,以及具体的得分计算方法。 (1)Save as Variables:将计算出的因子得分作为新变量 加入数据文件,注意此处加入的是经过标准化的因子得分。 (2)Method单选框组:用于选择计算因子得分用的方法, 使用默认的回归法即可。 (3)Display factor score coefficient maxtrix:很重要。显 示因子得分系数阵,通过该系数阵就可以将所有公因子表示 为各个变量的线性组合,也就是我们所需要的主成分分析的 结果,系统同时会给出因子得分的协方差阵。
主 成 分 分 析
主成分分析
每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量 的数据;各个学校的研究、教学等各种变量的数 据等等。 这些数据的共同特点是变量很多,在如此多的变 量之中,有很多是相关的。人们希望能够找出它 们的少数“代表”来对它们进行描述。 主成分分析(principal component analysis) 就是把变量维数降低以便于描述、理解和分析的 方法。

主成分分析

主成分分析

1 主成分分析定义在许多实际问题中,我们经常用多个变量来刻画某一事物,但由于这些变量之间往往具有相关性,很多变量带有重复信息,这样就给分析问题带来了很多不便,同时也使分析结论不具有真实性和可靠性,因此,人们希望寻找到少量几个综合变量来代替原来较多的变量,使这几个综合变量能较全面地反映原来多项变量的信息,同时相互之间不相关。

主成分分析正是满足上述要求的一种处理多变量问题的方法。

主成分分析(Principal Component Analysis,PCA),将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。

又称主分量分析。

2 主成分分析基本思想主成分分析是考察多个变量间相关性的一种多元统计方法。

它是研究如何通过少数几个主分量来解释多个变量间的内部结构。

也就是说,从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。

主成分分析的应用目的可以被简单归结为两句话:数据的压缩、数据的解释。

它常被用来寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释,从而更加深刻的揭示事物的内在规律。

但是在实际应用中,主成分分析更多的只是一种达到目的的中间手段,而并非目的本身,它往往会被作为许多大型研究的中间步骤,在对数据进行浓缩后继续采用其他多元统计方法以解决实际问题。

主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。

假定有n个地理样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的地理数据矩阵:如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的。

为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。

主成分分析

主成分分析

2.主成分的总方差 由于
tr ( A ) = tr ( T′ΣT ) = tr ( ΣTT′ ) = tr ( Σ )

∑ λ = ∑σ
i =1 i i =1
p
p
ii

∑V ( y ) = ∑V ( x )
i =1 i i =1 i
p
p
总方差中属于第 i 主成分 yi(或被 yi 所解释)的比例 为
ˆ 三、从R 出发求主成分
ˆ ˆ* ˆ* ˆ R 的 p 个特征值为λ1* ≥ λ2 ≥ L ≥ λ p, 设样本相关阵 ˆ* ˆ 2 ˆ t1 , t * ,L , t *p 为相应的正交单位特征向量,则第 i 样本
主成分
ˆ ˆi yi* = t*x* , i = 1, 2,L , p
其中 x* 是各分量经(样本)标准化了的向量,即
S
主成分得分 在实际应用中,我们常常让 x j 减去 x ,使样本数据 中心化。这不影响样本协差阵 S ,在前面的论述中 惟一需要变化的是,将第 i 主成分改写成中心化的 形式,即
ˆ ˆi yi = t′ ( x − x ) , i = 1, 2,L , p 若将各观测值 x j 代替上式中的观测值向量 x ,则第i
现比较本例中从R 出发和例7.2.2中从 Σ 出发的主成 分计算结果。从R 出发的 y1* 的贡献率0.705明显小于 从 Σ 出发的 y1的贡献率0.938,事实上,原始变量方 差之间的差异越大,这一点也就倾向于越明显, * * * (7.2.15)式有助于我们理解之。 y1 , y2 , y3 可用标准 化前的原变量表达如下: x3 − µ3 x1 − µ1 x2 − µ2 *
主成分的值
ˆi ˆ y ji = t′ ( x j − x ) , i = 1, 2,L , p

主成分分析

主成分分析
2、主成分分析的数学模型及几何解释
(1 )、 数学模型
设有 n 个样品,每个样品观测p项指标(变量), X1,
X2,202…0/7/7,Xp,得到原始数据资料阵:
5
其中
用数据矩阵X的p个向量(即p个指标向量)X1,…,Xp作线
性组合(即综合指标向量)为:
2020/7/7
6
简写成
(注意:Xi是n维向量,所以Fi也是 n 维向量) 上述方程组要求:
主成分分析
2020/7/7
1
一、什么是主成分分析及基本思想
1 、什么是主成分分析
主成分概念首先由Karl parson在1901年引进,不 过当时只对非随机变量来讨论的。1933年Hotelling将 这个概念推广到随机向量:
在实际问题中,研究多指标(变量)问题是经常遇到的,
然而在多数情况下,不同指标之间是有一定相关性。由于
一般情况,p个变量组成p维空间,n个样本就是p维 空间的n个点,对p元正态分布变量来说,找主成分的问 题就是找p维空间中椭球体的主轴问题。
3 主成分的推导及性质
在下面推导过程中,要用到线性代数中的两个定理先 作一下复习:
定理一 若矩阵A是p阶实对称阵,则一定可以找到 正交阵
定理二 若上述矩阵A的特征根所对应的单位特征向量
X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标 轴使之通过样品变差最大的方向(或说具有最大的样品
方差)。下面以最简单的二元正态变量来说明主成分的
几何202意0/7/7义。
9
设有 n 个样本,每个样本有p个变量记为X1,…,Xp,
它们的综合变量记为F1,F2,…,Fp。当p=2时,原变
量是X1,X2,设
指标较多再加上指标之间有一定的相关性,势必增加了分

主成分分析

主成分分析

主成分分析试图在力保数据信息丢失最少的原则下,
在力求数据信息丢失最少的原则下,对高维的变 量空间降维,即研究指标体系的少数几个线性组合, 并且这几个线性组合所构成的综合指标将尽可能多 地保留原来指标变异方面的信息。这些综合指标就 称为主成分。
要解决的问题是: (1)选择几个主成分?主成分分析的目的是简 化变量,一般情况下主成分的个数应该小于原始变 量的个数。关于保留几个主成分,应该权衡主成分 个数和保留的信息。 (2)如何解释主成分所包含的经济意义。
为了方便,我们在二维空间中讨论主成分的几何意义。
设有n个样品,每个样品有两个观测变量xl和x2,在由变量
xl和x2 所确定的二维平面中,n个样本点所散布的情况如
椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向 或x2轴方向都具有较大的离散性,其离散的程度可以分别 用观测变量xl 的方差和x2 的方差定量地表示。显然,如果 只考虑xl和x2 中的任何一个,那么包含在原始数据中的信
•可以把第一和第二主成分的载荷点画在一个二维图上, 以直观地显示它们如何解释原来的变量的。这个图叫做 载荷图。
Component Plot
1.0
.5
phys chem math
history english literat
0.0
-.5
-1.0 -1.0 -.5 0.0 .5 1.0
Component 1
Fl,F2除了可以对包含在Xl,X2中的信息起着 浓缩作用之外,还具有不相关的性质,这就使得
在研究复杂的问题时避免了信息重叠。二维平面
上的n个点的方差大部分都归结在Fl轴上,而F2轴
上的方差很小。Fl和F2称为原始变量x1和x2的综
合变量。F简化了系统结构,抓住了主要矛盾。

主成分分析

主成分分析
化简得:2 510.9 50007.9 0
解得:1 378 .9,2 132
3.求特征值所对应的单位特征向量
S 130233..14 187.5
1所对应的单位特征向量 (S 1)
0
,其中
a11 a21
(323.4 103.1a11
378.9)a11 103.1a21 (187.5 378.9)a21
胸围x2(cm)
69.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.0
体重x3(kg)
38.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.5
对此进行主成分分析。
1. 求样本均值和样本协方差矩阵
x1 161.2 x2 77.3 x3 51.2
0 0
a121 a221 1
解得 ( a11, a21 )= (0.88,0.47)
2 所对应的单位特征向量 (S 2) 0,其中
(323.4 103.1a12
132)a12 103.1a22 (187.5 132)a22
0 0
a122
a2 22
1
解得: (a12 , a22 ) (0.47,0.88)
平移、旋转坐标轴
x 2
F 1

F

2
•• • • •
分 分 析 的 几 何
•• • •
•• •

• •
•••



• •••
• •• •
•• •
• ••
x1

••

平移、旋转坐标轴
x 2
F 1

什么是主成分分析

什么是主成分分析

什么是主成分分析
主成分分析(Principal Component Analysis,PCA)是一种常用的统计分析方法,主要用于数据降维和特征提取。

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,这些线性不相关的变量称为主成分。

每个主成分都是原始变量的线性组合,且主成分按照其反映的原始变量的方差大小依次排序。

在实际应用中,主成分分析首先对数据进行标准化处理,然后计算出变量间的协方差矩阵,通过特征值分解或者奇异值分解得到特征值和特征向量。

选取前几个特征值最大的主成分,这些主成分能够解释大部分的方差,从而实现对高维数据的降维处理。

主成分分析有助于简化复杂问题的分析,揭示事物的本质,被广泛应用于多个领域,如经济学、生物学、医学、心理学等。

主成分分析法

主成分分析法
同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构 的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。 上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令其中为正交阵的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。
2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。
3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。

主成分分析法

主成分分析法

4,主成分分析法主成分分析(Principal Component Analysis,PCA),是一种统计方法。

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。

信息的大小通常用离差平方和或方差来衡量。

②主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。

因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

③当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。

4.4主成分分析法的运用叶晓枫,王志良,【2】在介绍主成分分析方法的基本思想及计算方法基础上,对水资源调配评价指标进行了降维计算. 结果显示筛选出的指标对原指标具有较好的代表性,简化了水资源评价问题的难度。

傅湘,纪昌明【3】,针对模糊综合评判法在综合评价中存在的主观随意性问题,提出采用主成分分析法进行区域水资源承载能力综合评价。

对各区域的灌溉率、水资源利用率、水资源开发程度、供水模数、需水模数、人均供水量和生态环境用水率达七个主要因索进行了分析;根据主成分分析法的原理,运用少数几个新的综合指标对原来的七个指标所包含的信息进行最佳综合与简化,研究其在各区域水资源开发利用过程中的不同贡献及综合效应。

周莨棋,徐向阳等【4】,针对传统主成分分析法用于水资源综合评价中存在一些问题,包括指标评价中的“线性”问题、无法体现评价指标主观重要性以及评价范围无法确定。

进行了改进,采用改进的极差正规方法对数据进行规格化,用规格化后的数据加入了主观重要性权进行协方差计算,对协方差特征向量采用正负理想点进行检验。

陈腊娇,冯利华等【5】,将主成分分析方法引入到水资源承载力研究中,并以浙江省为例,在现有资料的基础上,利用主成分分析的方法,定量分析影响水资源承载力变化的最主要的驱动因子。

主成分分析

主成分分析

表1是某市工业部门13个行业的8项重要经济指标的数
主成分分析实例 2
据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。
主成分分析的目的与功能
在多变量分析中,分析者所面临的最大难题是
解决众多变量之间的关系问题。进行数据降维 可以用尽可能少的新指标取代原来较多的指标 变量,并能包含原来指标变量所包含的大部分 信息 。 解决多元回归分析中的多重共线性问题。 综合评价中,人们总是尽可能多地选取评价指 标,而这些评价指标之间往往相互重叠,信息 冗余是不可避免的。主成分分析则可以把这众 多指标所蕴含的信息压缩到少数几个主成分指 标,然后给出这几个主成分指标的权重,综合 到一个评价指标中。
y1 是反映学生身材魁梧与否的综合指标
y2 是反映学生体形特征的综合指标。
表1是某市工业部门13个行业的8项重要经济指标的数 据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。
表1 某市工业部门13个行业8项指标
X1 冶金 电力 煤炭 化学 机器 建材 森工 食品 纺织 缝纫 皮革 造纸 文教 90342 4903 6735 49454 139190 12215 2372 11062 17111 1206 2150 5251 14341 X2 52455 1973 21139 36241 203505 16219 6572 23078 23907 3930 5704 6155 13203 X3 101091 2035 3767 81557 215898 10351 8103 54935 52108 6126 6200 10383 19396 X4 19272 10313 1780 22504 10609 6382 12329 23804 21796 15586 10870 16875 14691 X5 82 34.2 36.1 98.1 93.2 62.5 184.4 370.4 221.5 330.4 184.2 146.4 94.6 X6 16.1 7.1 8.2 25.9 12.6 8.7 22.2 41 21.5 29.5 12 27.5 17.8 X7 197435 592077 726396 348226 139572 145818 20921 65486 63806 1840 8913 78796 6354 X8 0.172 0.003 0.003 0.985 0.628 0.066 0.152 0.263 0.276 0.437 0.274 0.151 1.574

主成分分析

主成分分析

求第一主成分,构造目标函数为:
1(T1, ) T1ΣT1 (T1T1 1)
对目标函数 1(T1, ) 求导数有:
1
T1
2ΣT1
2T1
0

(6.5) (6.6)
(Σ I)T1 0
(6.7)
由 6.7 式两边左乘 T1 得到
T1ΣT1
(6.8)
由于 X 的协差阵 Σ 为非负定的,其特征方程(6.7)的根均大于零,
p
变量 Y1,Y2 , ,Yp 的方差之和 k 。主成分分析的目的是 k 1
减少变量的个数,所以一般不会使用所有 p 个主成分的,
忽略一些带有较小方差的主成分将不会给总方差带来太
大的影响。这里我们称
p
k k
k
k 1
(6.23)
为第k 个主成分 Yk 的贡献率。第一主成分的贡献率最大,这表
明 Y1 T1X 综 合 原 始 变 量 X1, X 2 , , X p 的 能 力 最 强 , 而
图6.1 主成分的几何意义
如 标果 系我y1们Oy将2 ,该这坐里标y系1 是按椭逆圆时的针长方轴向方旋向转,某y2个是角椭度圆的变短成轴新方坐向。
旋转公式为
YY21
X1 cos X1 sin
X2 sin X2 cos
(6.1)
我们看到新变量 Y1 和 Y2 是原变量 X1 和 X 2 的线性组合,它的
主成分分析的基本思想
人们为了避免遗漏重要的信息而考虑尽可 能多的指标
随着考虑指标的增多增加了问题的复杂性 由于各指标均是对同一事物的反映,不可
避免地造成信息的大量重叠,这种信息的 重叠有时甚至会抹杀事物的真正特征与内 在规律。 希望在定量研究中涉及的变量较少,而得 到的信息量又较多。 主成分分析正是研究如何通过原来变量的 少数几个线性组合来解释原来变量绝大多 数信息的一种多元统计方法。

主成分分析数据

主成分分析数据

主成分分析数据主成分分析(PCA,Principal Component Analysis)是一种最常用的降维技术和数据探索方法。

通过主成分分析,可以将高维的数据集转换为低维的数据集,同时最大程度地保留原始数据的信息。

主成分分析的核心思想是将原始的高维数据转换为一组新的正交变量,称为主成分。

这些主成分是原始数据中的线性组合,其按照方差递减的顺序排列,保留了原始数据中最多的方差。

因此,通过选择前几个主成分,我们可以捕获数据中最重要的变化。

主成分分析的步骤如下:1. 数据预处理:首先,需要对原始数据进行预处理。

常见的预处理技术包括去除异常值、标准化数据(使其均值为0,方差为1)等。

2. 计算协方差矩阵:将预处理后的数据计算协方差矩阵。

协方差矩阵度量了数据之间的线性相关性。

其元素C(i, j)表示第i个变量与第j个变量之间的协方差。

3. 计算特征值和特征向量:通过对协方差矩阵进行特征值分解,可以得到特征值和对应的特征向量。

特征值表示各个主成分的重要性,而特征向量则定义了主成分的方向。

4. 选择主成分:根据特征值,选择前k个主成分。

通常,我们选择特征值较大的前几个主成分,因为它们保留了较多的原始数据的方差。

5. 转换数据:通过特征向量对原始数据进行转换,得到降维后的数据集。

转换后的数据集可以用于后续的数据分析任务,如数据可视化、聚类分析等。

主成分分析在各个领域都有广泛的应用。

在数据可视化中,主成分分析可以将高维数据集转换为二维或三维空间,以便更好地理解数据的结构。

在数据探索中,主成分分析可以揭示数据之间的潜在关系,帮助我们找到数据中的重要特征。

此外,主成分分析还可以用于数据降维。

通过选择前几个主成分,我们可以将高维数据集转换为低维数据集,从而减少计算的复杂性,并提高模型的表现和效率。

这在机器学习和模式识别任务中尤为重要。

然而,主成分分析也有一些限制和注意事项。

首先,主成分分析是基于数据的线性关系假设,因此对于非线性数据,效果可能不佳。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验八 主成分分析1. 何为主成分?主成分的求法、性质?主成分个数选取的依据?主成分就是与所求问题相关性大的因素变量。

它满足: (1)系数向量单位化1=k T k a a ;(2)各主成分不相关,无重叠信息0),(==k T j k j Y Y Cov Σa a ,k j ≠;(3)主成分方差由此递减)(V )(V )(V 21≥≥≥≥p Y ar Y ar Y ar .主成分定义:T p X X X ),,,(21 =X —p 维随机变量,协方差阵 ]))())(([)()(Tp p ij E E E Cov X X X X ΣX --===⨯σ非负定. 主成分定义:⎪⎪⎪⎩⎪⎪⎪⎨⎧+++==+++==+++==p pp p p T p p p kp k k Tk k p p TX a X a X a X Y X a X a X a X Y X a X a X a X Y 22112211121211111a a a 求法:1)解0|=-|ΣI λ,求Σ的p 个特征值021≥≥≥≥p λλλ ; 2)对应的正交单位化的特征向量分别为m e e e ,,,21 ; 其中 p k ,,2,1 =,Tkp k k k e e e ),,,(21 =e3)X 的第k 个主成分为p kp k k Tk k X e X e X e Y +++== 2211X e ;T p Y Y Y ),,,(21 =Y 为p 个主成分构成的随机向量,则X P Y T =,其中 ),,,(21p P e e e =为正交矩阵,且⎪⎩⎪⎨⎧≠=======k j e Y Y Cov p k Y Var k Tj k k T j k j k k Tk k k T k k 0),(,,2,1)(e e Σe e e Σe e λλλ 故主成分向量Y 的协方差阵为⎪⎪⎪⎪⎪⎭⎫⎝⎛===p TT Cov Cov λλλ21)()(ΣP P X P Y 各主成分的总方差∑∑∑∑========pk k pk kk pk k pk kX Var tr YVar 1111)()()(σλΣ性质:(1)系数向量单位化1=k Tk a a ;(2)各主成分不相关,无重叠信息0),(==k Tj k j Y Y Cov Σa a ,k j ≠;(3)主成分方差由此递减0)(V )(V )(V 21≥≥≥≥p Y ar Y ar Y ar .主成分个数选取得依据:∑==pj j k k P 1/λλ——第k 个主成分的贡献率它反映了第k 个主成分提取全部信息的多少∑∑==pj jk j j 11/λλ——前k 个主成分的累积贡献率它反映了前k 个主成分共同提取全部信息的多少通过前k 个主成分的贡献率的的大小对数据经行数据的选取。

2. 利用样品求主成分的步骤?1)求样本协方差矩阵S 特征值0ˆˆˆ21≥≥≥≥pλλλ ; 2)相应的正交单位化特征向量p e e eˆ,,ˆ,ˆ21 ,)ˆ,,ˆ,ˆ(ˆ21kp k k k e e e e =; 3)第k 个样本主成分p kp k k T k k x e x e x e y ˆˆˆˆ2211+++== x e , p k ,,2,1= 4)pk pj j k /ˆˆ/ˆ1λλλ=∑= —— 第k 个样本主成分的贡献率p kj jpj jk j j /ˆˆ/ˆ111∑∑∑====λλλ——前k 个主成分的累积贡献率 5)第k 个样本主成分的n 个观测值称为第k 个样本主成分的得分,可以依据得分对各组样本观测数据进行排序:ip kp i k i k i T k ik x e x e x e y ˆˆˆˆ2211+++== x e (n i ,,2,1=) 样本主成分的观测数据(得分向量)),,2,1(),,,(21n i y y y Tip i i i ==y例题调查美国50个州7种犯罪率,得结果列于表35.2,其中给出的是美国50个州每100 000个人中七种犯罪的比率数据.这七种犯罪是:murder(杀人罪),rape(强奸罪),robbery (抢劫罪),assault(斗殴罪),burglary(夜盗罪),larceny(偷盗罪),auto(汽车犯罪),很难直接从这七个变量出发来评价各州的治安和犯罪情况,试作主成份分析.说明选几个主成分合适,找出几个主成分,并按照第一、第二主成分分别对50个周进行排名,并解释之。

表1 美国50个州七种犯罪的比率数据第(2)题程序如下:data examp4_9;input id x1-x7;cards;1 14.2 25.2 96.8 278.3 1135.5 1881.9 280.72 10.8 51.6 96.8 284 1331.7 3369.8 753.33 9.5 34.2 138.2 312.3 2346.1 4467.4 439.54 8.8 27.6 83.2 203.4 972.6 1862.1 183.45 11.5 49.4 287 358 2139.4 3499.8 663.56 6.3 42 170.7 292.9 1935.2 3903.2 477.17 4.2 16.8 129.5 131.8 1346 2620.7 593.28 6 24.9 157 194.2 1682.6 3678.4 4679 10.2 39.6 187.9 449.1 1859.9 3840.5 351.410 11.7 31.1 140.5 256.5 1351.1 2170.2 297.911 7.2 25.5 128 64.1 1911.5 3920.4 489.412 5.5 19.4 39.6 172.5 1050.8 2599.6 237.613 9.9 21.8 211.3 209 1085 2828.5 528.614 7.4 26.5 123.2 153.5 1086.2 2498.7 377.415 2.3 10.6 41.2 89.8 812.5 2685.1 219.916 6.6 22 100.7 180.5 1270.4 2739.3 244.317 10.1 19.1 81.1 123.3 872.2 1662.1 245.418 15.5 30.9 142.9 335.5 1165.5 2469.9 337.719 2.4 13.5 38.7 170 1253.1 2350.7 246.920 8 34.8 292.1 358.9 1400 3177.7 428.521 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.122 9.3 38.9 261.9 274.6 1522.7 3159 545.523 2.7 19.5 85.9 85.8 1134.7 2559.3 343.124 14.3 19.6 65.7 189.1 915.6 1239.9 144.425 9.6 28.3 189 233.5 1318.3 2424.2 378.426 5.4 16.7 39.2 156.8 804.9 2773.2 309.227 3.9 18.1 64.7 112.7 760 2316.1 249.128 15.8 49.1 323.1 355 2453.1 4212.6 559.229 3.2 10.7 23.2 76 1041.7 2343.9 293.430 5.6 21 180.4 185.1 1435.8 2774.5 511.531 8.8 39.1 109.6 343.4 1418.7 3008.6 259.532 10.7 29.4 472.6 319.1 1728 2782 745.833 10.6 17 61.3 318.3 1154.1 2037.8 192.134 0.9 9 13.3 43.8 446.1 1843 144.735 7.8 27.3 190.5 181.1 1216 2696.8 400.436 8.6 29.2 73.8 205 1288.2 2228.1 326.837 4.9 39.9 124.1 286.9 1636.4 3506.1 388.938 5.6 19 130.3 128 877.5 1624.1 333.239 3.6 10.5 86.5 201 1489.5 2844.1 791.440 11.9 33 105.9 485.3 1613.6 2342.4 245.141 2 13.5 17.9 155.7 570.5 1704.4 147.542 10.1 29.7 145.8 203.9 1259.7 1776.5 31443 13.3 33.8 152.4 208.2 1603.1 2988.7 397.644 3.5 20.3 68.8 147.3 1171.6 3004.6 334.545 1.4 15.9 30.8 101.2 1348.2 2201 265.246 9 23.3 92.1 165.7 986.2 2521.2 226.747 4.3 39.6 106.2 224.8 1605.6 3386.9 360.348 6 13.2 42.2 90.9 597.4 1341.7 163.349 2.8 12.9 52.2 63.7 846.9 2614.2 220.750 5.4 21.9 39.7 173.9 811.6 2772.2 282;run;proc corr cov nosimple data=examp4_9;var x1-x7;run;proc princomp data=examp4_9 prefix=y out=aa;var x1-x7;run;(1)调用协方差分析的corr过程,计算协方差矩阵及相关系数矩阵结果如下:由样本协方差矩阵看出,各指标的样本方差差异很大,因此从样本相关系数矩阵出发进行主成分分析(即求标准化的样本主成分).由SAS proc printcomp 过程得样本相关系数矩阵如下:Pearson 样本相关系数矩阵R及检验对应的两个变量是否相关的检验p值(2)调用主成分分析的princomp过程,从相关系数矩阵出发进行主成分分析,输出集aa表4.4 样本相关系数矩阵R的特征值、各主成分贡献率及累计贡献率表4.5 样本相关系数矩阵R 特征值的正交化特征向量由表4.4,前三个主成分的累计贡献率已达76.48%,因此,取前两个主成分做进一步分析即可.表4.5给出了对应于∧1λ和∧2λ的正单位化特征向量∧1e 和∧2e ,由此得到标准化指标的前两个样本主成分为65432112952.03574.04412.03967.03939.04318.03003.0xx x x x x x y ++++++=为七指标加权平均,反应各州的治安和杀人罪情况,1y 越高,那么反应出各州治安能力越强。

相关文档
最新文档