主成分分析

合集下载

主成分分析方法

主成分分析方法

主成分分析方法主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维技术,它可以通过线性变换将原始数据转换为一组各维度之间线性无关的表示,从而实现数据的降维和特征提取。

在实际应用中,主成分分析方法被广泛应用于数据预处理、特征提取、模式识别和数据可视化等领域。

主成分分析的基本思想是通过寻找数据中的主要信息,并将其转化为一组新的互相无关的变量,即主成分,以达到降维的目的。

在进行主成分分析时,我们首先需要计算数据的协方差矩阵,然后对协方差矩阵进行特征值分解,得到特征值和特征向量。

特征向量构成的矩阵即为数据的主成分矩阵,而特征值则代表了数据在各个主成分方向上的方差大小。

通过主成分分析,我们可以将原始数据映射到主成分空间中,从而实现数据的降维。

在降维后的主成分空间中,我们可以选择保留的主成分数量,以达到对数据特征的提取和压缩。

同时,主成分分析还可以帮助我们发现数据中的内在结构和模式,从而更好地理解数据的特性和规律。

在实际应用中,主成分分析方法有着广泛的应用。

例如,在图像处理领域,主成分分析可以用于图像压缩和特征提取;在金融领域,主成分分析可以用于资产组合的风险分析和优化;在生物信息学领域,主成分分析可以用于基因表达数据的分析和分类等。

需要注意的是,在应用主成分分析方法时,我们需要考虑数据的标准化和中心化处理,以避免不同量纲和尺度对主成分分析结果的影响。

此外,我们还需要注意选择合适的主成分数量,以保留足够的数据信息同时实现降维的效果。

总之,主成分分析方法是一种强大的数据分析工具,它可以帮助我们实现数据的降维和特征提取,发现数据中的内在结构和模式,从而更好地理解和利用数据。

在实际应用中,我们可以根据具体问题和需求,灵活运用主成分分析方法,从而实现更加有效的数据分析和应用。

主成分分析

主成分分析

但是这种线性组合,如果丌加限制,则可以有很多,应 该如何去选取呢?
对a加以限制
对组合系数ai' = (a1i,a2i,…,api)作如下要求:
a a ... a
2 1i 2 2i
2 pi
1,
i 1, 2 ,..., p
即:ai为单位向量。 此外,
对F限制
1) Fi不Fj(i≠j, i, j = 1, …, p)互丌相关,即 协方差:Cov(Fi,Fj) = 0
2) F1是X1,X2,…,Xp的一切线性组合(系数满足上述要 求)中方差最大的,即
Var ( F1 ) max Var ( c i X i )
c ' c 1 i 1 p
其中c = (c1,c2,…,cp)' 3)F2是不F1丌相关的X1,X2,…,Xp一切线性组合中方差最 大的,…,Fp是不F1,F2,…,Fp-1都丌相关的X1,X2,… ,Xp的一切线性组合中方差最大的。 满足上述要求的综合指标向量F1,F2,…,Fp就是主成分。
i 1 k 1
达到足够大(一般在85%以上)为原则。
3.5 计算主成分得分
计算n个样品在m个主成分上的得分:
Fi a1i X 1 a 2 i X 2 ... a pi X p
i = 1,2,…,m
主成分分析程序代码
例 输出原始数据矩阵x x=[7.47,1.73,7.20,0.13,0.40,1.33,1.07,36.05;6.67,1.67,18.00,0.67,4.67,19. 00,5.50,26.00;3.32,2.48,36.43,2.17,7.15,22.99,11.95,60.95;3.00,2.29,19.0 2,1.62,6.90,3.57,18.50,49.14;1.67,3.08,48.98,3.69,29.66,31.50,65.53,272. 23;1.96,3.23,14.44,1.64,18.02,33.12,33.10,68.73;1.25,3.69,42.00,4.25,22. 22,19.94,53.50,70.00;1.47,9.87,49.15,3.48,4.11,22.37,19.92,67.10;2.02,0. 97,16.99,12.29,18.00,17.36,3.66,16.59;2.41,1.56,2.81,15.79,3.42,21.61,2. 44,24.26;1.00,2.15,40.16,14.27,5.74,53.90,9.24,27.90;1.70,0.77,3.13,5.00, 6.32,11.48,10.23,30.77;0.97,0.12,2.39,21.16,8.08,16.21,41.26,18.84;2.86, 3.29,29.70,1.91,17.04,41.90,12.05,31.90;1.41,5.58,44.18,6.51,10.88,31.98 ,12.92,31.69;1.02,0.86,13.08,1.59,11.15,21.91,26.67,22.28;0.84,0.24,2.16, 21.14,3.56,24.94,18.73,25.61;1.00,0.23,6.11,13.95,4.59,17.19,26.95,18.01 ;0.74,1.39,14.21,20.55,4.29,15.54,54.11,38.96;0.49,0.83,9.03,13.69,1.39,2 4.35,59.15,49.86;1.20,0.23,2.01,20.99,1.06,25.23,23.84,52.05;1.38,0.31,0. 71,5.27,0.98,3.97,68.88,33.79;1.79,0.63,8.00,4.67,4.58,6.92,65.92,61.50;1. 53,2.84,17.27,3.06,18.51,11.59,19.65,49.50;0.78,2.33,33.11,2.78,18.17,7. 28,75.46,51.56;3.83,1.00,53.83,3.53,3.50,0.17,52.67,111.67;2.50,2.67,49. 88,3.14,3.83,8.33,48.33,43.33;1.48,4.32,27.61,1.68,47.29,1.81,69.42,443. 10]

主成分分析

主成分分析

一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。

从数学角度来看,这是一种降维处理技术。

思路:一个研究对象,往往是多要素的复杂系统。

变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。

原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。

2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。

从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。

从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。

二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。

主成分分析法

主成分分析法

主成分分析法什么事主成分分析法:主成分分析(principal components analysis , PCA 又称:主分量分析,主成分回归分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分,忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是,这也不是一定的,要视具体应用而定。

主成分分析的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。

这些涉及的因素一般称为指标,在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

主成分分析正是适应这一要求产生的,是解决这类题的理想工具同样,在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。

如上所述,主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。

根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。

什么是主成分分析

什么是主成分分析

主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。

这就需要多变量数据统计分析。

多变量数据统计分析中一个重要方法是主成份分析。

主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。

从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。

因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。

基于偏最小二乘法原理,可以计算得到这个轴线。

在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。

如果有三条轴线,就是三维立体坐标轴。

形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。

X、Y、Z轴就是第1、2、3主成份。

由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。

图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。

即,主成分上所有观测值的坐标投影方差最大。

从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。

这些转换后的变量,称为主成分(principal component, PC)。

主成分的数目因此低于或等于原有数据集中观测值的变量数目。

PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。

主成分分析

主成分分析

Extraction Method: Principal Component Analysis. Component Scores.
主成分系数矩阵,从而得出各主成分的表达式, 主成分系数矩阵,从而得出各主成分的表达式,注意在表达 式中各变量已经不是原始变量,而是标准化变量。 式中各变量已经不是原始变量,而是标准化 身高(X1,cm)、头围(X2,cm)、 体重(X3,g)的数据。
实验报告
写出X1, , 的相关矩阵 的相关矩阵。 写出 ,X2,X3的相关矩阵。 写出KMO与球形检验的结果(P值), 与球形检验的结果( 值 写出 与球形检验的结果 并做出判断, 并做出判断,该数据是否适合主成分分 析。 写出3个主成分的贡献率 个主成分的贡献率。 写出 个主成分的贡献率。 写出3个主成分关于 个主成分关于X1, , 的标准 写出 个主成分关于 ,X2,X3的标准 化的数值的线性组合。 化的数值的线性组合。
Rotation子对话框:用于因子分析。 子对话框:用于因子分析。 子对话框 Score子对话框 子对话框
选择是否将因子得分存入文件,以及具体的得分计算方法。 (1)Save as Variables:将计算出的因子得分作为新变量 加入数据文件,注意此处加入的是经过标准化的因子得分。 (2)Method单选框组:用于选择计算因子得分用的方法, 使用默认的回归法即可。 (3)Display factor score coefficient maxtrix:很重要。显 示因子得分系数阵,通过该系数阵就可以将所有公因子表示 为各个变量的线性组合,也就是我们所需要的主成分分析的 结果,系统同时会给出因子得分的协方差阵。
主 成 分 分 析
主成分分析
每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量 的数据;各个学校的研究、教学等各种变量的数 据等等。 这些数据的共同特点是变量很多,在如此多的变 量之中,有很多是相关的。人们希望能够找出它 们的少数“代表”来对它们进行描述。 主成分分析(principal component analysis) 就是把变量维数降低以便于描述、理解和分析的 方法。

主成分分析

主成分分析

2.主成分的总方差 由于
tr ( A ) = tr ( T′ΣT ) = tr ( ΣTT′ ) = tr ( Σ )

∑ λ = ∑σ
i =1 i i =1
p
p
ii

∑V ( y ) = ∑V ( x )
i =1 i i =1 i
p
p
总方差中属于第 i 主成分 yi(或被 yi 所解释)的比例 为
ˆ 三、从R 出发求主成分
ˆ ˆ* ˆ* ˆ R 的 p 个特征值为λ1* ≥ λ2 ≥ L ≥ λ p, 设样本相关阵 ˆ* ˆ 2 ˆ t1 , t * ,L , t *p 为相应的正交单位特征向量,则第 i 样本
主成分
ˆ ˆi yi* = t*x* , i = 1, 2,L , p
其中 x* 是各分量经(样本)标准化了的向量,即
S
主成分得分 在实际应用中,我们常常让 x j 减去 x ,使样本数据 中心化。这不影响样本协差阵 S ,在前面的论述中 惟一需要变化的是,将第 i 主成分改写成中心化的 形式,即
ˆ ˆi yi = t′ ( x − x ) , i = 1, 2,L , p 若将各观测值 x j 代替上式中的观测值向量 x ,则第i
现比较本例中从R 出发和例7.2.2中从 Σ 出发的主成 分计算结果。从R 出发的 y1* 的贡献率0.705明显小于 从 Σ 出发的 y1的贡献率0.938,事实上,原始变量方 差之间的差异越大,这一点也就倾向于越明显, * * * (7.2.15)式有助于我们理解之。 y1 , y2 , y3 可用标准 化前的原变量表达如下: x3 − µ3 x1 − µ1 x2 − µ2 *
主成分的值
ˆi ˆ y ji = t′ ( x j − x ) , i = 1, 2,L , p

主成分分析

主成分分析
2、主成分分析的数学模型及几何解释
(1 )、 数学模型
设有 n 个样品,每个样品观测p项指标(变量), X1,
X2,202…0/7/7,Xp,得到原始数据资料阵:
5
其中
用数据矩阵X的p个向量(即p个指标向量)X1,…,Xp作线
性组合(即综合指标向量)为:
2020/7/7
6
简写成
(注意:Xi是n维向量,所以Fi也是 n 维向量) 上述方程组要求:
主成分分析
2020/7/7
1
一、什么是主成分分析及基本思想
1 、什么是主成分分析
主成分概念首先由Karl parson在1901年引进,不 过当时只对非随机变量来讨论的。1933年Hotelling将 这个概念推广到随机向量:
在实际问题中,研究多指标(变量)问题是经常遇到的,
然而在多数情况下,不同指标之间是有一定相关性。由于
一般情况,p个变量组成p维空间,n个样本就是p维 空间的n个点,对p元正态分布变量来说,找主成分的问 题就是找p维空间中椭球体的主轴问题。
3 主成分的推导及性质
在下面推导过程中,要用到线性代数中的两个定理先 作一下复习:
定理一 若矩阵A是p阶实对称阵,则一定可以找到 正交阵
定理二 若上述矩阵A的特征根所对应的单位特征向量
X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标 轴使之通过样品变差最大的方向(或说具有最大的样品
方差)。下面以最简单的二元正态变量来说明主成分的
几何202意0/7/7义。
9
设有 n 个样本,每个样本有p个变量记为X1,…,Xp,
它们的综合变量记为F1,F2,…,Fp。当p=2时,原变
量是X1,X2,设
指标较多再加上指标之间有一定的相关性,势必增加了分

主成分分析

主成分分析
化简得:2 510.9 50007.9 0
解得:1 378 .9,2 132
3.求特征值所对应的单位特征向量
S 130233..14 187.5
1所对应的单位特征向量 (S 1)
0
,其中
a11 a21
(323.4 103.1a11
378.9)a11 103.1a21 (187.5 378.9)a21
胸围x2(cm)
69.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.0
体重x3(kg)
38.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.5
对此进行主成分分析。
1. 求样本均值和样本协方差矩阵
x1 161.2 x2 77.3 x3 51.2
0 0
a121 a221 1
解得 ( a11, a21 )= (0.88,0.47)
2 所对应的单位特征向量 (S 2) 0,其中
(323.4 103.1a12
132)a12 103.1a22 (187.5 132)a22
0 0
a122
a2 22
1
解得: (a12 , a22 ) (0.47,0.88)
平移、旋转坐标轴
x 2
F 1

F

2
•• • • •
分 分 析 的 几 何
•• • •
•• •

• •
•••



• •••
• •• •
•• •
• ••
x1

••

平移、旋转坐标轴
x 2
F 1

什么是主成分分析

什么是主成分分析

什么是主成分分析
主成分分析(Principal Component Analysis,PCA)是一种常用的统计分析方法,主要用于数据降维和特征提取。

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,这些线性不相关的变量称为主成分。

每个主成分都是原始变量的线性组合,且主成分按照其反映的原始变量的方差大小依次排序。

在实际应用中,主成分分析首先对数据进行标准化处理,然后计算出变量间的协方差矩阵,通过特征值分解或者奇异值分解得到特征值和特征向量。

选取前几个特征值最大的主成分,这些主成分能够解释大部分的方差,从而实现对高维数据的降维处理。

主成分分析有助于简化复杂问题的分析,揭示事物的本质,被广泛应用于多个领域,如经济学、生物学、医学、心理学等。

主成分分析

主成分分析

主成分分析起源及发展主成分分析是1901年Pearson对非随机变量引入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础。

原理在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。

人们自然希望变量个数较少而得到的信息较多。

在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。

应用学科主成分分析作为基础的数学分析方法,其实际应用十分广泛,比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法。

评价步骤1)对原始数据进行标准化处理假设进行主成分分析的指标变量有m个:,,…,,共有n个评价对象,第i个评价对象的第j个指标的取值为。

将各指标值转换成标准化指标,有,(i =1,2,…,n ; j =1,2,…,m)其中, , ,即为第j个指标的样本均值和样本标准差。

对应地,称,(j =1,2,…,m)为标准化指标变量。

2)计算相关系数矩阵R相关系数矩阵, 有, (i,j =1,2,…,m)式中,=,是第i个指标与第j个指标的相关系数。

3)计算特征值和特征向量计算相关系数矩阵R的特征值,及对应的特征向量,其中,由特征向量组成m个新的指标变量:︙式中是第1主成分,是第2主成分,…,是第m 主成分。

4)选择个主成分,计算综合评价值① 计算特征值的信息贡献率和累积贡献率。

主成分分析法

主成分分析法
* 3
yi*在原变量 x1 , x2 , x3 上的载荷相对大小与例 可见, 7.2.2中 yi 在 x1 , x2 , x3 上的载荷相对大小之间有着非
常大的差异。这说明,标准化后的结论完全可能会 发生很大的变化,因此标准化不是无关紧要的。
§7.3 样本的主成分
我们可以从协差阵 Σ 或相关阵 R 出发求得主成分。 但在实际问题中, Σ 或 R一般都是未知的,需要通 过样本来进行估计。设数据矩阵为
y1 = 0.627 + 0.497 + 0.600 4 1 10 = 0.157 ( x1 − µ1 ) + 0.497 ( x2 − µ 2 ) + 0.060 ( x3 − µ3 )
x3 − µ3 x1 − µ1 x2 − µ2 y = −0.241 + 0.856 − 0.457 4 1 10 = −0.060 ( x1 − µ1 ) + 0.856 ( x2 − µ2 ) − 0.046 ( x3 − µ3 )
现比较本例中从R 出发和例7.2.2中从 Σ 出发的主成 分计算结果。从R 出发的 y1* 的贡献率0.705明显小于 从 Σ 出发的 y1的贡献率0.938,事实上,原始变量方 差之间的差异越大,这一点也就倾向于越明显, * * * (7.2.15)式有助于我们理解之。 y1 , y2 , y3 可用标准 化前的原变量表达如下: x3 − µ3 x1 − µ1 x2 − µ2 *
§7.3 样本的主成分
一、样本主成分的定义 二、从 S 出发求主成分 ˆ 三、从 R 出发求主成分 四、主成分分析的应用 五、若干补充及应用中需注意的问题
一、样本主成分的定义

第8章 主成分分析

第8章 主成分分析
Principles behind PCA
The principles of Principal Component Analysis (PCA)
X2 (Variable 2)
The original data points, plotted on the original axes of variables (X1, X2, X3) For convenience, we have assumed that the data points are in the shape of a cuboid.
-0.5 C1_H1 C1_H2 OFF-FLAV -1.0 -1.0 RESULT1 ,X-expl : 58%,28% -0.5 0 0.5
C2_H3 C1_H3
PC1 1.0
Map of Samples & Variables
Principal Component Analysis (PCA)
• 12 Jams samples were made from berries plucked in various cultivars and seasonal times. • Several parameters (sensory measurements) were measured on each sample.
1.0 PC2 Bi-plot R.SMELL C4_H3 R.FLAV C4_H2 0.5 C3_H2 SOURNESS C3_H3 SHININES JUICINES C4_H1 0 C3_H1 C2_H1 T HICKNES C2_H2 CHEW.RES BIT TERNE SWEET NES COLOUR REDNESS
Sample comparison according to all 12 variables: multivariate model (PCA)

主成分分析数据

主成分分析数据

主成分分析数据主成分分析(PCA,Principal Component Analysis)是一种最常用的降维技术和数据探索方法。

通过主成分分析,可以将高维的数据集转换为低维的数据集,同时最大程度地保留原始数据的信息。

主成分分析的核心思想是将原始的高维数据转换为一组新的正交变量,称为主成分。

这些主成分是原始数据中的线性组合,其按照方差递减的顺序排列,保留了原始数据中最多的方差。

因此,通过选择前几个主成分,我们可以捕获数据中最重要的变化。

主成分分析的步骤如下:1. 数据预处理:首先,需要对原始数据进行预处理。

常见的预处理技术包括去除异常值、标准化数据(使其均值为0,方差为1)等。

2. 计算协方差矩阵:将预处理后的数据计算协方差矩阵。

协方差矩阵度量了数据之间的线性相关性。

其元素C(i, j)表示第i个变量与第j个变量之间的协方差。

3. 计算特征值和特征向量:通过对协方差矩阵进行特征值分解,可以得到特征值和对应的特征向量。

特征值表示各个主成分的重要性,而特征向量则定义了主成分的方向。

4. 选择主成分:根据特征值,选择前k个主成分。

通常,我们选择特征值较大的前几个主成分,因为它们保留了较多的原始数据的方差。

5. 转换数据:通过特征向量对原始数据进行转换,得到降维后的数据集。

转换后的数据集可以用于后续的数据分析任务,如数据可视化、聚类分析等。

主成分分析在各个领域都有广泛的应用。

在数据可视化中,主成分分析可以将高维数据集转换为二维或三维空间,以便更好地理解数据的结构。

在数据探索中,主成分分析可以揭示数据之间的潜在关系,帮助我们找到数据中的重要特征。

此外,主成分分析还可以用于数据降维。

通过选择前几个主成分,我们可以将高维数据集转换为低维数据集,从而减少计算的复杂性,并提高模型的表现和效率。

这在机器学习和模式识别任务中尤为重要。

然而,主成分分析也有一些限制和注意事项。

首先,主成分分析是基于数据的线性关系假设,因此对于非线性数据,效果可能不佳。

主成分分析

主成分分析

表1是某市工业部门13个行业的8项重要经济指标的数
主成分分析实例 2
据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。
主成分分析的目的与功能
在多变量分析中,分析者所面临的最大难题是
解决众多变量之间的关系问题。进行数据降维 可以用尽可能少的新指标取代原来较多的指标 变量,并能包含原来指标变量所包含的大部分 信息 。 解决多元回归分析中的多重共线性问题。 综合评价中,人们总是尽可能多地选取评价指 标,而这些评价指标之间往往相互重叠,信息 冗余是不可避免的。主成分分析则可以把这众 多指标所蕴含的信息压缩到少数几个主成分指 标,然后给出这几个主成分指标的权重,综合 到一个评价指标中。
y1 是反映学生身材魁梧与否的综合指标
y2 是反映学生体形特征的综合指标。
表1是某市工业部门13个行业的8项重要经济指标的数 据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。
表1 某市工业部门13个行业8项指标
X1 冶金 电力 煤炭 化学 机器 建材 森工 食品 纺织 缝纫 皮革 造纸 文教 90342 4903 6735 49454 139190 12215 2372 11062 17111 1206 2150 5251 14341 X2 52455 1973 21139 36241 203505 16219 6572 23078 23907 3930 5704 6155 13203 X3 101091 2035 3767 81557 215898 10351 8103 54935 52108 6126 6200 10383 19396 X4 19272 10313 1780 22504 10609 6382 12329 23804 21796 15586 10870 16875 14691 X5 82 34.2 36.1 98.1 93.2 62.5 184.4 370.4 221.5 330.4 184.2 146.4 94.6 X6 16.1 7.1 8.2 25.9 12.6 8.7 22.2 41 21.5 29.5 12 27.5 17.8 X7 197435 592077 726396 348226 139572 145818 20921 65486 63806 1840 8913 78796 6354 X8 0.172 0.003 0.003 0.985 0.628 0.066 0.152 0.263 0.276 0.437 0.274 0.151 1.574

主成分分析

主成分分析

求第一主成分,构造目标函数为:
1(T1, ) T1ΣT1 (T1T1 1)
对目标函数 1(T1, ) 求导数有:
1
T1
2ΣT1
2T1
0

(6.5) (6.6)
(Σ I)T1 0
(6.7)
由 6.7 式两边左乘 T1 得到
T1ΣT1
(6.8)
由于 X 的协差阵 Σ 为非负定的,其特征方程(6.7)的根均大于零,
p
变量 Y1,Y2 , ,Yp 的方差之和 k 。主成分分析的目的是 k 1
减少变量的个数,所以一般不会使用所有 p 个主成分的,
忽略一些带有较小方差的主成分将不会给总方差带来太
大的影响。这里我们称
p
k k
k
k 1
(6.23)
为第k 个主成分 Yk 的贡献率。第一主成分的贡献率最大,这表
明 Y1 T1X 综 合 原 始 变 量 X1, X 2 , , X p 的 能 力 最 强 , 而
图6.1 主成分的几何意义
如 标果 系我y1们Oy将2 ,该这坐里标y系1 是按椭逆圆时的针长方轴向方旋向转,某y2个是角椭度圆的变短成轴新方坐向。
旋转公式为
YY21
X1 cos X1 sin
X2 sin X2 cos
(6.1)
我们看到新变量 Y1 和 Y2 是原变量 X1 和 X 2 的线性组合,它的
主成分分析的基本思想
人们为了避免遗漏重要的信息而考虑尽可 能多的指标
随着考虑指标的增多增加了问题的复杂性 由于各指标均是对同一事物的反映,不可
避免地造成信息的大量重叠,这种信息的 重叠有时甚至会抹杀事物的真正特征与内 在规律。 希望在定量研究中涉及的变量较少,而得 到的信息量又较多。 主成分分析正是研究如何通过原来变量的 少数几个线性组合来解释原来变量绝大多 数信息的一种多元统计方法。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

确定权重方法之一:主成分分析
什么是权重呢?所谓权重,是指某指标在整体评价中的相对重要程度。

权重越大则该指标的重要性越高,对整体的影响就越高。

权重要满足两个条件:每个指标的权重在0、1之间。

所有指标的权重和为1。

权重的确定方法有很多,这里我们学习用主成分分析确定权重。

一、主成分基本思想:
图1 主成分基本思想的问与答
二、利用主成分确定权重
如何利用主成分分析法确定指标权重呢?现举例说明。

假设我们对反映某卖场表现的4项指标(实体店、信誉、企业形象、服务)进行消费者满意度调研。

调研采取4级量表,分值越大,满意度越高。

现回收有效问卷2000份,并用SPSS 录入了问卷数据。

部分数据见下图(详细数据见我的微盘,下载地址为
/s/yR83T)。

图2 主成分确定权重示例数据(部分)
1、操作步骤:
Step1:选择菜单:分析——降维——因子分析
Step2:将4项评价指标选入到变量框中
Step3:设置选项,具体设置如下:
2、输出结果分析
按照以上操作步骤,得到的主要输出结果为表1——表3,具体结果与分析如下:表1 KMO 和Bartlett 的检验
表1是对本例是否适合于主成分分析的检验。

KMO的检验标准见图3。

图3 KMO检验标准
从图3可知,本例适合主成分分析的程度为…一般‟,基本可以用主成分分析求权重。

表2 解释的总方差
从表2可知,前2个主成分对应的特征根>1,提取前2个主成分的累计方差贡献率达到94.513% ,超过80%。

因此前2个主成分基本可以反映全部指标的信息,可以代替原来的4个指标(实体店、信誉、企业形象、服务)。

表3 成份矩阵
从表3可知第一主成分与第二主成分对原来指标的载荷数。

例如,第一主成分对实体店的载荷数为0.957。

3、确定权重
用主成分分析确定权重有:指标权重等于以主成分的方差贡献率为权重,对该指标在各主成分线性组合中的系数的加权平均的归一化
因此,要确定指标权重需要知道三点:
A 指标在各主成分线性组合中的系数
B 主成分的方差贡献率
C 指标权重的归一化
(1)指标在不同主成分线性组合中的系数
这个系数如何求呢?
用表3中的载荷数除以表2中第1列对应的特征根的开方。

例如,在第一主成分F1的线性组合中,实体店的系数=0.957/(2.775)1/2≈0.574。

按此方法,基于表2和表3的数据,在excel中可分别计算出各指标在两个主成分线性组合中的系数(见图4,其中SQRT表示开方)
图4 各指标在两个主成分线性组合中的系数
由此得到的两个主成分线性组合如下:
F1=0.574χ1-0.019χ2+0.574χ3+0.583χ4
F2=-0.048χ1+0.996χ2+0.010χ3+0.070χ4
(2)主成分的方差贡献率
表2中“初始特征值”的“方差%”表示各主成分方差贡献率,方差贡献率越大则该主成分的重要性越强。

因此,方差贡献率可以看成是不同主成分的权重。

由于原有指标基本可以用前两个主成分代替,因此,指标系数可以看成是以这两个主成分方差贡献率为权重,对指标在这两个主成分线性组合中的系数做加权平均。

说得有些晦涩,我们来举个例子。

按上述思路,实体店χ1这个指标的系数为:
这样,我们可以用excel计算出所有指标的系数(见图5)
图5 所有指标在综合得分模型中的系数
由此得到综合得分模型为:
Y=0.409χ1+0.251χ2+0.424χ3+0.446χ4
(3)指标权重的归一化
由于所有指标的权重之和为1,因此指标权重需要在综合模型中指标系数的基础上归一化(见图6)
图6 指标权重的确定。

相关文档
最新文档