主成分分析学习笔记

合集下载

主成分分析法精华讲义及实例

主成分分析法精华讲义及实例

主成分分析

类型:一种处理高维数据的方法。

降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。

一、总体主成分

1.1 定义

设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为

()[(())(())],T ij p p E X E X X E X σ⨯∑==--

它是一个 p 阶非负定矩阵。设

1111112212221122221122T

p p T

p p

T p

p p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X

⎧==+++⎪==+++⎪⎨

⎪⎪==+++⎩

(1) 则有

()(),1,2,...,,(,)(,),1,2,...,.

T T i i i i T

T T i j i

j

i

j Var Y Var l X l l i p Cov Y Y Cov l X l X l l j p ==∑===∑= (2)

第 i 个主成分: 一般地,在约束条件

1T i i l l =

(,)0,1,2,..., 1.T i k i k Cov Y Y l l k i =∑==-

第五章 主成分分析

第五章 主成分分析

该推导表明: 该推导表明:
X 1 , X 2 , L X p 的主成分就是以 ∑ 的特征向量为系数的
线性组合,它们互不相关, 的特征根。 线性组合,它们互不相关,其方差为 ∑ 的特征根。因为 的 特 征 根 λ1 ≥ λ 2 ≥ ... ≥ λ p >0 , 所 以 相 应 地 有 :

Var ( F1 ) ≥ Var ( F2 ) ≥ L ≥ Var ( F p ) > 0 , 因此主成分的命名是
1 其估计值为样本协差阵 V, V = n − 1 S 是总体协差阵的无偏 ,
γ = 估计量。 估计量。而相关系数阵 R = (γ ij ) ,其中 ij sii ⋅ s jj 。
sij
2
当原始变量标准化后, 当原始变量标准化后,各标准化变量的均值为 0,方差为 , 1,因此样本协差阵即等于相关系数阵 V = R = n 1 1 X ′X 。而实际应 , − 来代替样本协差阵, 用的时候更是经常用 R 来代替样本协差阵,并求它的特征 根和特征向量。 根和特征向量。
由前述线性代数定理可知, U 是正交阵 , 即 由前述线性代数定理可知 , 是正交阵,
UU ′ = U ′U = I
,且
Байду номын сангаас
λ1 ∑ =U 0
p λ2 0 U ′ = λ u u ′ ∑ i i i O i =1 0 λp 0

spss学习笔记之主成分分析

spss学习笔记之主成分分析

spss学习笔记:因子分析

因子分析(主成分分析法)Analyse—>data reduction—>Factor

除了variables对话框外,还有五个对话框。

descriptive对话框:提供描述性统计量与相关矩阵有关的统计量。

这个对话框关键是以下一些选项:

1)statistics选项

Initial solution:输出有comunalities(公因子方差),Total variance explained(提供特征值、各因子解释的方差比例和累计比例等信息)。

2)Correlation matrix选项:

Coefficients输出观察变量的相关系数矩阵;

Reproduced输出重构的相关系数矩阵(我用的spss版本显示的residual和

produced correlation是分开的);

KMO and Bartlett’s test ofsphericity:KMO测度和巴特里特球体检验。KMO 值的可接受区间0.5~1。球体检验则看显著性水平。

其他一般不必用。

Extraction对话框:

Method选Principal components主成分分析法(系统默认)

Analyse 选correlation matrix即可。

Display下的两个选项都选中。分别输出未经旋转的因子矩阵和碎石图。

Extract决定提取因子的个数,有两种情况。

Eigenvalue over指定要提取因子的最小特征值;

Number of factors直接指定要提取的因子数。

Rotation 对话框:

主成分分析法的步骤和原理

主成分分析法的步骤和原理

(一)主成分分析法的基本思想

主成分分析(PrincipalComponentAnalysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2]

采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。

(二)主成分分析法代数模型 假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。设随机向量X 的均值为μ,协方差矩阵为Σ。假设X 是以n 个标量随机变量组成的列向量,并且μk 是其第k 个元素的期望值,即,μk=E(xk),协方差矩阵然后被定义为: Σ=E{(X -E[X])(X-E[X])}=(如图

对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X p Z 2=μ21X 1+μ22X 2+…μ2p X p ………………

Z p =μp1X 1+μp2X 2+…μpp X p

主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2

是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2……Z p-1都不相关的线性组合中方差最大者。

主成分分析的概念及基本思想主成分分析PrincipleComponent

主成分分析的概念及基本思想主成分分析PrincipleComponent

1、主成分分析的概念及基本思想

主成分分析(Principle Component Analysis, PCA)是最为常用的特征提取方法,被广泛应用到各领域,如图像处理、综合评价、语音识别、故障诊断等。它通过对原始数据的加工处理,简化问题处理的难度并提高数据信息的信噪比,以改善抗干扰能力。主成分概念首先由Karl parson在1901年引进,不过当时只是对非随机变量进行讨论,1933年Hotelling将这个概念推广到随机向量。

在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多并且指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0 ,称F2为第二主成分,依此类推可以构造出第三,四,…,第p个主成分。不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。

主成分分析(PCA)原理详解

主成分分析(PCA)原理详解

主成分分析(PCA)原理详解

PCA的基本原理如下:

1.数据标准化:对数据进行标准化处理,使得每个特征的均值为0,

方差为1、这一步骤是为了保证不同特征的量纲一致,避免一些特征因数

值过大而对分析结果造成影响。

2.计算协方差矩阵:协方差矩阵描述了数据特征之间的相关性。通过

计算标准化后的数据的协方差矩阵,可以得到不同特征之间的相关性信息。

3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征

值和对应的特征向量。特征向量表示了数据在各个方向上的投影情况,特

征值则表示了各个特征向量的重要程度。

4.选择主成分:根据特征值的大小,选择最重要的K个特征向量作为

主成分。特征值越大,表示该特征向量所代表的特征在数据中的方差越大,所能解释的信息也越多。

5.构造降维后的数据集:将选取的K个特征向量组合成一个转换矩阵,将原始数据映射到新的K维空间中。通过这个转换过程,可以实现降维并

且保留较多的信息。

总结起来,PCA的主要思想是通过计算特征向量和特征值,找到数据

中最重要的方向(主成分),然后通过投影到这些主成分上实现数据的降维。

PCA的应用包括数据可视化、特征选择、噪声过滤等。例如,在数据

可视化中,将高维数据降至二维或三维空间,有助于观察数据之间的分布

情况。在特征选择中,选择最能代表数据信息的主成分可以减少特征的数

量,并且仍能保留较多的重要信息。在噪声过滤中,提取数据中的主成分,滤除噪声成分,能够提高数据的质量和可靠性。

需要注意的是,PCA的有效性依赖于数据之间存在线性关系的假设。

对于非线性关系较强的数据,PCA不一定能够有效降维,这时可以采用核

主成分分析完整版

主成分分析完整版

主成分分析完整版

一、主成分分析的原理

1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺

度一致。

2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元

素表示不同变量之间的相关性。

3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征

值和对应的特征向量。

4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对

应的特征向量,称之为主成分。

5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。

二、主成分分析的方法

1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。

方差解释比是计算每个主成分的方差所占总方差的比例。选择解释总方差

的比例较高的主成分,可以保留更多的信息。

2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释

比之和。通过选择累计方差解释比较高的主成分,可以保留更多的原始数

据信息。

3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。

三、主成分分析的应用

1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。通过在二维或三维空间中绘制主成分,可以更好地理解

数据的分布和关系。

2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数

据维度并保留主要信息。特征提取可以在分类、聚类等问题中提高算法的

效果。

3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,

从而节省存储空间和计算时间。压缩后的数据可以用于后续分析和处理。

stata学习笔记(四):主成份分析与因子分析

stata学习笔记(四):主成份分析与因子分析

stata学习笔记(四):主成份分析与因⼦分析

1.判断是否适合做主成份分析,变量标准化

Kaiser-Meyer-Olkin抽样充分性测度也是⽤于测量变量之间相关关系的强弱的重要指标,是通过⽐较两个变量的相关系数与偏相关系数得到的。

KMO介于0于1之间。KMO越⾼,表明变量的共性越强。如果偏相关系数相对于相关系数⽐较⾼,则KMO⽐较低,主成分分析不能起到很好的数据约化效果。

根据Kaiser(1974),⼀般的判断标准如下:

0.00-0.49,不能接受(unacceptable);

0.50-0.59,⾮常差(miserable);

0.60-0.69,勉强接受(mediocre);

0.70-0.79,可以接受(middling);

0.80-0.89,⽐较好(meritorious);

0.90-1.00,⾮常好(marvelous)。

SMC即⼀个变量与其他所有变量的复相关系数的平⽅,也就是复回归⽅程的可决系数。

SMC⽐较⾼表明变量的线性关系越强,共性越强,主成分分析就越合适。

. estat smc

. estat kmo

. estat anti//暂时不知道这个有什么⽤

得到结果,说明变量之间有较强的相关性,适合做主成份分析。

Squared multiple correlations of variables with all other variables

-----------------------

Variable | smc

-------------+---------

x1 | 0.8923

第五章 主成分分析与典型相关分析

第五章 主成分分析与典型相关分析

Var (Y1 ) l1T l1
若l1不加限制,则Var(Y1)无界。在约束条件l1Tl1=1之 下,求 l1使Var(Y1)达到最大,由此l1所确定的随机变量
Y1 l X 称为 X1,X2,…,Xp的第一主成分。
T 1
4
如果第一主成分Y1还不足以反映原变量的信息,进一 步求Y2。为了使Y1和Y2反映原变量的信息不相重叠,要 求Y1与Y2不相关,即
Yi iT X i1 X1 i 2 X 2 L ip X p , i 1,2,L , p
其中i=(i1, i2,…, ip)T. 这时易见:
Var (Yi ) i i i i , i 1, 2, L , p T T Cov(Yi , Yk ) i k k i k 0, i k
1 3
Y , X 5.38 0.383 0.925,
1 1
Y , X
1
2
5.38 (0.924) 0.958 5 5.38 0 0 2
Y , X
1
3
同理,可求得
Y , X 0, Y , X 0, Y , X 1.
2 1 2 2 2 3
即Y1与X1,X2高度相关而与X3不相关;Y2与X3,以概率1 呈完全线性关系.
T i T i
证明从略。
6

主成分分析(PCA)详解(附带详细公式推导)

主成分分析(PCA)详解(附带详细公式推导)

主成分分析(PCA)详解(附带详细公式推导)

1.假设有一个m维的数据集X,其中每个数据点有n个样本。需要将

其降维到k维,且k

2. 首先需进行数据的中心化,即对每个维度的数据减去该维度的均值,即X' = X - mean(X)。

3.然后计算协方差矩阵C=(1/n)*X'*X'^T,其中X'^T表示X'的转置。

4.对协方差矩阵C进行特征值分解,得到特征值和对应的特征向量。

5.接下来,将特征值按从大到小的顺序排列,选取前k个最大的特征

值及其对应的特征向量。

6. 最后,将选取的k个特征向量组成一个投影矩阵W =

[e1,e2,...,ek],其中ei表示第i个特征向量。

7.对中心化的数据集进行降维,Y=W*X',其中Y即为降维后的数据。

上述推导过程中,协方差矩阵C的特征值代表了数据的方差,特征向

量则代表了数据的主成分。选取最大的k个特征值和对应的特征向量,即

实现了数据的降维。

PCA的应用包括但不限于以下几个方面:

1.数据可视化:PCA能够将高维度的数据映射到二维或三维空间,从

而方便数据的可视化展示。

2.数据预处理:PCA能够降低数据的维度,从而减少噪声和冗余信息,提升后续模型的精度和效率。

3.特征提取:PCA能够提取数据中最重要的特征,从而辅助后续建模和特征工程。

4.噪声过滤:PCA能够降低数据的维度,从而过滤掉一些无关的噪声信息。

需要注意的是,PCA只能应用于线性数据,并且假设数据的方差和协方差是固定的。同时,PCA对于数据中非线性关系的捕捉能力较弱,因此在处理非线性数据时,需考虑使用其他非线性降维方法,如核主成分分析(Kernel PCA)等。

主成分分析原理及详解

主成分分析原理及详解

主成分分析原理及详解

PCA的原理如下:

1.数据的协方差矩阵:首先计算原始数据的协方差矩阵。协方差矩阵

是一个对称矩阵,描述了不同维度之间的相关性。如果两个维度具有正相

关性,协方差为正数;如果两个维度具有负相关性,协方差为负数;如果

两个维度之间没有相关性,协方差为0。

2.特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。特征值表示该特征向量对应的主成分的方差大小。特征向量表示数据

中每个维度的贡献程度,也即主成分的方向。

3.选择主成分:根据特征值的大小选择前k个主成分,使其对应的特

征值之和占总特征值之和的比例达到预定阈值。这些主成分对应的特征向

量构成了数据的新基。

4.数据映射:将原始数据投影到新基上,得到降维后的数据。投影的

方法是将数据点沿着每个主成分的方向上的坐标相加。

PCA的步骤如下:

1.数据预处理:对原始数据进行预处理,包括去除均值、缩放数据等。去除均值是为了消除数据的绝对大小对PCA结果的影响;缩放数据是为了

消除数据在不同维度上的量纲差异。

2.计算协方差矩阵:根据预处理后的数据计算协方差矩阵。

3.特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。

4.选择主成分:根据特征值的大小选择前k个主成分,其中k是满足

预设的方差百分比的最小主成分数量。

5.数据映射:将原始数据投影到前k个主成分上,得到降维后的数据。PCA的优缺点如下:

2.缺点:PCA是一种线性方法,无法处理非线性数据;PCA对异常值

敏感,可能会导致降维后的数据失去重要信息;PCA的解释性较差,不易

解释主成分和原始数据之间的关系。

主成分分析详解范文

主成分分析详解范文

主成分分析详解范文

1.理论背景

假设我们有一个n维的数据集,其中每个样本有m个特征。我们的目标是找到一个k维的新数据集(k<m),使得新的数据集中每个样本的特征之间的相关性最小。

2.算法步骤

(1)数据标准化:PCA对数据的尺度很敏感,因此首先需要对数据进行标准化,使得每个特征具有零均值和单位方差。

(2)计算协方差矩阵:协方差矩阵描述了数据中各特征之间的相关性。通过计算协方差矩阵,可以得到原始数据的特征向量和特征值。

(3)特征值分解:将协方差矩阵分解成特征向量和特征值,特征向量可以看作是新数据空间的基向量,而特征值表示这些基向量的重要性。

(4)选择主成分:根据特征值的大小,选择前k个特征向量作为主成分。

(5)数据映射:将原始数据映射到主成分空间中,得到降维后的新数据。

3.主成分的物理解释

主成分通常被认为是原始数据线性组合的结果。第一个主成分是数据变化最大的方向,第二个主成分是和第一个主成分正交且变化次之大的方向,以此类推。因此,主成分提供了原始数据的一个表示,其中每个主成分包含一部分原始数据的方差信息。

4.特征值与解释方差

特征值表示每个主成分的重要性。较大的特征值对应较重要的主成分。通过特征值的比例,我们可以了解这些主成分对数据方差的解释程度。通常,我们选择特征值之和的一部分来解释原始数据方差的比例(例如,90%)。这样可以帮助我们确定保留多少个主成分,以在保持数据信息的

同时降低数据维度。

5.应用场景

主成分分析在许多领域都有广泛的应用,包括数据预处理,模式识别,图像处理等。例如,在图像压缩中,我们可以使用PCA将图像从RGB颜色

主成分分析原理及详解

主成分分析原理及详解

第14章主成分分析

1 概述

1.1 基本概念

1.1.1 定义

主成分分析是根据原始变量之间的相互关系,寻找一组由原变量组成、而彼此不相关的综合变量,从而浓缩原始数据信息、简化数据结构、压缩数据规模的一种统计方法。

1.1.2 举例

为什么叫主成分,下面通过一个例子来说明。

假定有N 个儿童的两个指标x1与x2,如身高和体重。x1与x2有显著的相关性。当N较大时,N观测量在平面上形成椭圆形的散点分布图,每一个坐标点即为个体x1与x2的取值,如果把通过该椭圆形的长轴取作新坐标轴的横轴Z1,在此轴的原点取一条垂直于Z1的直线定为新坐标轴的Z2,于是这N个点在新坐标轴上的坐标位置发生了改变;同时这N个点的性质也发生了改变,他们之间的关系不再是相关的。很明显,在新坐标上Z1与N个点分布的长轴一致,反映了N个观测量个体间离差的大部分信息,若Z

1反映了原始数据信息的80%,则Z2只反映总信息的20%。这样新指标Z1称为原指标的第一主成分,Z2称为原指标的第二主成分。所以如果要研究N个对象的变异,可以只考虑Z1这一个指标代替原来的两个指标(x1与x2),这种做法符合PCA提出的基本要求,即减少指标的个数,又不损失或少损失原来指标提供的信息。

1.1.3 函数公式

通过数学的方法可以求出Z1和Z2与x1与x2之间的关系。

Z1=l11x1+ l12x2

Z2=l21x1+ l22x2

即新指标Z1和Z2是原指标x1与x2的线性函数。在统计学上称为第一主成分和第二主成分。

若原变量有3个,且彼此相关,则N个对象在3维空间成椭圆球分布,见图14-1。

主成分分析例题详解

主成分分析例题详解

主成分分析例题详解

主成分分析(Principal Component Analysis,简称PCA)是一种常用的数据降

维技术,用于发现数据中的主要模式和结构。本文将通过一个例题详细介绍主成分分析的原理和应用。

1. 问题描述

假设我们有一个包含10个变量的数据集,每个变量都与某个特定的因素相关。我们希望通过主成分分析来降低数据的维度,并找出对总体方差贡献最大的主成分。

2. 数据预处理

在进行主成分分析之前,我们需要对数据进行预处理。首先,我们需要对数据

进行标准化,使得每个变量具有相同的尺度。这样可以避免某些变量的值对主成分分析结果造成过大的影响。

其次,我们计算数据的协方差矩阵。协方差矩阵描述了各个变量之间的线性关系。通过计算协方差矩阵,我们可以得到数据中的主要结构和模式。

3. 特征值分解

在得到协方差矩阵之后,我们对其进行特征值分解。特征值分解可以将协方差

矩阵分解为特征值和特征向量的乘积。特征值表示了每个特征向量对应的主成分解释的方差。特征向量则表示了每个主成分的权重。

对于该例题,我们得到了10个特征值和10个特征向量。我们可以通过排序特征值的大小,找出贡献最大的主成分。

4. 主成分的选择

通常情况下,我们选择前k个特征值对应的特征向量作为主成分。这样可以保

留数据中大部分的结构和模式。

在该例题中,假设前3个特征值分别为λ1、λ2和λ3,并对应的特征向量分别

为v1、v2和v3。我们选择前3个特征值对应的特征向量作为主成分。

5. 降维和重构

通过选择主成分,我们可以将数据从原先的10维降到3维。其中,每个样本

主成分分析实例和含义讲解

主成分分析实例和含义讲解

主成分分析实例和含义讲解

1.数据标准化:对原始数据进行标准化处理,使得每个变量的均值为0,方差为1、这一步是为了将不同量级的变量进行比较。

2.计算协方差矩阵:根据标准化后的数据,计算协方差矩阵。协方差

矩阵反映了各个变量之间的线性关系。

3.特征值分解:对协方差矩阵进行特征值分解,得到特征值和对应的

特征向量。特征值表示了各个特征向量的重要程度。

4.选择主成分:根据特征值的大小,选择前k个特征向量作为主成分,k通常是根据主成分所解释的方差比例进行确定。

5.数据投影:将原始数据投影到选取的主成分上,得到降维后的数据。

主成分分析的含义可以从两个方面来解释。一方面,主成分分析表示

了原始数据在新坐标系下的投影,可以帮助我们理解数据的结构和变化。

通过选择前几个主成分,我们可以找到最能够代表原始数据的几个因素,

从而实现数据的降维。例如,在一个包含多个变量的数据集中,如果我们

选择了前两个主成分,那么我们可以通过绘制数据在这两个主成分上的投影,来理解数据的分布和变化规律。同时,主成分的累计方差贡献率可以

帮助我们评估所选择的主成分对原始数据方差的解释程度,从而确定降维

的精度。

另一方面,主成分分析还可以用于数据的预处理和异常值检测。通过

计算每个变量在主成分上的权重,我们可以判断每个变量对主成分的贡献

大小。如果一些变量的权重很小,那么可以考虑将其从数据集中剔除,从

而减少数据的维度和复杂度。此外,主成分分析还可以检测数据集中的异

常值。在降维的过程中,异常值对主成分的计算结果会产生较大的影响,因此可以通过比较各个主成分的方差贡献率,来识别可能存在的异常值。

主成分分析法总结

主成分分析法总结

主成分分析法总结

在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。

因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?

一、概述

在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。

主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:

↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。

↓主成分能够反映原有变量的绝大部分信息

因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

��������������� ���������������������
=
1 ������
������

������������������
������=1
������������
=
2
√������
1 −
������
1 ∑(������������������

��������������� ���������������������)(������������������
图二左侧所显示的从 X1X2 坐标到 Y1Y2 坐标的转换方法即为坐标变换。即 寻找一个变换矩阵������������������,使得:
������������������ = (������������������)������������������������ 并且要求该变换具有如下性质:
=
1 ������−1
〈���������→��� ,
���������→��� 〉
——(4)
所有的协方差可以组成一个 n×n 的矩阵:
������������121 ������������122 … ������������12������
〈������1→, ������1→〉 〈������1→, ������2→〉 … 〈������1→, ���������→��� 〉
=
1 ������−1
∑������������=1(������������������

������������������������������������ )(������������������

������������������������������������ )
——(3)
附 1:协方差与相关性测试程序 %协方差与相关性的测试 x1=[1 2 3 4 5 6 7 8 9]; x2=[1 2 3 4 5 6 7 8 9]; x3=[9 8 7 6 5 4 3 2 1]; x4=[1 9 5 2 8 7 4 6 3]; mean=5; sd12=((x1-mean)*(x2-mean)')/8; %=7.5 sd13=((x1-mean)*(x3-mean)')/8; %=-7.5 sd14=((x1-mean)*(x4-mean)')/8; %=0.25 subplot(1,3,1),plot(x1,x2,'b+'),title(sd12),axis equal,axis([0 10 0 10]); subplot(1,3,2),plot(x1,x3,'b+'),title(sd13),axis equal,axis([0 10 0 10]); subplot(1,3,3),plot(x1,x4,'b+'),title(sd14),axis equal,axis([0 10 0 10]);
������������������
=
(������21 ⋮
������22 ⋮

������2������) ⋮
���������1��� ���������2��� … ������������������
——(1)
������1������
该矩阵中每一列������↓������ =
������2������ ⋮
标准化后的信号���������→��� 与信号���������→��� 的协方差为:
���������������2���������
=
���������������2���������
=
1 ������−1
∑������������=1
������������������ ������������������


0 ⋮
)
0
0
… 〈���������→��� , ���������→��� 〉
——(6) ——(7)
(6)带入(7):
������������������(������������������)������ = (������������������)������������������������(������������������)������������������������
原始数据
降维数据
相互相关
相互独立
PCA
无用
有用
图一:PCA 的作用
1. 数据构成
已知 m 个数据样本,每个数据样本都是 n 维的向量,这些数据可以组成数
据矩阵������������������:(根据 m 和 n 的大小可以分为两种情况,后续详述)
������11 ������12 … ������1������
3
2) 主成分的衡量指标: 协方差能够体现不同维度数据之间的相关性,而方差则能够作为衡量某一 维度数据是否有效的指标。如图三所示,样本分布的主方向 Y1 方向的方差较 大,而 Y2 方向方差较小,可以省去 Y2,以 Y1 作为主成分。 体现在协方差矩阵中,为对角线上的元素越大,对应的维度数据越重要。
(������↓1 ������↓2 ������↓3)均为单位向量 则→ 任意〈������↓������ ������↓������〉 = ������
实际特征值求解时的情况 证明:实对称矩阵不同特征值对应特征向量正交 设 AX=λX, AY=μY. A,X,Y,λ,μ皆实,λ≠
μ,A'=A.
(λX)'=λX'=(AX)'=X'A'=X'A, λX'=X'A,此式右乘 Y:
一、
主成分分析 学习笔记
—— Principal Component Analysis
摘要
主成分分析原理和用法 wanglei 2013-05-16
Email:towanglei@163.com
一、 主成分分析介绍
主成分分析(Principal component analysis)是一种数据分析方法,用于 从大量互相混杂的数据中提取出相互独立的少量有用信息,即数据降维。
(图二左)X1 与 X2 维度之间具有线性相关相性关(数由据X1 的│值可无以关大数致据确定 X2 的值)。则能够找到一种维度坐标 Y1 和 Y2,Y1图和二Y:2 之不间同互维不度相之关间,数且据分Y1布方情况 向与样本散布方向相一致。则仅以 Y1 维度的数据值即可反应样本之间的差异。 这种 X1、X2 到 Y1 的过程即为降维。

���������→��� (

������������������������������������⁄������3
)
——(2)
2. PCA 的计算思路 PCA 解决的是取消数据不同维度之间的相关性,并找出能够最大反映样本
之间差别的维度。以二维为例如图二所示:
x2
x2
Y1
Y2
x1
x1
x2
图二:不同维度之间数据分布情况(左:相关数据,右:无关数据)
������3
������3
������1 ������1 (������2),(������2)同一向量为分别在(������↓1 ������↓2 ������↓3)和
������3 ������3 (������↓1 ������↓2 ������↓3)坐标系下的坐标值。
4
标准正交变换
PCA 的假设条件 (������↓1 ������↓2 ������↓3)任意两个向量互相垂直 则→ 任意两个〈������↓������ ������↓������〉 = ������, ������ ≠ ������
x1
(图二右)X1 与 X2 之间不具有相关性。
2
1) 相关性的衡量指标:
不同维度之间数据的相关性的可以用协方差衡量,协方差绝对值越大,相 关性越强,协方差为零则相互独立。
信号���������→��� 与信号���������→��� 的协方差的计算如下:
���������������2���������
������31 ������32 �����百度文库33
������↓1向量在(������↓1 ������↓2 ������↓3)坐标系中的坐 ������11
标为������↓1 = (������21)。 ������31
坐标变换
������1
������1
(������2) = ������−1 (������2)
a) 变换的基必须是标准正交基
由表一可知: ������−1 = ������������ 。
b) 变换后信号具有非相关性,即协方差项均为零:
〈������1→, ������1→〉
0

0
������������������(������������������)������ = (
0 ⋮
〈������2→, ������2→〉
〈���������→��� , ������1→〉 〈���������→��� , ������2→〉 … 〈���������→��� , ���������→��� 〉
=
1 ������−1
������������������
(������������������)������
——(5)
协方差矩阵ΔX2 对角线上的元素均大于零(没有常数信号的情况下)。理 想情况下该矩阵对角线外的元素应当全为零,表示任何两组不同的信号之间都 互不相关。如何将信号的协方差矩阵������������������ 转变为除对角线外元素全为零的矩 阵。(体现正交性)
x2
Y1
Y2
x1
图三:主成分与方差之间的关系
3) 坐标变换和基变换:
表 1:基变换与坐标变换的对比
基变换 (������↓1 ������↓2 ������↓3) = (������↓1 ������↓2 ������↓3)������
������11 ������12 ������13 ������ = (������21 ������22 ������23)
3. PCA 的计算流程
因为从������������������ 到��������������� ��� 的变换过程为标准正交变换,变换矩阵������������������ 为正交矩阵。根 据正交矩阵的性质:
(������������������)−1 = (������������������)������
↓ ������−������ = ������������
λX'Y=X'AY=X'(μY)=μX'Y, (λ-μ)X'Y=0.
∵λ≠μ,λ-μ≠0, ∵ X'Y=X·Y=0. X⊥Y. 但如果要求所有特征向量正交,需要使用施密特正
交化方法,以保证:
〈������↓������ ������↓������〉 = 0(λ = μ)

��������������� ���������������������)
������=1
1
������1→ − ������1������������������������⁄������1
������������������ = ������2→ − ������2������������������������⁄������2
������ =
������������221 ⋮
������������222 ⋮

������������22������ ⋮
=
������
1 −
1
(〈������2→,⋮������1→〉
〈������2→, ������2→〉 ⋮

〈������2→,⋮���������→��� 〉)
(���������������2���1 ���������������2���2 … ���������������2���������)
——(8)
由(8)式可以看出,信号之间的去相关可以用矩阵的对角化方法求出,而 ������������������则体现了是对角化过程中的线性变换。
5
c) 变换后对角线上的方差自大而小排列,以突出主成分。 4) 总结:
PCA 的思路是寻找一个标准正交变换矩阵������������������,使变换后的协方差矩阵 ������������������(������������������)������满足:对角线外的元素为零,对角线上的元素自大到小排列。在矩阵 论中成为矩阵的正交对角分解。
表示的是一个样本;每一行���������→��� = (���������1���
���������2���

��������������� ���)
(������������������)
代表的是某一维信号。
1) 标准化:
为了减少了数据量纲对数据分析的影响,将所有维度的信号都减去其均值
除以其标准差,可以得到规范化的数据矩阵������������������:
相关文档
最新文档