主成分分析(资料分享)
统计学中的主成分分析
统计学中的主成分分析主成分分析(Principal Component Analysis, PCA)是一种多变量分析方法,用于降维和数据可视化。
它通过将原始数据转换为新的坐标系,使得转换后的数据能够保留原始数据的主要变化趋势,并且可以按照重要性进行排序。
在本文中,将介绍主成分分析的原理、应用场景和步骤。
一、主成分分析原理主成分分析的核心是寻找数据中的主要变化趋势,即找到数据中的主成分。
主成分是数据最大方差方向上的投影,也即是能够解释数据中最大不同的变量。
对于一个具有p个变量的数据集,主成分分析可以得到p个主成分,按照重要性递减排序。
通过选择适当数量的主成分,可以实现对数据的降维和可视化。
主成分分析的计算过程可以通过特征值分解或奇异值分解来实现。
特征值分解会得到数据的特征向量和特征值,而奇异值分解则可以直接得到主成分。
在实际应用中,奇异值分解是更常用的方法。
二、主成分分析的应用场景主成分分析广泛应用于各个领域,包括金融、生物学、社会科学等。
下面将介绍主成分分析在这些领域的具体应用。
1. 金融:主成分分析常用于资产组合管理和风险管理。
通过将各种金融数据进行主成分分析,可以获得具有代表性的主成分,从而有效降低资产组合的维度,减少投资组合中的相关风险。
2. 生物学:主成分分析可以应用于基因表达数据的分析。
通过主成分分析,可以从大量的基因表达数据中提取出基因表达的主要变化趋势,帮助研究人员理解基因与表型之间的关系。
3. 社会科学:主成分分析可以用于社会调查数据的分析。
通过对调查数据进行主成分分析,可以发现不同变量之间的相关性,进而揭示不同因素对于社会问题的影响程度。
三、主成分分析的步骤主成分分析的步骤通常包括以下几个步骤:1. 数据标准化:对原始数据进行标准化处理,将不同量级的变量转化为标准差为1的变量。
这一步骤是为了消除变量间的量纲差异。
2. 计算协方差矩阵:根据标准化后的数据计算协方差矩阵,用于度量变量之间的相关性。
原创_ 一文读懂主成分分析
概述主成分分析PCA(Principal Component Analysis)是一种常用的数据分析方法。
PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
本文用直观和易懂的方式叙述PCA的基本数学原理,不会引入严格的数学推导。
希望读者在看完这篇文章后能更好地明白PCA的工作原理。
一、降维概述 1.1 数组和序列(Series)的维度对于数组和序列(Series)来说,维度就是shape()函数返回的结果,shape()函数中返回了几个数字,就是几维(也有人看array()开头或者结尾连续中括号的数量)。
不分行列的数组叫一维数组,此时shape返回单一的维度上的数据个数。
有行列之分的数组叫二维数组,也称为表。
一张表最多有二个维度,复数的表构成了更高维度的表。
当一个数组中存在2张3行4列的表时,shape返回的是更高维度的行和列。
当数组中存在2组2张3行4列的表时,数据就是4维,shape返回(2,2,3,4)。
数组中的每一张表,都可以是一个特征矩阵或一个DataFrame,这些结构永远只有一张表,所以一定有行列,其中行是样本,列是特征。
针对每一张表,维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。
除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。
1.2 图像中的维度对图像来说,维度就是图像中特征向量的数量。
特征向量可以理解为是坐标轴,一个特征向量定义一条直线,是一维;两个相互垂直的特征向量定义一个平面,即一个直角坐标系,就是二维;三个相互垂直的特征向量定义一个空间,即一个立体直角坐标系,就是三维;三个以上的特征向量相互垂直,定义人眼无法看见,也无法想象的高维空间。
1.3 降维解释降维算法中的“降维”,指的是降低特征矩阵中特征的数量。
降维的目的是为了让算法运算更快,效果更好,但其实还有另一种需求:数据可视化。
主成分分析法的步骤和原理
(一)主成分分析法的基本思想主成分分析(PrincipalComponentAnalysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型 假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。
设随机向量X 的均值为μ,协方差矩阵为Σ。
假设X 是以n 个标量随机变量组成的列向量,并且μk 是其第k 个元素的期望值,即,μk=E(xk),协方差矩阵然后被定义为: Σ=E{(X -E[X])(X-E[X])}=(如图对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X p Z 2=μ21X 1+μ22X 2+…μ2p X p ………………Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤 第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。
主成分分析完整版
主成分分析完整版一、主成分分析的原理1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺度一致。
2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元素表示不同变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对应的特征向量,称之为主成分。
5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。
二、主成分分析的方法1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。
方差解释比是计算每个主成分的方差所占总方差的比例。
选择解释总方差的比例较高的主成分,可以保留更多的信息。
2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释比之和。
通过选择累计方差解释比较高的主成分,可以保留更多的原始数据信息。
3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。
通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。
三、主成分分析的应用1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。
通过在二维或三维空间中绘制主成分,可以更好地理解数据的分布和关系。
2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数据维度并保留主要信息。
特征提取可以在分类、聚类等问题中提高算法的效果。
3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,从而节省存储空间和计算时间。
压缩后的数据可以用于后续分析和处理。
4.噪音过滤:主成分分析通过保留数据中最重要的特征,可以减少噪音的影响。
通过滤波后的数据可以提高实验测量的准确性和稳定性。
综上所述,主成分分析是一种强大的数据降维技术,可以在许多领域中应用。
熟悉主成分分析的原理、方法和应用,对于理解数据和提升数据分析的能力具有重要意义。
什么是主成分分析精选全文
可编辑修改精选全文完整版主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析法(PCA)
前 k 个主成分的贡献率之和
∑λ
i =1
k
i
∑λ
j =1
n
j
称为主成分 λ1 , λ2 L λk 的累计贡献率,它表明 z1 , z2 ,L zk 解释 x1 , x2 L xn 的能力。 通常取较小的 k ,使得累计贡献达到一个较高的百分比(如 80%~90%)。此时,z1 , z2 ,L zk 可用来代替 x1, x2 L xn ,从而 达到降维的目的,而信息的损失却不多。
i
1 2 i i min w + C ∑ (ζ + + ζ − ) 2 i
2
m
受限于
y − ( w x + b) ≤ ε + ζ
i T i
i + i −
( w x + b) − y ≤ ε + ζ
T i i
和我们做分类的方法一样,建立拉格朗日函 数,然后取它的对偶问题(这里也可以使用 核函数),与分类一样,我们也会得到一些 支持向量,而回归线将用它们表示.
总方差中属于主成分 zi 的比例为
λi
∑λ
j =1
k
j
称为主成分 zi 的贡献率。 第一主成分 z1的贡献率最大,表明它解释原始变量 x1 , x2 ,L xn 的能力最强,而 z1 , z2 L zk 的解释能力依次递减。 主成分分析的目的就是为了减少变量的个数,因而一般是不 会使用所有 主成分的,忽略一些带有较小方差的主成分将 不会给总方差带来大的影响。
同时我们还得到
T T w1 ∑ w1 = αw1 w1 = α
为了使方差最大,选择具有最大特征值的特征向量 , 因此,第一个主成分 w1 是输入样本的协方差阵的 具有最大特征值对应的特征向量
主成分分析法
四、主成份分析法旳环节
1)数据归一化处理:数据原则化(Z) 2)Βιβλιοθήκη 算有关系数矩阵R: 3)计算特征值;
特征值越大阐明主要程度越大。
4)计算主成份贡献率及方差旳合计贡献率; 5)计算主成份载荷与特征向量:
主成份旳负荷值大小反应了主成份因子对可测变量旳影响程 度;载荷值越大阐明此变量对主成份旳解释越多,及贡献越大。
• 因子分析 优点:第一它不是对原有变量旳取舍,而是根据原始变 量旳信息进行重新组合,找出影响变量旳共同因子,化简 数据;第二,它经过旋转使得因子变量更具有可解释性, 命名清楚性高。 缺陷 :在计算因子得分时,采用旳是最小二乘法,此法 有时可能会失效。
总之,主成份分析是因子分析旳一种特例。
谢 谢 观 看!
旋转后旳主成份因子载荷矩阵
景区满意度旋转前后成份矩阵图对比
5、碎石图分析
选用主成份旳个数,急转处是拟定主成份旳个数处。
景区满意度碎石图
八、与因子分析法旳区别
1、基本概念
➢ 主成份分析就是将多项指标转化为少数几项综合 指标,用综合指标来解释多变量旳方差- 协方差构 造。综合指标即为主成份。所得出旳少数几种主 成份,要尽量多地保存原始变量旳信息,且彼此 不有关。
注意:进行主成份旳变量之间必须要有有关性, 经过分析后变量之间独立。
二、主成份分析法基本原理
主成份分析就是设法将原来众多具有一定有关性 旳变量(如p个变量),重新组合成一组新旳相互无 关旳综合变量来替代原来变量。怎么处理?
一般数学上旳处理就是将原来p个变量作线性组合 作为新旳综合变量。怎样选择?
假如将选用旳第一种线性组合即第一种综合变量 记为F1,自然希望F1尽量多旳反应原来变量旳信 息。怎样反应?
主成分分析法例子
x7 0.79 0.009 -0.93 -0.046 0.672 0.658 1 -0.03 0.89
x8 0.156 -0.078 -0.109 -0.031 0.098 0.222 -0.03 1
0.29
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
▲贡献率:
i
p
k
k 1
(i 1,2,, p)
▲合计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)
一般取合计贡献率达85—95%旳特征值 1, 2 ,, m
所相应旳第一、第二、…、第m(m≤p)个主成份。
④各主成份旳得分
l11 l12 l1p x1
Z
l21
l22
l2
p
x2
二主成份z2代表了人均资源量。
③第三主成份z3,与x8呈显出旳正有关程度 最高,其次是x6,而与x7呈负有关,所以能 够以为第三主成份在一定程度上代表了农业 经济构造。
显然,用三个主成份z1、z2、z3替代原来9个变量(x1, x2,…,x9),描述农业生态经济系统,能够使问题更进
一步简化、明了。
x4
0.0042
0.868
0.0037
75.346
x5
0.813
0.444
-0.0011
85.811
x6
0.819
0.179
0.125
71.843
x7
0.933
-0.133
-0.251
95.118
x8
0.197
-0.1
0.97
98.971
主成分分析完整版
X的两个主成分分别为 第一主成分的贡献率为
Y1 0.040X1 0.999X2, Y2 0.999X1 0.040X2.
1 100.16 99.2% 1 2 101
R 型分析
R型分析的概念
为消除量纲影响,在计算之前先将原始数据标准化。标准
4. 由此我们可以写出三个主成分的表达式:
F1 0.56(x1 161 .2) 0.42(x2 77.3) 0.71(x3 51.2) F2 0.81(x1 161 .2) 0.33(x2 77.3) 0.48(x3 51.2) F3 0.03(x1 161 .2) 0.85(x2 77.3) 0.53(x3 51.2)
主 旋转坐标轴
x 2
F 1
成 分 分 析 的 几 何 解
F 2
•
•••
•••
• •
•
•••••••••••••••••••••••
• •
F1 x1 cos x2 sin
F2 x1 sin x2 cos
F1
F2
cos sin
sin x1
cos
x2
x2
旋转变换的目的是为了使得n个
很显然,识辨系统在一个低维空间要比在一个高维空间容 易得多。
在力求数据信息丢失最少的原则下,对高维的变量空间降 维,即研究指标体系的少数几个线性组合,并且这几个线性 组合所构成的综合指标将尽可能多地保留原来指标变异方面 的信息。这些综合指标就称为主成分。要讨论的问题是:
(1) 基于相关系数矩阵/协方差矩阵做主成分分析? (2) 选择几个主成分? (3) 如何解释主成分所包含的实际意义?
2. 求解协方差矩阵的特征方程 S I 0
主成分分析
§11.3 总体主成分的推导及性质
性质5
i 1
p
ii
( Fk , X i ) k
2
(k 1,, p)
此性质说明:上表中Fk对应的每一列关于各变量相关系数的加 权平方和为λk即Var(Fk)。
§11.3 总体主成分的推导及性质
§11.4 有关问题的讨论
(一)从协差阵出发还是从相关阵出发求主成分
根据旋转变换的公式:
F1 x1 cos x2 sin F2 x1 sin x2 cos
F1 cos F2 sin sin x1 cos x2
旋转变换的目的是为了使得n个样品点在Fl轴方向 上的离 散程度最大,即Fl的方差最大。变量Fl代表了 原始数据的绝大 部分信息,在研究某问题时,即使不
i ai uia
i 1 p
p
i (ai )(ai )
i 1
p
2 i (a i ) i 1
p
所以, aa 1 ( ai ) 2 =1 ( aU )( aU ) 1aUU a 1aa 1
i 1
而且,当a u1时,有 u1 u1 ( i i i )u1 u1
不直接由其协差阵出发而应该考虑将数据标准化。
原始数据标准化处理后倾向于各个指标的作用在主成分的构成中相等。
数据标准化的过程实际上就是抹杀原始变量离散程度差异的过程,标准化
后各变量方差相等均等于1,而实际上方差也是对数据信息的重要概括形 式,即对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准 化后各变量在对主成分构成中的作用趋于相等。
第六章-主成分分析法精选全文
可编辑修改精选全文完整版第六章 主成分分析法主成分分析法是将高维空间变量指标转化为低维空间变量指标的一种统计方法。
由于评价对象往往具有多个属性指标,较多的变量对分析问题会带来一定的难度和复杂性。
然而,这些指标变量彼此之间常常又存在一定程度的相关性,这就使含在观测数据中的信息具有一定的重叠性。
正是这种指标间的相互影响和重叠,才使得变量的降维成为可能。
即在研究对象的多个变量指标中,用少数几个综合变量代替原高维变量以达到分析评价问题的目的。
当然,这少数指标应该综合原研究对象尽可能多的信息以减少信息的失真和损失,而且指标之间彼此相互独立。
第一节 引言主成分分析,也称主分量分析,由皮尔逊(Pearson )于1901年提出,后由霍特林(Hotelling )于1933年发展了,这也正是现在多元统计分析中的一种经典统计学观点。
经典统计学家认为主成分分析是确定一个多元正态分布等密度椭球面的主轴,这些主轴由样本来估计。
然而,现代越来越多的人从数据分析的角度出发,用一种不同的观点来考察主成分分析。
这时,不需要任何关于概率分布和基本统计模型的假定。
这种观点实际上是采用某种信息的概念,以某种代数或几何准则最优化技术对一个数据阵的结构进行描述和简化。
主成分分析方法的主要目的就是通过降维技术把多个变量化为少数几个主要成分进行分析的统计方法。
这些主要成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
为了使这些主要成分所含的信息互不重迭,应要求它们互不相关。
当分析结束后,最后要对主成分做出解释。
当主成分用于回归或聚类时,就不需要对主成分做出解释。
另外,主成分还有简化变量系统的统计数字特征的作用。
对于任意p 个变量,描述它们自身及其相互关系的数字特征包括均值、方差、协方差等,共有)1(21-+p p p 个参数。
经过主成分分析后,每个新变量的均值和协方差都为零,所以,变量系统的数字特征减少了)1(21-+p p p 个。
主成分分析完整版
体重x3(kg)
38.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.5
对此进行主成分分析。
1. 求样本均值和样本协方差矩阵
x1 161.2 x2 77.3 x3 51.2
46.67
S 17.12 21.11
30.00 32.58 55.53
1、数据标准化 2、 求相关矩阵R
zij
xij si
xi
R 1 ZZT n1
Z (zij )
3、 计算R的特征值及累积贡献率,并计算相应的特征 向量
经过计算取2个主成分,信息的可靠程度超过85%
F1 0.445Z1 0.48Z2 0.45Z3 0.17Z4 0.58Z5 F2 0.45Z1 0.40Z2 0.436Z3 0.65Z4 0.16Z5
最大。
问对方题应差的的。答 单案 位特是征:向X的量协即方为差矩a11阵, aS2。1的并最且大特征就根是1 F11所的
同样,F2可以表示为 F2 a12 (x1 x1) a22 (x2 x2 )
寻找合适的单位向量 (a12, a22,) 使F2与F1独立,且 使F2的方差(除F1之外)最大。
在F1的表达式中,只有第三个指标Z3(万元产值流动资金占用 率)的系数为负值(-0.45),而Z5的系数最大,Z5与Z3是刻画 企业经营水平高低的。当Z3取值较小,Z5取值较大时,F1就较 大。于是F1在此突出地反映了一个企业经营水平的高低。
由计算结果可见,企业7的经营水平最高,企业2的经营水平最 低。
5. 主成分的含义 F1表示学生身材大小。 F2反映学生的体形特征
三个主成分的方差贡献率分别为:
1 3 i
98.15 98.15 23.60 1.56
主成分分析全
• 根据因子载荷矩阵中的数据计算特征向量 矩阵。
方法1:Transform—Compute 方法2:在Excel中计算
主成分表达式
Y1
0.075 X 1*
0.441X
* 2
0.450
X
* 3
0.544
X
* 4
0.550
X
* 5
Y2
0.787
X
* 1
0.519
X
* 2
0.106
X
* 3
0.254
X
F1
u11 X 1*
u21
X
* 2
F2
u12
X
* 1
u22
X
* 2
u
p1
X
* p
u
p
2
X
* p
Fp
u1
p
X
* 1
u2
p
X
* 2
u
pp
X
* p
• 这些系数称为主成分载荷(loading),它表示 主成分和原先各变量的线性相关系数。
解析主成分的实际意义
• 从系数的大小、系数的符号上进行分析。 • 系数绝对值较大,则表明该主成分主要综合了绝
2.576
51.520
51.520
1.389
27.790
79.310
.961
19.222
98.532
.047
.932
99.465
.027
.535
100.000
Co mp one nt Ma tri xa
Component
1
2
3
4
x1
主成分分析讲义-文档资料
满足如下的条件: 每个主成分的系数平方和为1。即
2 2 2 u u u 1 1 i 2 i pi
主成分之间相互独立,即无重叠的信息。即
Cov ( F , F ) 0 , i j , i , j 1 , 2 , , p i j
主成分的方差依次递减,重要性依次递减,即
Var ( F ) Var ( F ) Var ( F ) 1 2 p
平移、旋转坐标轴
x2
F1
主 成 分 分 析 的 几 何 解 释
F2
•• • • • • • • • • • • •• •• • • •• • • • •• • • • • •• • • • • • •
x1
平移、旋转坐标轴
•
x1
• 和
如果我们将 x 1 轴和 x 2 轴先平移,再同时 按逆时针方向旋转角度,得到新坐标轴 F 1
F2 。
根据旋转变换的公式:
x y 1 x 1cos 2s in x x 2 1s in 2cos y
y x cos sin 1 1 U x y x sin cos 2 2
量x1和x2的综合变量。F简化了系统结构,抓住了 主要矛盾。
§3
主成分的推导及性质
一、两个线性代数的结论
1、若A是p阶实对称阵,则一定可以找到正交阵U,使
1 0 0 2 1 U AU 0 0
0 0 p p p
其中 是A的特征根。 , i 1 . 2 . p i
其中1, 2,…, p为Σx的特征根,不妨假设 1 2 … p 。而 U 恰好是由特征根相对应的特 征向量所组成的正交阵。
主成分分析简介课件
4、如未收敛则回到步骤3
注:其中 k和 k 是两个待调整的参数;
函数g(y)的选择见参考文献[2]P68
逐次提取独立成分
—投影追踪方法
度量非正态性(非高斯性):
可以认为,两个独立变量之和形成的分布比两 个原始变量中的任意一个都更接近于正态分布
由于Z是Y的线性组合,只要找到一个度 量非正态性的量,使达到最大,就可以 使Y中各分量独立性最大
所找到的矩阵起到将 Qz (M ) 对角化的作 用
基于四阶累积量的JADE法
步骤: 1、取一组矩阵 M i , 由定义分别求 Qz (M i ) (矩阵的简单取法:取N*N个矩阵,分别
只有一个元素为1,或取一组对称/反对 称的基矩阵,引自[2]P53) 通过优化求解U,使各 Qz (M i ) 联合 对角化(使 (M i ) 中非对角元素的平方 和最小)
此法的矩阵集合可取为 Z [K ijkliikk ijkl (Z )]2
分解结果:
Aˆ W U , Bˆ Aˆ 1 U W , Y BX U WX
非线性PCA的自适应算法
以均方误差最小作为收敛判据, 非线性PCA引入非线性因素等效于考虑高
阶矩 算法具体步骤为: 1、对观测值求均值,用递归法求白化阵
—投影追踪方法
5、归一化: ui (k 1) ui (k 1) 2
ui (k 1)
如果 u p 未收敛,回到步骤3;
令p加1,当p<=m时,回到步骤3。
参考文献
[1] A.Hyvarinen等著,周宗潭等译,独 立成分分析,北京:电子工业出版社, 2007年
[2]杨福生、洪波著,独立分量分析的原 理与应用,北京:清华大学出版社, 2006年
主成分分析案例
Y2得分
-2.06481 2.32993 -1.47145 0.66326 -0.87181 1.25757 -1.40987 -0.36439 0.04577 -2.04139 -0.42078 0.33126 0.07660 0.86909 0.45974 -0.83575
主成分分析在 市场研究中的应用
1——5 组表示男性,6——10 组表示女性 1——5, 6——10 年龄从小到大排序
假若你是该食品加工业决策部 门的高级顾问,为了对食品生 产作出合理决策,请你对以上 的调查资料进行分析,为决策 者提供建议。
特征向量
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
特征根 i
方差贡献率
女性喜欢
一般喜欢
孩子 咖喱饭
炸肉饼、火腿面包
成人 鸡蛋烩饭、炸猪排 酸汤、大头鱼
一般不喜欢 特别不喜欢
孩子 干咖喱、浓汤 成人 煮牛肉、生蛋
菜粥、清汤
饼干、带馅面包 酱面条、烧鱼
服装的定型分类问题
为了较好地满足市场的需要,服装生产厂 要了解所生产的一种服装究竟设计几种型号合 适?这些型号的服装应按怎样的比例分配生产 计划才能达到较好的经济效益?
4、取每一组的中心 ( y1*k , y2*k ) (k=1,2,…,g) 作为该组的 代表点。
相应原16个指标的尺寸:
x1' r11 y1*k r12 y2*k x2' r21 y1*k r22 y2*k
x1' 6 r16,1 y1*k r16,2 y2*k
5、各种型号的比例按 该组样品数/128 确定。
Y2
0.513225 0.203116 -0.182858 0.193618 0.217290 0.113642 -0.164527 -0.114637 -0.509240 -0.025832 0.083471 0.132592 0.105402 0.199407 -0.181330 -0.261367 -0.295756
主成分分析
主成分的几何解释
主成分分析用数学模型表达,即对X进行 正交变换,在几何上就是作一个坐标旋 转。因此,主成分分析在二维空间中有 明显的几何意义。 假设共有n个样品,每个样品都测量了两 个指标(X1,X2),它们大致分布在一 个椭圆内:
事实上,散点的分布总有可 能沿着某一个方向略显扩张, 这个方向就把它看作椭圆的 长轴方向。显然,在坐标系 x1Ox2中,单独看这n个点的 分量X1和X2,它们沿着x1方 向和x2方向都具有较大的离 散性,其离散的程度可以分 分 别用的X1方差和X2的方差测 定。如果仅考虑X1或X2中的 任何一个分量,那么包含在 另一分量中的信息将会损失, 因此,直接舍弃某个分量不 是“降维”的有效办法。
Y1 = T1′ X 。
第一主成分的约束条件
第二主成分为, 第二主成分为,满足 T2′T2 = 1 ,且 Cov(Y2 , Y1 ) = Cov(T2′ X, T1′ X) = 0 , 使得 D(Y2 ) = T2′ ΣT2 达到最大的 Y2 = T2′ X 。 一般情形, 主成分为, 一般情形,第 k 主成分为,满足 Tk ′Tk = 1 , 到最大的 Yk = Tk ′ X 。 ,使得 且 Cov(Yk , Yi ) = Cov(Tk ′ X, Ti′ X) = 0 ( i < k ) 使得 D(Yk ) = Tk ′ ΣTk 达 ,
在这p个新变量Y中可以找到m个(m<p) 的变量(y1,y2,…,ym)能解释原始数据 中大部分方差所包含的信息。此时我们 将原始的p个变量X缩减为m个新变量y, 通过m个新变量来传递原始变量的大部 分信息,同时缩减了数据的维数。
如何找到新变量Y及正交阵T
之前说过,这一组新的变量y1,y2,…,yp 要充分反映原变量的信息,且相互独立。 信息能否反映充分,我们用变量的离异 程度来衡量,即标准差或方差。因此寻 找主成分Y的问题转化为,在保证新变量 y1,y2,…,yp相互独立的条件下,求某一 个线性组合T,使D(Y)达到最大。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析
起源及发展
主成分分析是1901年Pearson对非随机变量引入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础。
原理
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统
计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
应用学科
主成分分析作为基础的数学分析方法,其实际应用十分广泛,比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法。
评价步骤
1)对原始数据进行标准化处理
假设进行主成分分析的指标变量有m个:,,…,,共有n个评价对象,第i个评价对象的第j个指标的取值为。
将各指标值转换成标准化指标,有
,(i =1,2,…,n ; j =1,2,…,m)
其中, , ,即为第j个指标的样本均值和样本标准差。
对应地,称
,(j =1,2,…,m)
为标准化指标变量。
2)计算相关系数矩阵R
相关系数矩阵, 有
, (i,j =1,2,…,m)
式中,=,是第i个指标与第j个指标的相关系数。
3)计算特征值和特征向量
计算相关系数矩阵R的特征值,及对应的特征向量,其中,由特征向量组成m个新的指标变量:
︙
式中是第1主成分,是第2主成分,…,是第m 主成分。
4)选择个主成分,计算综合评价值
① 计算特征值的信息贡献率和累积贡献率。
称
为主成分的信息贡献率,同时,有
为主成分的累积贡献率。
当接近于1(= 0.85,0.90,0.95)时,则选择前p个指标变量作为p个主成分,代替原来m个指标变量,从而可对p个主成分进行综合分析。
② 计算综合得分:
其中为第j个主成分的信息贡献率,根据综合得分值就可进行评价。
主成分分析案例
1. 问题提出
下表给出了我国1984年-2000年宏观投资的一些数据,试利用主成分分析对投资效益进行分析和排序。
年份投资效
果系数(无
时滞)
投资效
果系数(时
滞一年)
全社会
固定资产
交付使用
率
建设项
目投产率
基建房
屋竣工率
1984 0.710.490.410.510.46
1985 0.400.490.440.570.50
1986 0.550.560.480.530.49
1987 0.620.930.380.530.47
1988 0.450.420.410.540.47
1989 0.360.370.460.540.48
1990 0.550.680.420.540.46
1991 0.620.900.380.560.46
1992 0.610.990.330.570.43
1993 0.710.930.350.660.44
1994 0.590.690.360.570.48
1995 0.410.470.400.540.48
1996 0.260.290.430.570.48
1997 0.140.160.430.550.47
1998 0.120.130.450.590.54
1999 0.220.250.440.580.52
2000 0.710.490.410.510.46s
2. 进行主成分分析
主成分分析结果如下:
序号特征根贡献率累计贡献率
1 3.1343 62.6866 62.6866
2 1.168
3 23.3670 86.0536
3 0.3502 7.0036 93.0572
4 0.2258 4.5162 97.5734
5 0.1213 2.426
6 100
3. 进行综合评价
选取前4个主成分进行分析。
彼岸准话变量的前4个主成分对应的特征向量如下:
1 0.4905 -0.2934 0.5109 0.1896 -0.6134
2 0.5254 0.0490 0.4337 -0.1217 0.7202
3 -0.4871 -0.2812 0.371
4 0.6888 0.2672
4 0.0671 0.8981 0.1477 0.3863 -0.1336
由此可得4个主成分分别为
以四个主成分的贡献率为权重,构建主成分综合评价模型:
把各年份四个主成分值代入上式,可以得到综合评价值及排序结果。
名次年份综合评价值
1 1993 2.4464
2 1992 1.9768
3 1991 1.1123
4 1994 0.8604
5 1987 0.8456
6 1990 0.2258
7 1984 0.0531
8 2000 0.0531
9 1995 -0.2534
10 1988 -0.2662
11 1985 -0.5292
12 1996 -0.7405
13 1986 -0.7789
14 1989 -0.9715
15 1997 -1.1476
16 1999 -1.2015
17 1998 -1.6848
由此可见:集中在1991-1994年间投资效益较好,集中在1997-1999年间投资效益较差,其余年份投资效益一般。
附录
gj= [0.71,0.49,0.41,0.51,0.46
0.40,0.49,0.44,0.57,0.50
0.55,0.56,0.48,0.53,0.49
0.62,0.93,0.38,0.53,0.47
0.45,0.42,0.41,0.54,0.47
0.36,0.37,0.46,0.54,0.48
0.55,0.68,0.42,0.54,0.46
0.62,0.90,0.38,0.56,0.46
0.61,0.99,0.33,0.57,0.43
0.71,0.93,0.35,0.66,0.44
0.59,0.69,0.36,0.57,0.48
0.41,0.47,0.40,0.54,0.48
0.26,0.29,0.43,0.57,0.48
0.14,0.16,0.43,0.55,0.47
0.12,0.13,0.45,0.59,0.54
0.22,0.25,0.44,0.58,0.52
0.71,0.49,0.41,0.51,0.46];
gj=zscore(gj);
r=corrcoef(gj);
[vec1,lamda,rate]=pcacov(r)
f=repmat(sign(sum(vec1)),size(vec1,1),1); vec2=vec1.*f
num=3;
df=gj*vec2(:,1:num);
tf=df*rate(1:num)/100;
[stf,ind]=sort(tf,'descend');
stf=stf',ind=ind'。