主成分分析法介绍教学文稿
19.主成分分析法
19.主成分分析法一、方法介绍 基本思路:主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。
这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。
主成分分析的基本思想就是,设法将原来众多具有一定相关性的指标(比如P 个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。
最经典的方法就是用F 1的方差来表达,即 V ar (F 1)越大,表示F 1包含的信息越多。
理论模型:设有n 个样品,每个样品观测p 项指标(变量):X 1,X 2,...,Xp ,得到原始数据资料阵:()111121,,....p P n np x x X X X X x x ⎛⎫⎪== ⎪ ⎪⎝⎭(1)其中,123.....i ii i x x X x ⎛⎫ ⎪⎪= ⎪ ⎪⎝⎭i=1,...,p用数据矩阵X 的p 个向量(即p 个指标向量)X 1,...,Xp 作线形组合(即综合指标向量)为:11112121212122221122p P p P P P P pP P F a X a X a X F a X a X a X F a X a X a X =+++⎧⎫⎪⎪=+++⎪⎪⎨⎬⎪⎪⎪⎪=+++⎩⎭(2)简写成1122i i i pi P F a X a X a X =+++ i=1,...,p (3)(注意:Xi 是n 维向量,所以Fi 也是n 维向量。
) 上述方程要求:121i i pi a a a ++= i=1,...,p (4)且系数a ij 由下列原则决定:(1)F i 与F j (i ≠j ,i ,j=1,…,p )不相关;(2)F 1是X 1,...,Xp 的一切线性组合(系数满足上述方程组)中方差最大的,F 2是与F 1不相关的X 1,...,Xp 的一切线性组合中方差最大的,…,F p 是与其他都不相关的X 1,...,Xp 的一切线性组合中方差最大的。
主成分分析法及其应用
主成分分析法及其应用一、本文概述主成分分析法(Principal Component Analysis,简称PCA)是一种广泛应用于数据降维和特征提取的统计方法。
它通过正交变换将原始数据集中的多个变量转换为少数几个互不相关的主成分,这些主成分能够最大程度地保留原始数据集中的信息。
本文旨在全面介绍主成分分析法的基本原理、实现步骤以及在各个领域中的应用案例。
我们将详细阐述主成分分析法的数学基础和算法流程,包括协方差矩阵、特征值、特征向量等关键概念的计算方法。
然后,我们将通过实例演示如何使用主成分分析法进行数据降维和特征提取,以及如何通过可视化工具展示降维后的数据效果。
我们将探讨主成分分析法在机器学习、图像处理、生物信息学、社会科学等多个领域中的实际应用,展示其在数据分析和处理中的重要价值和潜力。
二、主成分分析法的基本原理主成分分析法(Principal Component Analysis,简称PCA)是一种在多个变量中找出主要影响因素,并通过降维技术把多个变量转化为少数几个互不相关的综合变量的统计方法。
这种方法在保持数据信息损失最小的原则下,通过正交变换将原始数据转化为一个新的坐标系统,使得在这个新的坐标系统中,任何数据的最大方差都投影在第一主成分上,第二大的方差都投影在第二主成分上,以此类推。
变量降维:在多数情况下,原始数据集中可能存在多个变量,这些变量之间可能存在相关性。
主成分分析通过构造新的变量(即主成分),这些新变量是原始变量的线性组合,并且新变量之间互不相关,从而将原始的高维数据空间降维到低维空间,实现数据的简化。
方差最大化:主成分分析的另一个重要原理是方差最大化。
这意味着,第一个主成分将捕获数据中的最大方差,第二个主成分捕获第二大方差,以此类推。
通过这种方式,主成分分析能够识别出数据中的主要变化方向和模式。
数据解释性:主成分分析生成的主成分是对原始数据的线性变换,因此,每个主成分都可以被解释为原始变量的某种组合。
主成分分析讲解范文
主成分分析讲解范文下面我们来具体讲解主成分分析的步骤和原理:1.数据预处理在进行主成分分析之前,需要对原始数据进行预处理,包括去除噪声、处理缺失值和标准化等操作。
这些操作可以使得数据更加准确和可靠。
2.计算协方差矩阵协方差矩阵是衡量各个变量之间相关性的指标。
通常,我们会对数据进行标准化处理,使得各个变量具有相同的尺度。
然后,计算标准化后的数据的协方差矩阵。
3.计算特征值和特征向量通过对协方差矩阵进行特征分解,可以得到特征值和特征向量。
其中,特征值表示新坐标系中的投影方差,特征向量表示新坐标系的方向。
4.选择主成分根据特征值的大小,我们可以按照降序的方式选择主成分。
选取一部分较大的特征值所对应的特征向量,即可得到相应的主成分。
这些主成分是原始数据中最重要的成分。
5.生成投影数据通过将原始数据投影到选取的主成分上,即可得到降维后的数据。
每个样本在各个主成分上的投影即为新的特征值。
6.重构数据在需要恢复原始数据时,可以通过将降维后的数据乘以选取的主成分的转置矩阵,再加上原始数据的均值,即可得到近似恢复的原始数据。
主成分分析在实际应用中有很广泛的用途。
首先,它可以用于数据的降维,使得复杂的数据集可以在低维空间中进行可视化和分析。
其次,它可以用于数据的简化和压缩,减少数据存储和计算的成本。
此外,主成分分析还可以用于数据的特征提取和数据预处理,辅助其他机器学习和统计分析方法的应用。
然而,主成分分析也有一些限制和注意事项。
首先,主成分分析假设数据具有线性关系,对于非线性关系的数据可能失效。
其次,主成分分析对于离群值敏感,需要对离群值进行处理。
另外,主成分分析得到的主成分往往是原始数据中的线性组合,不易解释其具体含义。
总之,主成分分析是一种常用的降维数据分析方法,通过寻找新的投影空间,使得数据的方差最大化,实现数据的降维和简化。
它可以应用于数据可视化、数据压缩和特征提取等方面,是数据分析和机器学习中常用的工具之一、在应用主成分分析时,需要注意数据的预处理和对主成分的解释和理解。
主成分分析法介绍.doc
主成分分析方法我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有 n 样本,每个样本共有 p 个变量描述,这样就构成了一个 n×p阶的数据矩阵:x 11 x12 ...x1 px 21 x22 ...x2 pX... ... ... ⋯⋯⋯⋯(1) ...xn1 x n 2 ... x np如何从这么多变量的数据中抓住事物的内在规律性呢要解决这一问题, 自然要在 p 维空间中加以考察, 这是比较麻烦的。
为了克服这一困难, 就需要进行降维处理, 即用较少的几个综合指标来代替原来较多的变量指标, 而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息, 同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量 )应如何选取呢显然,其最简单的形式就是取原来变量指标的线性组合, 适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1, x 2, xp ,它们的综合指标 —— 新变量指标为 z 1 , z 2 , z m ( m ≤p)。
则z 1 l 11x 1 l 12 x 2 l 1 p x pz 2l 21x1l 22x2l 2 pxp (2)z m l m1x 1 l m2 x 2l mp x p在( 2)式中,系数 l ij 由下列原则来决定:( 1)z i与 z j ( i ≠j;i ,j=1,2, , m)相互无关;( 2)z 1 是 x 1,x 2,⋯,x p 的一切线性组合中方差最大者;z 2 是与 z 1 不相关的 x 1, x 2,⋯,x p 的所有线性组合中方差最大者; ;z m 是与 z 1,z 2,⋯⋯z m-1 都不相关的 x 1,x 2, ⋯, x p 的所有线性组合中方差最大者。
(完整版)主成分分析法的步骤和原理.doc
(一)主成分分析法的基本思想主成分分析( Principal Component Analysis )是利用降 的思想,将多个 量 化 少数几个 合 量(即主成分) ,其中每个主成分都是原始 量的 性 合,各主成分之 互不相关, 从而 些主成分能 反映始 量的 大部分信息,且所含的信息互不重叠。
[2]采用 种方法可以克服 一的 指 不能真 反映公司的 情况的缺点,引 多方面的 指 , 但又将复 因素 几个主成分, 使得复 得以 化,同 得到更 科学、准确的 信息。
(二)主成分分析法代数模型假 用 p 个 量来描述研究 象,分 用 X 1, X 2⋯X p 来表示, p 个 量构成的 p 随机向量 X=(X 1,X 2⋯X p )t 。
随机向量 X 的均 μ, 方差矩 Σ。
X 行 性 化,考 原始 量的 性 合:Z 1=μ11 X 1+μ12 X 2+⋯μ 1p X p Z 2=μ21 X 1+μ22 X 2+⋯μ 2p X p ⋯⋯ ⋯⋯ ⋯⋯Z p =μp1 X 1+μp2 X 2+⋯μ pp X p主成分是不相关的 性 合 Z 1,Z 2⋯⋯ Z p ,并且 Z 1 是 X 1,X 2 ⋯X p 的 性 合中方差最大者, Z 2 是与 Z 1 不相关的 性 合中方差最大者,⋯, Z p 是与 Z 1, Z 2 ⋯⋯ Z p-1 都不相关的 性 合中方差最大者。
(三)主成分分析法基本步第一步: 估 本数 n , 取的 指 数 p , 由估 本的原始数据可得矩 X=(x ij ) m ×p ,其中 x ij 表示第 i 家上市公司的第 j 指 数据。
第二步: 了消除各 指 之 在量 化和数量 上的差 , 指 数据 行 准化,得到 准化矩 (系 自 生成) 。
第三步:根据 准化数据矩 建立 方差矩 R ,是反映 准化后的数据之 相关关系密切程度的 指 , 越大, 明有必要 数据 行主成分分析。
主成分分析完整版
主成分分析完整版一、主成分分析的原理1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺度一致。
2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元素表示不同变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对应的特征向量,称之为主成分。
5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。
二、主成分分析的方法1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。
方差解释比是计算每个主成分的方差所占总方差的比例。
选择解释总方差的比例较高的主成分,可以保留更多的信息。
2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释比之和。
通过选择累计方差解释比较高的主成分,可以保留更多的原始数据信息。
3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。
通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。
三、主成分分析的应用1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。
通过在二维或三维空间中绘制主成分,可以更好地理解数据的分布和关系。
2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数据维度并保留主要信息。
特征提取可以在分类、聚类等问题中提高算法的效果。
3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,从而节省存储空间和计算时间。
压缩后的数据可以用于后续分析和处理。
4.噪音过滤:主成分分析通过保留数据中最重要的特征,可以减少噪音的影响。
通过滤波后的数据可以提高实验测量的准确性和稳定性。
综上所述,主成分分析是一种强大的数据降维技术,可以在许多领域中应用。
熟悉主成分分析的原理、方法和应用,对于理解数据和提升数据分析的能力具有重要意义。
主成分分析法教案
主成分分析法一、主成分分析(principal components analysis )也称为主分量分析,是由Holtelling 于1933年首先提出的。
主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。
二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp ,它们都是相关的, 一时难以综合。
这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。
我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。
任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。
如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。
由这一点来看,一项指标在个体间的变异越大越好。
因此我们把“变异大”作为“好”的标准来寻求综合指标。
例1、考察对象股票业绩(这里单个股票为观察个体)。
(1)确定影响股票业绩主要因素:主营业务收入(X1),主营业务利润(X2)利润总额(X3),净利润(X4),总资产(X5),净资产(X6),净资产收益率(X7),每股权益(X8),每股收益(X9),每股公积金(X10),速动比率(X11)作为变量。
因此对单个股票来说,用11个随机变量综合刻化。
但这些因素过多,各因素区别不明显,有交叉反映。
通过主成分分析,可降为少数几个综合指标加以刻化。
(2)考察20支不同的股票。
从数学角度看,每种影响因素是随机变量(X i ),观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了20×11的原始数据阵X20×11(略)。
三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?1、主成分的一般定义设有随机变量X1,X2,…,Xp , 其样本均数记为1X ,2X ,…,p X,样本标准差记为S1,S2,…,Sp 。
主成分分析讲义
主成分分析方法在经济问题的研究中,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量又很多。
这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。
那么怎样找综合指标?主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法,也是数学上处理降维的一种方法. 一. 主成分分析法简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。
在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。
信息的大小通常用离差平方和或方差来衡量。
主成分分析的基础思想是将数据原来的p 个指标作线性组合,作为新的综合指标(P F F F ,,,21 )。
其中1F 是“信息最多”的指标,即原指标所有线性组合中使)var(1F 最大的组合对应的指标,称为第一主成分;2F 为除1F 外信息最多的指标,即0),cov(21 F F 且)var(2F 最大,称为第二主成分;依次类推。
易知P F F F ,,,21 互不相关且方差递减。
实际处理中一般只选取前几个最大的主成分(总贡献率达到85%),达到了降维的目的。
主成分分析是一种进行信息压缩的方法。
通过这种方法,可以将原来相关的若干变量,变换成不相关的变量。
二.求主成分方法步骤: (1)对样本数据的标准化设有n个样品,P个指标,得到的原始资料矩阵为了实现样本数据的标准化,应求样本数据的平均和方差。
实验设计中的主成分分析方法
实验设计中的主成分分析方法实验设计是科学研究不可或缺的一部分,它可以帮助研究人员寻找变量之间的潜在关系并评估方案的效果。
主成分分析(PCA)是实验设计中常用的数据分析方法之一。
在本文中,我们将探讨主成分分析方法的定义、应用以及如何在实验设计中使用该方法。
什么是主成分分析?主成分分析是一种多元统计学方法,旨在将多个相关变量转换为一组无关变量,称为主成分。
主成分是根据方差的大小排序的,第一主成分包含最大方差,第二主成分次之,依此类推。
主成分的数量通常少于原始变量的数量。
主成分分析的应用主成分分析可用于不同领域的研究。
在医学领域,它可用于探索生理数据和诊断结果之间的潜在关系。
在社会科学领域,它可用于分析调查问卷数据。
在环境领域,它可用于分析水质监测数据。
主成分分析的步骤主成分分析的步骤可以归纳为以下几个步骤:1. 收集数据:将需要分析的原始数据收集起来。
2. 标准化数据:标准化数据可以确保不同变量处于相同的尺度,有利于后续的分析。
标准化可以使用z-score标准化或最大-最小标准化等方式实现。
3. 计算主成分:计算主成分可以使用传统的主成分分析方法或更高级的机器学习方法,例如k均值和深度学习。
4. 确定主成分数量:确定主成分数量的最常用方法是考虑前几个主成分的贡献率。
例如,如果前两个主成分的总贡献率超过70%,则可以将其视为显著的主成分。
5. 解释和解释主成分:通过分析每个主成分包含的变量,可以解释每个主成分的含义。
随着主成分数量的增加,解释和解释主成分会变得更为复杂。
主成分分析在实验设计中的应用主成分分析在实验设计中的应用可以分为以下几个方面:1. 降低变量数量:当实验涉及大量原始变量时,主成分分析可用于减少变量数量。
这有助于将注意力集中在更重要的变量上。
2. 探索变量之间的关系:主成分分析可用于探索变量之间的潜在关系。
如果两个变量高度相关,那么它们可能属于同一个主成分。
3. 预测:主成分分析可用于创建预测模型。
第六章-主成分分析法精选全文
可编辑修改精选全文完整版第六章 主成分分析法主成分分析法是将高维空间变量指标转化为低维空间变量指标的一种统计方法。
由于评价对象往往具有多个属性指标,较多的变量对分析问题会带来一定的难度和复杂性。
然而,这些指标变量彼此之间常常又存在一定程度的相关性,这就使含在观测数据中的信息具有一定的重叠性。
正是这种指标间的相互影响和重叠,才使得变量的降维成为可能。
即在研究对象的多个变量指标中,用少数几个综合变量代替原高维变量以达到分析评价问题的目的。
当然,这少数指标应该综合原研究对象尽可能多的信息以减少信息的失真和损失,而且指标之间彼此相互独立。
第一节 引言主成分分析,也称主分量分析,由皮尔逊(Pearson )于1901年提出,后由霍特林(Hotelling )于1933年发展了,这也正是现在多元统计分析中的一种经典统计学观点。
经典统计学家认为主成分分析是确定一个多元正态分布等密度椭球面的主轴,这些主轴由样本来估计。
然而,现代越来越多的人从数据分析的角度出发,用一种不同的观点来考察主成分分析。
这时,不需要任何关于概率分布和基本统计模型的假定。
这种观点实际上是采用某种信息的概念,以某种代数或几何准则最优化技术对一个数据阵的结构进行描述和简化。
主成分分析方法的主要目的就是通过降维技术把多个变量化为少数几个主要成分进行分析的统计方法。
这些主要成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
为了使这些主要成分所含的信息互不重迭,应要求它们互不相关。
当分析结束后,最后要对主成分做出解释。
当主成分用于回归或聚类时,就不需要对主成分做出解释。
另外,主成分还有简化变量系统的统计数字特征的作用。
对于任意p 个变量,描述它们自身及其相互关系的数字特征包括均值、方差、协方差等,共有)1(21-+p p p 个参数。
经过主成分分析后,每个新变量的均值和协方差都为零,所以,变量系统的数字特征减少了)1(21-+p p p 个。
主成分分析完整版
01
主成分分析的步骤
1.将原始数据标准化; 2.根据标准化变量求出协方差矩阵(标准化后协方差矩阵与相关矩阵完全一样); 3.求出相关矩阵的特征值,计算累计贡献率,及其对应的特征向量; 4.确定主成分,进一步分析。
对于X=(X1,X2,…, Xp),设
则标准化变量为
企业的经济效益分析 某市对下属10个企业作经济效益分析,根据经济统计原理,用取得的生产成果与各项成本的消耗作对比,来衡量每个企业的经济效益,也就是用下述五个指标来对每个企业进行分析。 Z1:固定资产的产值率 Z2:净产值劳动生产率 Z3:万元产值的流动资金占用率 Z4:万元产值利润率 Z5:万元资金的利润率
假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论 m 个新的指标F1,F2,…,Fm(m<p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。
其中
2 数学模型与几何解释
这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。
在F1的表达式中,只有第三个指标Z3(万元产值流动资金占用率)的系数为负值(-0.45),而Z5的系数最大,Z5与Z3是刻画企业经营水平高低的。当Z3取值较小,Z5取值较大时,F1就较大。于是F1在此突出地反映了一个企业经营水平的高低。
由计算结果可见,企业7的经营水平最高,企业2的经营水平最低。
2.第二主成分F2的意义
基于相关系数矩阵/协方差矩阵做主成分分析? 选择几个主成分? 如何解释主成分所包含的实际意义?
在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:
主成分分析简介课件
4、如未收敛则回到步骤3
注:其中 k和 k 是两个待调整的参数;
函数g(y)的选择见参考文献[2]P68
逐次提取独立成分
—投影追踪方法
度量非正态性(非高斯性):
可以认为,两个独立变量之和形成的分布比两 个原始变量中的任意一个都更接近于正态分布
由于Z是Y的线性组合,只要找到一个度 量非正态性的量,使达到最大,就可以 使Y中各分量独立性最大
所找到的矩阵起到将 Qz (M ) 对角化的作 用
基于四阶累积量的JADE法
步骤: 1、取一组矩阵 M i , 由定义分别求 Qz (M i ) (矩阵的简单取法:取N*N个矩阵,分别
只有一个元素为1,或取一组对称/反对 称的基矩阵,引自[2]P53) 通过优化求解U,使各 Qz (M i ) 联合 对角化(使 (M i ) 中非对角元素的平方 和最小)
此法的矩阵集合可取为 Z [K ijkliikk ijkl (Z )]2
分解结果:
Aˆ W U , Bˆ Aˆ 1 U W , Y BX U WX
非线性PCA的自适应算法
以均方误差最小作为收敛判据, 非线性PCA引入非线性因素等效于考虑高
阶矩 算法具体步骤为: 1、对观测值求均值,用递归法求白化阵
—投影追踪方法
5、归一化: ui (k 1) ui (k 1) 2
ui (k 1)
如果 u p 未收敛,回到步骤3;
令p加1,当p<=m时,回到步骤3。
参考文献
[1] A.Hyvarinen等著,周宗潭等译,独 立成分分析,北京:电子工业出版社, 2007年
[2]杨福生、洪波著,独立分量分析的原 理与应用,北京:清华大学出版社, 2006年
《主成分分析法》课件
主成分分析法的目的是减少数据的维 度,同时保留数据中的主要信息,以 便更好地理解和分析数据。
历史与发展
1901年
由英国统计学家Karl Pearson提出主成分的概 念。
1933年
美国统计学家Harold Hotelling将主成分分析 法应用于心理学和教育学领域。
20世纪70年代
随着计算机技术的发展,主成分分析法在各个领域得到广泛应用。
04
主成分分析法的步骤
数据标准化
总结词
消除量纲和数量级对分析的影响
详细描述
在进行主成分分析之前,需要对数据进行标准化处理,即将各指标的均值调整为0,标准差调整为1, 以消除不同量纲和数量级对分析的影响。
计算相关系数矩阵
总结词
衡量变量间的相关性
VS
详细描述
通过计算原变量之间的相关系数矩阵,可 以了解各变量之间的相关性。相关系数矩 阵中的元素表示各指标之间的相关系数, 用于衡量变量间的线性关系。
详细描述
市场细分是主成分分析法在市场营销领域中的重要应 用。通过对市场数据进行主成分分析,可以提取出影 响市场需求的共同因素,进而将市场划分为不同的子 市场。这种分析方法有助于企业识别不同子市场的需 求特点、消费行为和竞争状况,为制定针对性的营销 策略提供依据。
实例二:客户分类
要点一
总结词
利用主成分分析法对客户进行分类,有助于企业更好地了 解客户群体特征,提高客户满意度和忠诚度。
01
数学模型
主成分分析通过线性变换将原始 变量转换为彼此独立的主成分, 这种变换是线性的。
变换矩阵
02
03
特征向量
线性变换需要一个变换矩阵,该 矩阵由原始变量和主成分之间的 系数构成。
主成分分析方法范文
主成分分析方法范文在主成分分析中,我们将数据从一个高维空间映射到一个低维空间,同时保留数据的主要结构和方差信息。
这个低维空间的维度通常比原始数据的维度低,因此可以更方便地进行可视化和分析。
主成分分析的基本思想是通过线性组合来构建新的特征,使得投影后的数据具有最大的方差。
具体来说,假设我们有一个具有n个样本和m个特征的数据集,其中$n\geq m$。
我们的目标是找到k个正交的线性组合,将数据从m维空间映射到k维空间中。
这些线性组合被称为主成分,主成分的个数k通常比m小。
我们可以通过计算协方差矩阵来找到这些主成分,然后对协方差矩阵进行特征值分解,获得特征值和特征向量。
特征向量即为主成分,它们与特征值一起表示了数据的主要结构。
1.数据标准化:如果原始数据的特征具有不同的量纲或者度量单位,我们首先需要对数据进行标准化处理,使得每个特征的均值为0,方差为1、这样可以确保每个特征对结果的影响权重是相同的。
2.计算协方差矩阵:在将数据标准化后,我们计算标准化后的数据的协方差矩阵。
协方差矩阵的元素表示了数据中两个特征之间的相关性。
协方差矩阵是一个对称矩阵,对角线上的元素表示了每个特征的方差,非对角线上的元素表示了两个特征之间的协方差。
3.特征值分解:我们对协方差矩阵进行特征值分解,得到特征值和特征向量。
特征值代表了主成分的重要性,特征向量表示了主成分的方向。
4.选择主成分:我们按照特征值的大小对特征向量进行排序,选择k 个最大的特征向量作为主成分。
这些主成分按照重要性递减的顺序排列,第一个主成分解释了最大的方差,第二个主成分解释了次大的方差,以此类推。
5.获得映射矩阵:我们将选择的k个特征向量按列排列,构成映射矩阵,将原始数据投影到主成分空间中。
6.降维:最后,我们将原始数据乘以映射矩阵,得到降维后的数据。
这些降维后的数据具有较低的维度,但仍然能够保留原始数据的主要结构和方差信息。
在实际应用中,主成分分析也存在一些局限性。
主成分分析实例及含义讲解PPT学习教案
C om p on e nt Ma t ri xa
Component
1
2
3
4
5
6
MATH
-.806
.353
-.040
.468
.021
.068
PHYS
-.674
.531
-.454
-.240
-.001
-.006
CHEM
-.675
.513
.ቤተ መጻሕፍቲ ባይዱ99
-.181
.002
.003
LITERAT
.893
.306
第23页/共106页
24
这里,第一个因子主要和语文、历史、英语三科有很强的正相关 ;而第二个因子主要和数学、物理、化学三科有很强的正相关。 因此可以给第一个因子起名为“文科因子”,而给第二个因子起 名为“理科因子”。从这个例子可以看出,因子分析的结果比主 成分分析解释性更强。
第24页/共106页
25
第16页/共106页
17
Component Plot
1.0
cphheyms
.5 math
heinstgolirsyh literat
0.0
该图左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外 语三科。图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐 标是前面的第一-.5 二主成分载荷,坐标是前面表中第一二列中的数目,还是 可以识别的。
• 这些系数所形成的散点图(在SPSS中也称载荷图)为
当然,对于计算机来说,因子分析并不比主成分分析多费多少时间。 从输出的结果来看,因子分析也有因子载荷(factor loading)的概念,
代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷 和主成分分析中的因子载荷位置不同。因子分析也给出了二维图;但解 释和主成分分析的载荷图类似。
第2讲 主成分分析
§2 主成分分析2.1 主成分的基本思想主成分分析(principal component analysis )也称主分量分析,是1901年提出,再由霍特林(Hotelling1933)加以发展的一种统计方法.基本思想:主要目的利用降维的思想,在损失很少信息的前提下把多个变量(指标)转化为几个综合指标(变量)的多元统计方法.转化成的综合指标称为主成分,每个主成分是原始变量的线性组合且各个主成分之间互不相关,主成分保留原始变量的绝大部分信息问题:100名学生的六门课程的成绩:问:能否把6个变量X1,X2,…,X6(数学、物理等6科成绩),用一两个综合变量 Y1,Y2来表示?Y1,Y2包含有多少原来的信息呢?能否用综合变量对成绩排序或进行其他分析?例中每个观测值是6维空间(X1,X2,…,X6)中的点, 共100个。
希望把6维空间用低维空间(Y1,Y2)表示.2.2 主成分分析的几何意义设有两变量21,X X (数学、语文成绩),构成二维随机向量T X X ),(21=X ,0)(=X E .观测n 次数据),(21i i i x x =x ,),,2,1(n i =,1)()())((),(21221121≈⋅--=DX Var X Var EX X EX X E X X ρ,则样本点在坐标系21Ox x 下基本分布在一条直线l 上如图,在l 上分散性最大,而在与l 垂直的方向上变化很小.为了分析更清楚,做线性变换X U Y ⋅==TY Y ),(21⎩⎨⎧+-=+=θθθθcos sin sin cos 212211X X Y X X Y ⎪⎪⎭⎫⎝⎛-=θθθθcos sin sin cos U 是正交矩阵 相当于坐标系21Ox x 逆时针旋转θ角得新坐标系21Oy y ,原观测点在新坐标系下可表为⎪⎩⎪⎨⎧+-=+=θθθθcos sin sin cos 212211i i i i i i i i i i x x y x x y旋转后数据12111,,,n y y y 和22212,,,n y y y 分别反映了在垂直方向21,y y 上数据的分散性信息.由图知在轴1y 上数据值分散性最大(具最大样本方差∑=--=ni i y y n s 121121)(11),说明)(1Y Var 最大.而垂直方向2y 上数据分散性最小,)(2Y Var 最小.因此,1Y 的观测值12111,,,n y y y 基本反映了),(21X X =X 观测值变化的基本情况,可用一维随机变量1Y 代替二维随机变量),(21X X =X ,达到降维的目的.称1Y 为第一主成分,其系数向量)sin ,(cos ),(12111θθ==a a T a ,具有1221211=+a a .2Y 为第二主成分,其系数向量)cos ,sin -(),(22212θθ==a a T a ,1222212=+a a .图4-1 二维随机向量的第一、第二主成分示意图二维随机向量X 的100个点构成一个椭圆形状,见上图.主成分分析的目的:构造原变量的一系列线性组合,使其方差(或样本方差)达到最大.p 维随机向量X 的主成分其实就是p 个变量p X X X ,,,21 的一些特殊的线性组合,在几何上这些线性组合正好把p X X X ,,,21 构成的原坐标系统经过旋转后产生新坐标系统,这个新坐标系统的轴方向上具有最大的变异,同时提供了协方差阵的最简洁的表示(非对角 线上为0).2.3总体主成分 一.基本理论1设某一事物研究涉及p 个指标p X X X ,,,21 ,构成T p X X X ),,,(21 =X ---p 维随机向量,均值μ=X E ,协方差阵]))())(([)()()(T p p ij E E E D Cov X X X X ΣX X --====⨯σ非负定.考虑p X X X ,,,21 的一个线性组合(或称对X 线性变换形成新的综合变量Y ):p p T X a X a X a X Y 121211111+++== a 这里),,,(112111p Ta a a =a .对于综合变量1Y ,我们要确定),,,(112111p Ta a a =a ,使得1Y 的方差1111)(V )Var(Y Σa a a T T X ar ==达到最大.由于对任意给定的常数c ,1121)(V Σa a T T c X ca ar =,如果对1a 不加以限制,上述问题 就变得毫无意义.于是限制在111=a a T 下,求)(V 1X ar T a 的最大值. 如果第一主成分1Y 在1a 方向上的分散性还不足以反映原变量的分散性,再构造p X X X ,,,21 的线性组合:pp T X a X a X a Y 222212122+++== X a 这里),,,(222212p T a a a =a ,要求2Y 和1Y 不相关(信息不重叠),即 ,122=a a T 0),(1212==Σa a T Y Y Cov ,使)(V 2X ar T a 达最大. 0),(),(121211===Σa a X a X a TT T Cov Y Y Cov 转化为在约束条件022=a a T 和012=Σa a T 下,求2a 使得使)(V 2X ar Ta 达最大.一般,若121,,,-k X X X 还不足以反映原变量的信息,则进一步构造p X X X ,,,21 的线性组合p kp k k Tk k X a X a X a Y +++== 2211X a ,求),,2,1(p k k =a 满足:(1)系数向量单位化1=k T k a a ;(2)各主成分不相关,无重叠信息0),(==k Tj k j Y Y Cov Σa a ,k j ≠;(3)主成分方差由此递减0)(V )(V )(V 21≥≥≥≥p Y ar Y ar Y ar .二.总体主成分求法p 维随机变量T p X X X ),,,(21 =X ,X 的协方差矩阵Σ的p 个特征值021=≥≥≥p λλλ ,且特征值所对应的特征向量分别为m e e e ,,,21 ,则X 的第k 个主成分为p kp k k T k k X e X e X e X Y +++== 2211e ,p k ,,2,1=,T kp k k k e e e ),,,(21 =e且⎪⎩⎪⎨⎧≠=======k j e Y Y Cov p k Y Var k Tj k k T j k j k k Tk k k T k k 0),(,,2,1)(e e Σe e e Σe e λλλ 证明:(可略)Σ 非负对称,则存在正交矩阵),,,(21p e e e P =,使⎪⎪⎪⎪⎪⎭⎫⎝⎛==p T λλλ21ΛΣP P 为对角阵,且p e e e ,,,21 为标准正交化的特征向量. 证明:Σ 非负对称,则存在正交矩阵),,,(21p e e e P =,使⎪⎪⎪⎪⎪⎭⎫⎝⎛==p T λλλ21ΛΣP P 为对角阵,且p e e e ,,,21 为标准正交化的特征向量. (1)第一主成分为X e TY 11=选X a T Y 11=满足,111=a a T 使得)(V 1X ar T a 最大. 令 ,),,,(1112111a P z TT p z z z == 则11111111,1Pz a a a a PP a z z ====T T T T且1111111)(Λz z ΣPz P z Σa a TT T T Y Var ===11112121221112121222111)(λλλλλλ==+++≤+++=z z Tp p p z z z z z z当T )0,,0,1(1 =z 时,上式取等号,从而111e Pz a ==时,)(V 1X ar Ta 达最大,得第 一主成分X e TY 11=.(2)第二主成分为X Te Y 22=对第二主成分,X a TY 22=,满足,122=a a T0),(1212==Σa a TY Y Cov ,使)(V 2X ar Ta 达最大.令 ,),,,(2222212a P z TTp z z z == 则,12222==a a z z TT且由2112122211211212121121200z Tp p T T T T T T T T =+++===⇒===e e z e e z e e z e P z e a e a Σe a Σa a λ故 22222222112222222)(p p T T T T z z z Y Var λλλ+++==== Λz z ΣPz P z Σa a2222222222222222)(λλλλλ==++≤++=z z Tp p p z z z z当T )0,,1,0(2 =z 时,上式取等号,从而222e Pz a ==时,满足,122=a a T 0),(12112==e a T Y Y Cov λ,且使22)(V λ=X ar T a 达最大,得第二主成分X T e Y 22=.类似可证.三.总体主成分的性质(1)主成分协方差矩阵及总方差T p Y Y Y ),,,(21 =Y 为p 个主成分构成的随机向量,则X P Y T =,其中),,,(21p P e e e =为Σ的p 个正交单位化特征向量构成的正交矩阵,主成分向量Y 的协方差阵为 ⎪⎪⎪⎪⎪⎭⎫⎝⎛===p T T Cov Cov λλλ21)()(ΣP P X P Y 各主成分的总方差∑∑∑∑========pk k p k kk pk kp k kX Var tr Y Var 1111)()()(σλΣT p X X X ),,,(21 =X 的各变量总方差分解成不相关变量p Y Y Y ,,,21 的总方差.(2)主成分的贡献率与累计贡献率∑==pj j k k P 1/λλ——第k 个主成分的贡献率它反映了第k 个主成分提取全部信息的多少∑∑==pj jk j j 11/λλ——前k 个主成分的累积贡献率它反映了前k 个主成分共同提取全部信息的多少.说明:第k 个主成分与原始变量i X 的相关系数),(i k X Y ρ称为因子载荷.)(/),(i k ki i k X Var X Y λρe =1),(12=∑=pi i k X Y ρ四.主成分分析—PROC PRINCOMP 过程基本语句形式:PROC PRINCOMP <DATA =SAS 数据集1> <OUT=SAS 数据集2><OUTSTAT=SAS 数据集3> <COV> <N=n> <PREFIX=name>; /* 指出要进行分析的SAS 集名称、输出集等 */V AR 变量名称; /* V AR 后面列出数据集中参与主成分分析的变量名称,若省略此句,则数据集中所有数值变量均参与分析*/ RUN;例2.1 设随机向量TX X X ),,(321=X 协方差矩阵为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=200052021Σ,求X 主成分.解:法一:直接计算(1)求⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=200052021Σ特征根求特征根并依大到小排列828.52231≈+=λ,22=λ172.022-31≈=λ (2)正交单位化的特征向量解0000100021-1321=⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎪⎭⎫ ⎝⎛+x x x 得,21)21(x x -=,03=x 求出特征根⎪⎪⎪⎪⎭⎫ ⎝⎛-=01211α,单位化得⎪⎪⎪⎭⎫ ⎝⎛-≈09328.03876.01e⎪⎪⎪⎭⎫ ⎝⎛→⎪⎪⎪⎭⎫ ⎝⎛-=-000010001000032021)(2ΣI λ解0)(3212=⎪⎪⎪⎭⎫ ⎝⎛-x x x ΣI λ得021==x x ,3x 任意,求出⎪⎪⎪⎭⎫ ⎝⎛=1002e解0000100021-1321=⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎪⎭⎫ ⎝⎛-x x x ,得21)21(x x +=,03=x 求出特征根⎪⎪⎪⎪⎭⎫ ⎝⎛+=01211α, 单位化得⎪⎪⎪⎭⎫ ⎝⎛≈03876.09328.03e特征向量对应的特征根不同,故互相正交. (3)求主成分21322113876.09328.09328.03876.0x x y x y x x y +≈=+-≈(4)贡献率第一、二三主成分的贡献率321λλλλ++i分别为0.7286,0.2500,0.0214.法二:程序实现data examp2_1 (type=cov); /* 建立数据集,数据集为协方差矩阵要加上(type=cov) */ _type_='cov'; /* 输入数据集为协方差矩阵要加上_type_=’cov ’ */ input _name_ $ x1-x3; /* 输入变量要加上_name_ $,取值可指定为输入的变量名 */ cards ; x1 1 -2 0 x2 -2 5 0 x3 0 0 2 ; run ;proc princomp data =examp2_1 cov outstat =bb; /* 调用主成分分析的princomp 过程,从协方差阵出发进行主成分分析,命令一个含变量均值、协方差阵、特征值、特征向量的输出SAS 集bb */ var x1-x3; /* 参与分析变量为x1-x3 */ run ;proc print data =bb; /* */ run ;SAS 系统 10:24 Sunday, November 2, 2008 1The PRINCOMP Procedure Observations 10000 Variables 3Total Variance 8协方差矩阵∑的特征值、各主成分的贡献率、累计贡献率Eigenvalues of the Covariance MatrixEigenvalue Difference Proportion Cumulative 特征值 贡献率 累计贡献率 1 5.82842712 3.82842712 0.7286 0.7286 2 2.00000000 1.82842712 0.2500 0.9786 3 0.17157288 0.0214 1.0000协方差矩阵∑特征值排序的正交化特征向量Eigenvectors第一主成分 第二主成分 第三主成分 Prin1 Prin2 Prin3 x1 -.382683 0.00000 0.923880 x2 0.923880 0.00000 0.382683 x3 0.000000 1.00000 0.000000输出数据集 含各变量均值、观测数据个数1000、协方差阵、特征值和特征向量等SAS 系统 10:24 Sunday, November 2, 2008 2 Obs _TYPE_ _NAME_ x1 x2 x3 1 MEAN 0.00 0.00 0.00 观测个数默认10000 2 N 10000.00 10000.00 10000.00 协方差矩阵 3 COV x1 1.00 -2.00 0.00 4 COV x2 -2.00 5.00 0.00 5 COV x3 0.00 0.00 2.00 特征值 6 EIGENVAL 5.83 2.00 0.17 主成分1Y 7 SCORE Prin1 -0.38 0.92 0.00 主成分2Y 8 SCORE Prin2 0.00 0.00 1.00 9 SCORE Prin3 0.92 0.38 0.00五.基于相关系数矩阵的主成分分析--标准化变量的主成分将T p X X X ),,,(21 =X 标准化 kkk kk X X σμ-=*,p k ,,2,1 =,则1)(*=k X Var .令),,,(**2*1*p X X X =X ,jjii j i j i ij X X Cov X X E σσρ),(),(**==,*X 的协方差矩阵)()(*X ρCov p p ij ==⨯ρ恰为X 的相关系数矩阵.主成分分析步骤:1) 求X 的相关系数矩阵ρ的特征值0**2*1≥≥≥≥p λλλ 2) 相应*k λ的正交化的特征向量Tkp k k k e e e ),,,(**2*1*=e3) ),,,(**2*1*p X X X =X 的第k 个主成分为**2*2*1*1***)(pkp k k T k k X e X e X e Y +++== X e ,p k ,,2,1 = 且有p X Var YVar pk k p k k pk k===∑∑∑===1*1*1*)()(λ4) pk pj j k//*1**λλλ=∑= —— 第k 个主成分的贡献率 p k pj j kj j//*1*1*λλλ=∑∑==——前k 个主成分的累积贡献率 例 2.2 TX X X ),,(321=X 协方差矩阵为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=200052021Σ,从ρ出发进行主成分分析.解:程序如下data examp2_2 (type=cov); /* 建立数据集,数据集为协方差矩阵要加上(type=cov) */ _type_='cov'; /* 输入数据集为协方差矩阵要加上_type_=’cov ’ */ input _name_ $ x1-x3; /* 输入变量要加上_name_ $,取值可指定为输入的变量名 */ cards ; x1 1 -2 0 x2 -2 5 0 x3 0 0 2 ; run ;proc princomp data =examp2_2 outstat =bb; /* 调用主成分分析的princomp 过程,从相关系数矩阵出发进行主成分分析,命令一个含变量均值、协方差阵、特征值、特征向量的输出SAS 集bb */ var x1-x3; /* 参与分析变量为x1-x3 */ run ;从相关系数矩阵出发进行主成分分析The SAS System 20:59 Wednesday, July 14, 2013 4The PRINCOMP Procedure Observations 10000 Variables 3Eigenvalues of the Correlation Matrix相关系数矩阵ρ的特征值、各主成分的贡献率、累计贡献率Eigenvalue Difference Proportion Cumulative特征值 贡献率 累计贡献率1 1.89442719 0.89442719 0.6315 0.63152 1.00000000 0.89442719 0.3333 0.9648 3 0.10557281 0.0352 1.0000Eigenvectors相关系数矩阵ρ按特征值排序的正交化特征向量Prin1 Prin2 Prin3第一主成分*1e 第二主成分*2e *3ex1 0.707107 0.00000 0.707107 x2 -.707107 0.00000 0.707107 x3 0.000000 1.00000 0.000000从相关系数矩阵ρ出发做主成分分析,即求X 标准化向量*X 的主成分,ρ的特征值及正交单位化的特征向量分别为89.1*1=λ, T )0,707.0,707.0(*1-=e , *2*1**1*1707.0707.0X X Y T -==X e 1*2=λ, T )1,0,0(*2=e , 3*3X Y = 106.0*3=λT )0,707.0,707.0(*3=e *2*1**3*3707.0707.0X X Y T +==X e 第一主成分贡献率下降为%15.63*3*2*1*1=++λλλλ,前两个主成分贡献率97.89%. 由此看到,用相关系数矩阵求主成分,使得1X 的重要性得到了提升.2.4样本主成分T p X X X ),,,(21 =X 的协方差矩阵Σ(或相关系数矩阵ρ)未知,可以利用样本协方差矩阵S 或样本相关系数矩阵R 作为Σ或ρ的估计进行主成分分析.一.基于样本协方差矩阵的主成分分析来自于总体X 的容量为n 的样本观测数据 Tip i i i x x x ),,,(21 =x ,n i ,,2,1 = 样本协方差矩阵∑∑=⨯=⨯---=⎪⎭⎫⎝⎛---==n i T i i p p n i k ik j ij pp jk n x x x x n s 11)(11))((11)(x )(x x x S 其中 Tp x x x ),,,(21 =x , ∑==ni ij j x n x 11为j X ),,2,1(p j =的样本均值. 求主成分步骤:(1)求样本协方差矩阵S 特征值0ˆˆˆ21≥≥≥≥pλλλ ; (2)相应的正交单位化特征向量p e e eˆ,,ˆ,ˆ21 ,)ˆ,,ˆ,ˆ(ˆ21kp k k k e e e e =; (3)第k 个样本主成分pkp k k T k k x e x e x e y ˆˆˆˆ2211+++== x e , p k ,,2,1 =(4)pk pj j k /ˆˆ/ˆ1λλλ=∑= —— 第k 个样本主成分的贡献率p kj jp j jk j j/ˆˆ/ˆ111∑∑∑====λλλ——前k 个主成分的累积贡献率(5)第k 个样本主成分的n 个观测值称为第k 个样本主成分的得分,可以依据得分对各组样本观测数据进行排序ipkp i k i k i T k ik x e x e x e y ˆˆˆˆ2211+++== x e (n i ,,2,1 =) 样本主成分的观测数据(得分向量)),,2,1(),,,(21n i y y y T ip i i i ==y注意:样本主成分的观测数据(得分)的协方差矩阵⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎭⎫ ⎝⎛---==⨯=⨯∑p pp n i k ik j ij p p T k T j y y y y n λλλˆˆˆ))((11)ˆˆ(ˆ211 e S e S 样本总方差=.ˆ11∑∑===pk kpk kksλ 二.基于样本相关系数矩阵的主成分分析样本相关系数矩阵pp kk jj jkpp jk s s s r ⨯⨯⎪⎪⎭⎫⎝⎛==)(R 出发进行主成分分析,相当于从标准化样本 n i S x x S x x S x x pp pip i i i ,,2,1,,,22221111* =⎪⎪⎭⎫ ⎝⎛---=x的样本协方差矩阵出发进行主成分分析,求出R 的特征值和正交单位化的特征向量即可.样本总方差为p .步骤: 1)求R 的特征值0ˆˆˆ**2*1≥≥≥≥pλλλ 2)相应的正交单位化特征向量**2*1ˆ,,ˆ,ˆp e e e,)ˆ,,ˆ,ˆ(ˆ**2*1*kp k k k e e e =e 3)第k 个样本主成分***2*2*1*1**ˆˆˆˆpkp k k Tk k x e x e x e y +++== x e , p k ,,2,1 = 4)p kpj jk /ˆˆ/ˆ*1**λλλ=∑= ——第k 个样本主成分的贡献率 p kj j pj jkj j /ˆˆ/ˆ1*1*1*∑∑∑====λλλ——前k 个主成分的累积贡献率 5)第k 个样本主成分的得分***2*2*1*1***ˆˆˆˆip kp i k i k i k ik x e x e x e y +++== x e (n i ,,2,1 =)表2.1 p 个变量的原始数据及其主成分得分序号 原变量 主成分p X X X ,,,21 p Y Y Y ,,,211 p x x x 11211 p y y y 112112 p x x x 22221 p y y y 22221n np n n x x x 21 np n n y y y 21例2.3 为全面了解我国西北某省的十家上市公司的获利能力和经营发展能力,特选取公司如下六个指标进行分析:1X :每股净收益; 2X :净资产收益率; 3X :主营业务收益率;4X :主营业务增长率; 5X :净资产增长率; 6X :总资产增长率.其中前三个变量反映了上市公司的获利能力,后三个变量反映了公司的经营发展能力.表1.3给出了这10家公司关于六个指标在过去三年取值的加权平均,对其做主成分分析,并按第一主成分对这10家公司的综合能力进行排序.表2.2 10家上市公司的获利和发展能力数据公司编号 X1 X2 X3 X4 X5 X61 0.021 26.806 57.311 -39.819 -39.819 8.8192 -0.142 -7.179 16.335 -11.359 -4.766 -4.6263 -0.737 -62.417 7.359 -18.378 -19.165 12.2894 0.320 7.276 17.372 39.506 19.858 41.9395 0.160 4.820 38.323 37.113 23.744 34.0636 0.351 11.842 23.118 14.725 11.616 9.5167 0.243 5.173 17.515 14.435 123.101 79.4898 -0.190 -10.912 8.236 -2.746 -7.439 -10.502 9 0.173 7.543 23.978 17.122 21.318 25.701 10 0.367 9.352 16.048 55.621 27.861 18.918解:程序如下:data examp2_3; input id x1-x6; cards ;1 0.021 26.806 57.311 -39.819 -39.819 8.8192 -0.142 -7.179 16.335 -11.359 -4.766 -4.6263 -0.737 -62.417 7.359 -18.378 -19.165 12.2894 0.320 7.276 17.372 39.506 19.858 41.9395 0.160 4.820 38.323 37.113 23.744 34.0636 0.351 11.842 23.118 14.725 11.616 9.5167 0.243 5.173 17.515 14.435 123.101 79.4898 -0.190 -10.912 8.236 -2.746 -7.439 -10.5029 0.173 7.543 23.978 17.122 21.318 25.70110 0.367 9.352 16.048 55.621 27.861 18.918;run;proc corr cov nosimple data=examp2_3; /* 调用协方差分析的corr过程,计算协方差矩阵,不输出变量的简单统计量值*/var x1-x6;run;proc princomp data=examp2_3 out=bb; /* 调princomp过程,用相关系数阵进行主成分分析,输出集bb */var x1-x6;run;/*以下程序对各公司按第一主成分进行排名并打印结果*/data score1; /* 建立新数据集score1 */set bb; /* 调用数据集bb */keep id prin1; /* 保留id(编号)、print1(第一主成分得分) */proc sort data=score1; /* 对数据集数据集score1进行排序,按照prin1降序排列 */by descending prin1;run;proc print data=score1; /* 打印输出数据集score1 */run;(1)调用协方差分析的corr过程,计算协方差矩阵及相关系数矩阵The SAS System 19:53 Saturday, October 16, 2012 1CORR 过程6 变量: x1 x2 x3 x4 x5 x6样本协方差矩阵S,自由度 = 9x1 x2 x3 x4 x5 x6x1 0.115856 7.038086 1.469550 6.606916 7.176540 3.832540x2 7.038086 574.072521 227.762290 181.962655 202.129706 127.455392x3 1.469550 227.762290 225.355308 -112.974155 -161.181280 15.099194x4 6.606916 181.962655 -112.974155 853.528265 653.378961 323.896329x5 7.176540 202.129706 -161.181280 653.378961 1896.138991 972.852413x6 3.832540 127.455392 15.099194 323.896329 972.852413 673.171848 由样本协方差矩阵看出,各指标的样本方差差异很大,因此从样本相关系数矩阵出发进行主成分分析(即求标准化的样本主成分).由SAS proc printcomp 过程得样本相关系数矩阵如下:Pearson 样本相关系数矩阵R及检验对应的两个变量是否相关的检验p值Pearson 相关系数, N = 10当 H0: Rho=0 时,Prob > |r|x1 x2 x3 x4 x5 x6x1 1.00000 =12ρ 0.86300 0.28760 0.66440 0.48419 0.43397=12p 0.0013<0.05相关 0.4204 0.0361 0.1562 0.2102x2 0.86300 1.00000 0.63323 0.25995 0.19374 0.20503 0.0013 0.0494 0.4683 0.5918 0.5699x3 0.28760 0.63323 1.00000 -0.25759 -0.24657 0.03877 0.4204 0.0494 0.4724 0.4922 0.9153x4 0.66440 0.25995 -0.25759 1.00000 0.51360 0.42730 0.0361 0.4683 0.4724 0.1289 0.2181 x5 0.48419 0.19374 -0.24657 0.51360 1.00000 0.86109 0.1562 0.5918 0.4922 0.1289 0.0014 x6 0.43397 0.20503 0.03877 0.42730 0.86109 1.00000 0.2102 0.5699 0.9153 0.2181 0.0014(2)调用主成分分析的princomp过程,从相关系数矩阵出发进行主成分分析,输出集bb The SAS System 19:53 Saturday, October 16, 2012 2The PRINCOMP ProcedureObservations 10Variables 6Simple Statistics(简单统计量均值、标准差)x1 x2 x3 x4 x5 x6 Mean 0.0566000000 -0.76960000 22.55950000 10.62200000 15.63090000 21.56060000 StD 0.3403766541 23.95981054 15.01183892 29.21520605 43.54467810 25.94555545Correlation Matrix(样本相关系数矩阵R)x1 x2 x3 x4 x5 x6x1 1.0000 0.8630 0.2876 0.6644 0.4842 0.4340x2 0.8630 1.0000 0.6332 0.2600 0.1937 0.2050x3 0.2876 0.6332 1.0000 -.2576 -.2466 0.0388x4 0.6644 0.2600 -.2576 1.0000 0.5136 0.4273x5 0.4842 0.1937 -.2466 0.5136 1.0000 0.8611x6 0.4340 0.2050 0.0388 0.4273 0.8611 1.0000表2.3 样本相关系数矩阵R的特征值、各主成分贡献率及累计贡献率Eigenvalues of the Correlation MatrixEigenvalue Difference Proportion Cumulative特征值∧*iλ贡献率% 累计贡献率%1 3.01107972 1.20332547 0.5018 0.50182 1.80775425 0.97312513 0.3013 0.8031 前两个已达80.30% 3 0.83462912 0.55438892 0.1391 0.94224 0.28024020 0.22799377 0.0467 0.98905 0.05224643 0.03819614 0.0087 0.99776 0.01405029 0.0023 1.0000表2.4 样本相关系数矩阵R 特征值的正交化特征向量Eigenvectors (特征向量)Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 第一主成分*1e 第二主成分*2e *3e *4e *5e *6e x1 0.522844 0.213764 -.294754 -.196018 -.288537 -.687301 x2 0.396814 0.508698 -.103156 -.392312 -.066345 0.644060 x3 0.100256 0.655312 0.376261 0.489516 0.382587 -.181505 x4 0.416770 -.243670 -.569465 0.584037 0.227017 0.223608 x5 0.444032 -.376518 0.328673 -.370235 0.639571 -.083182 x6 0.433888 -.254864 0.573228 0.299781 -.552616 0.151465由表2.4知,前两个主成分的累计贡献率已达80.31%,因此,取前两个主成分做进一步分析即可.表4.5给出了对应于∧*1λ和∧*2λ的正交单位化特征向量∧*1e 和∧*2e ,由此得到标准化指标的前两个样本主成分为*6*5*4*3*2*1**1*14339.04440.04168.01003.03968.05528.0x x x x x x y T +++++==∧x e 为六指标加权平均,反映各公司在获利和发展能力的综合实力.*1y 值大,则各公司的获利能力和经营发展能力越强.*6*5*4*3*2*1**2*22549.03765.02437.06553.05087.02138.0x x x x x x y T ---++==∧x e 反映各公司获利能力与发展能力的对比,获利能力大且发展能力小,则*2y 值越大.反之,*2y 值越大,公司在获利能力和发展能力差异越大. (3)按第一主成分对各公司进行排序表2.5 各公司按第一主成分得分的排序结果The SAS System 19:53 Saturday, October 16, 2012 3 Obs id Prin1 排名 公司编号 第一样本主成分*1y 的得分 1 7 2.47008 第一,综合实力最强 2 10 1.32340 3 4 1.29914 4 5 1.02640 5 9 0.54590 6 6 0.48099 7 1 -0.86398 8 2 -1.41227 9 8 -1.6045610 3 -3.26510想画出第二主成分对第一主成分得分的散点图,以及按第一主成分得分排序后的主成分得分和原始数据,可以把程序改写如下:data examp2_3;input id x1-x6;cards;1 0.021 26.806 57.311 -39.819 -39.819 8.8192 -0.142 -7.179 16.335 -11.359 -4.766 -4.6263 -0.737 -62.417 7.359 -18.378 -19.165 12.2894 0.320 7.276 17.372 39.506 19.858 41.9395 0.160 4.820 38.323 37.113 23.744 34.0636 0.351 11.842 23.118 14.725 11.616 9.5167 0.243 5.173 17.515 14.435 123.101 79.4898 -0.190 -10.912 8.236 -2.746 -7.439 -10.5029 0.173 7.543 23.978 17.122 21.318 25.70110 0.367 9.352 16.048 55.621 27.861 18.918;run;proc princomp data=examp2_3 prefix=y out=bb; /* 调用主成分分析的princomp过程,从相关系数矩阵出发进行主成分分析,主成分名称y,输出集bb */var x1-x6;proc plot data=bb;plot y2*y1 $ id=’*’; /* 画散点图,横标y1,纵标y2 */proc sort data=bb;by descending y1; /* 对数据集数据集bb进行排序,按照第一主成分y1降序排列 */ run;proc print data=bb; /* 打印输出数据集bb */var id y1 y2 x1-x6; /* 输出一、二主成分及原始数据*/run;(4)第一、第二主成分散点图The SAS System 19:53 Saturday, October 16, 2012 4Plot of y2*y1$id. Symbol used is '*'.y2|4 +|||| * 13 +||||2 +||||1 +|| * 6| * 5|| * 2 * 90 +|| * 10| * 8 * 4||-1 +||| * 7 || * 3-2 +|----+---------+---------+---------+----------+---------+--------+-------+-4 -3 -2 -1 0 1 2 3 由此直观看出:第一主成分样本得分降序排列依次为(右到左):7 10 4 5 9 6 1 2 8 3;按第二主成分排序为(上到下):1 6 5 9 2 10 4 8 7 3分4类:1 单独一类,3单独一类,7一类,其余一类.(5)程序输出结果,含第一、第二主成分和原始数据,并按照第一主成分降序排序The SAS System 19:53 Saturday, October 16, 2012 5Obs id y1 y2 x1 x2 x3 x4 x5 x61 7 2.47008 -1.50707 0.243 5.173 17.515 14.435 123.101 79.4892 10 1.32340 -0.32952 0.367 9.352 16.048 55.621 27.861 18.9183 4 1.29914 -0.36785 0.320 7.276 17.372 39.506 19.858 41.9394 5 1.02640 0.45782 0.160 4.820 38.323 37.113 23.744 34.0635 9 0.54590 0.16745 0.173 7.543 23.978 17.122 21.318 25.7016 6 0.48099 0.59584 0.351 11.842 23.118 14.725 11.616 9.5167 1 -0.86398 3.10544 0.021 26.806 57.311 -39.819 -39.819 8.8198 2 -1.41227 0.08441 -0.142 -7.179 16.335 -11.359 -4.766 -4.6269 8 -1.60456 -0.36954 -0.190 -10.912 8.236 -2.746 -7.439 -10.50210 3 -3.26510 -1.83698 -0.737 -62.417 7.359 -18.378 -19.165 12.289方法二菜单操作方法可以用菜单系统“分析员应用”来完成主成分分析.具体步骤:(1)打开SAS,生成数据文件Examp2_3,临时在Work逻辑库中(或建立逻辑库引用名,建立永久数据集);或者先建立好Excel文件如例2.3,在SAS菜单点File—Import Date—选择Excel文件点击下一步,找到Excel文件例2.3,在Options选择第一行为变量名,起一个文件名Exam2, 点击完成。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析法介绍主成分分析方法我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
第一节 主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n 样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的数据矩阵:111212122212.....................p p n n np x x x x x x X x x x ⎛⎫⎪⎪= ⎪ ⎪⎪⎝⎭ (1)如何从这么多变量的数据中抓住事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为p x x x ,,21 ,它们的综合指标——新变量指标为 21,z z ,m z (m≤p)。
则)2.........(..........22112222121212121111⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m pp p p x l x l x l z x l x l x l z x l x l x l z在(2)式中,系数l ij 由下列原则来决定:(1)z i 与z j (i≠j;i ,j=1,2,…,m)相互无关;(2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。
且(2)式要求:22212....1i i ip l l l +++=这样决定的新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x p 的第一,第二,…,第m 主成分。
其中,z 1在总方差中占的比例最大,z 2,z 3,…,z m 的方差依次递减。
在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
从以上分析可以看出,找主成分就是确定原来变量x j (j=1,2,…,p)在诸主成分z i (i=1,2,…,m)上的载荷l ij (i=1,2,…,m ;j=1,2,…,p)。
同时,12(,,....,)i i ip l l l 不是别的,而恰好是x 1,x 2,…,x p 的相关矩阵的特征值所对应的特征向量。
且z 1方差取到最大就是x 1,x 2,…,x p 相关矩阵在第一个特征值所对应特征向量处达到。
z m 方差取到最大就是x 1,x 2,…,x p 相关矩阵在第m 个特征值所对应特征向量处达到。
第二节 主成分分析的解法主成分分析的计算步骤通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:(1)计算相关系数矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=PP P P P P r r r r r r r r r R 212222111211........................... ………(3) 在公式(3)中,ij r (i ,j=1,2,…,p)为原来变量i x 与j x 的相关系数,其计算公式为∑∑∑-------=nk nk j kj i kink j kj i kiij x x x xx x x xr 11221)()())(( (4)因为R 是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素即可。
(2)计算特征值与特征向量首先解特征方程|λI -R |=0求出特征值λi (i=1,2,…,p),并使其按大小顺序排列,即λ1≥λ2≥…,≥λp ≥0;然后分别求出对应于特征值λi 的特征向量e i (i=1,2,…,p)。
(3)计算主成分贡献率及累计贡献率∑∑∑---=pk kmk kpk k i i p i r z 111),,,2,1(/γγγ累计贡献率:贡献率:主成分 。
一般取累计贡献率达85-95%的特征值m λλλ ,,21,所对应的第一,第二,……,第m (m ≤p)个主成分。
(4)计算主成分得分矩阵由此可以进一步计算主成分得分矩阵:Z=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m l l l l l l l l l 212222111211............ (5) 进一步还可以根据式:⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111计算各主成分得分:11...j j jp pZ l X l X=++(6)和总得分:1212...mj m m m mi i ii i iy z z zλλλλλλ=+++∑∑∑(7)主成分分析应用实例实证研究1本文是对实施西部大开发以来的经济增长状况作实证研究,把西部地区10个省(自治区、直辖市)的经济增长状况作为研究对象集,即={ 重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆}选取17个经济指标值:即:地区生产总值、财政收入、固定资产投资、城市用水普及率、城市燃气普及率、每万人拥有交通公共车辆、人均城市道路面积、普通高等学校数、每千人医疗卫生机构床位数、居民收入与消费指标等17个经济指标。
进行主成分分析:西部地区2011横向因子分析解释的总方差成份初始特征值 提取平方和载入 旋转平方和载入 合计 方差的 % 累积 % 合计方差的 % 累积 % 合计方差的 % 累积 % 1 7.302 42.951 42.951 7.302 42.951 42.951 6.515 38.321 38.321 2 4.576 26.916 69.867 4.576 26.916 69.867 3.782 22.249 60.570 32.13012.52782.3942.13012.52782.3943.71021.82482.394主成分载荷量表:西部地区2011年横向主成分1f2f3f.173 -.070 .045 -.019 .186 .110 .151 -.012 .002 .172 -.064 .041 -.012 -.042 .240 .028 .085 .199 .091 -.136 .294 -.041 .100 .093 .163 -.071 .016 .037 -.073 .258 -.022 .261 -.021 -.003 .232 -.140 -.098 .330 -.115 .066 .056 .050 .138 -.021 -.015 .152 -.005 .034 .086.025.006主成分得分函数:12011,12001,22011,32011,42011,52011,62011,72011,82011,92011,102011,112011,122011,132011,1420110.1730.0190.1510.172v 0.0120.0280.0910.0410.1630.0370.0220.0030.0980.0660.138f v v v v v v v v v v v v v v =-++-++-++---++,152011,162011,1722011,12001,22011,32011,42011,52011,62011,72011,82011,92011,102011,112011,122010.1520.0860.0700.1860.0120.064v 0.0420.0850.1360.10.0710.0730.2610.2320.33v v f v vv v v v v v v v v v ++=-+---+-+--+++1,132011,142011,152011,162011,1732011,12001,22011,32011,42011,52011,62011,72011,82011,92011,10200.0560.0210.0050.0250.0450.110.0020.041v 0.240.1990.2940.0930.0160.2580.021v v v v f v vv v v v v v v v +--+=+++++++++-11,112011,122011,132011,142011,152011,162011,170.140.1550.050.0150.0340.006v v v v v v ⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪--+-++⎩各地区主成分得分表:因子得分1f因子得分2f因子得分3f因子综合得分2011,i y排名 重 庆 3.6449 0.9609 0.2711 2.0033 3 四 川 6.5026 0.2998 0.3145 3.1520 1 贵 州 1.8152 0.6392 0.0258 1.0119 5 云 南1.76720.78210.14281.05874西藏0.0361 0.8579 -0.0085 0.2434 10 陕西 3.6385 0.8769 0.4434 2.0230 2 甘肃 1.4814 0.7016 0.0619 0.8846 7 青海0.3321 1.0881 0.1317 0.4776 9 宁夏0.7464 1.2218 0.2191 0.7267 8 新疆 1.4230 0.9765 0.2779 0.9877 6 第一类主成分:经济实力、社会基础以及对外开程度是影响经济增长的主要因素(地区生产总值、财政收入、固定资产投资、普通高校数、客运量和货运量等)第二类主成分:居民消费水平、城镇居民人均可支配收入、人均公园绿地面积、人均生产总值。
第三类主成分有:城市用水普及率、城市燃气普及率、每万人拥有交通公共车辆数、每千人医疗卫生机构床位数等。