稳健主成分分析方法研究及其在经济管理中的应用_王斌会
基于Matlab的中药主成分分析数学实验教学案例
基于Matlab的中药主成分分析数学实验教学案例作者:董鸽闵建中陈立范王宏杰来源:《现代商贸工业》2021年第34期摘要:本文探讨医学院校数学实验课教学内容与专业相结合的教学案例。
以中药专业为例,介绍了中药专业中常用的主成分分析的统计方法,对10批三黄片样品的成分含量进行主成分分析,运用Matlab7.0软件进行计算,给出各主成分与原始成分的线性表达式和因子载荷阵,分析各主成分与原始成分的关联程度以及各主成分在原始成分中所产生的作用,最后运用综合评价函数计算10批样品的F值,根据F值大小进行排序,对10批样品进行综合评价。
关键词:数学实验;案例分析;Matlab;主成分分析中图分类号:G4文献标识码:Adoi:10.19311/ki.1672-3198.2021.34.068高等数学是许多医学专业的必修课程,但理论性强,与专业知识衔接不够紧密。
数学实验课程是联系高等数学理论知识与专业实际应用的桥梁,提高学生对高等数学知识的应用能力和计算机技术应用能力,培养学生的科研精神、创新意识和实际操作能力。
在医学院校中开始数学实验课,课程内容的选择非常重要,不同的专业对数学知识的需求也不尽相同,因此数学实验的内容也要跟着进行相应调整。
以中药专业为例,我们在基础知识的基础上,选择了与中药数理统计的案例,由于篇幅限制,我们仅举例主成分分析模块的数学实验教学案例。
1主成分分析的步骤主成分分析是一种降维数据处理的方法,在人脸数据识别、基因数据列分析、食品成分分析、中药成分分析等方面有着重要应用。
主成分分析的具体步骤如下:(1)设原始数据的样本个数为n,有m个观测指标X1,X2,…,X m,其中X j=(x1j,x2j,…,x nj)T,j=1,…,m,记矩阵X=(X1,X2,…,X m),欲寻找可以概括m个观测指标综合信息的综合指标Z1,Z2,…,Z m,满足线性组合。
Z i=a1i X1+a2i X2+…+a mi X m,i=1,…,m,(1)其中:a1i,a2i,…,a mi为常数,i=1,…,m。
主成分分析在区域经济分析中的应用
(i, …, ) 。 j=1, 2, p 在此基础上利用雅可比法求 R 的全部特征根 λ(由大到 i 全部特征根 λ1>λ2>…>λp 均大于 小排列 ) 及相应的特征向量 ai, 等于零, 算出每一特征值对总体方差的贡献率及累积贡献率总 和为 1, 其结果如图 1 所示。
根据累积贡献率大于 80%确定主成分个数 m=2, 这样就由 若干个单项指标变换得到两项综合指标。
作者简介: 李雪梅 (1962- ) , 女, 副教授, 清华大学访问学者, 研究方向: 数据库与数据挖掘; 张素琴 (1945) , 女, 教授, 研究方向: 程序设计语言设计 编译优化。 与实现、 收稿日期: 2008-04-17 修回日期: 2008-07-10
李雪梅, 张素琴: 主成分分析在区域经济分析中的应用 因子为 p 项指标 x1, x2,…, xp,将它们变换为新因子 m 项指标 (m<<p ) …, 即: E1, E2, Em, E1=L11x1+L12x2+…+L1Pxp … Em=Lm1x1+Lm2x2+…+LmPxp 各项中系数的平方和恒等于 1, 新因子 E1, …, E2, Em 之间线性 …, 无关, 而且依次形成对原始因子 x1, x2, xp 的一切线性组合中 …, 方差贡献率从小到大的排列。这样的新因子 E1, E2, Em 就被 依次称为原始因子 x1, …, 第二主成分、 …、 x2, xp 的第一主成分、 第 m 主成分,再以达到累积方差贡献率 80%以上选择主成分 个数, 并根据其经济含义形成新的综合指标。 其中: 均值 xj= 1 n 方差 sj=
204
2009 ,45 (19 )
Computer Engineering and Applications 计算机工程与应用
主成分分析法原理及应用
一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:✍主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。
✍主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。
✍主成分之间应该互不相关通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。
✍主成分具有命名解释性总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。
二、基本原理主成分分析是数学上对数据降维的一种方法。
其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。
那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。
主成分分析法及其应用
主成分分析法及其应用一、本文概述主成分分析法(Principal Component Analysis,简称PCA)是一种广泛应用于数据降维和特征提取的统计方法。
它通过正交变换将原始数据集中的多个变量转换为少数几个互不相关的主成分,这些主成分能够最大程度地保留原始数据集中的信息。
本文旨在全面介绍主成分分析法的基本原理、实现步骤以及在各个领域中的应用案例。
我们将详细阐述主成分分析法的数学基础和算法流程,包括协方差矩阵、特征值、特征向量等关键概念的计算方法。
然后,我们将通过实例演示如何使用主成分分析法进行数据降维和特征提取,以及如何通过可视化工具展示降维后的数据效果。
我们将探讨主成分分析法在机器学习、图像处理、生物信息学、社会科学等多个领域中的实际应用,展示其在数据分析和处理中的重要价值和潜力。
二、主成分分析法的基本原理主成分分析法(Principal Component Analysis,简称PCA)是一种在多个变量中找出主要影响因素,并通过降维技术把多个变量转化为少数几个互不相关的综合变量的统计方法。
这种方法在保持数据信息损失最小的原则下,通过正交变换将原始数据转化为一个新的坐标系统,使得在这个新的坐标系统中,任何数据的最大方差都投影在第一主成分上,第二大的方差都投影在第二主成分上,以此类推。
变量降维:在多数情况下,原始数据集中可能存在多个变量,这些变量之间可能存在相关性。
主成分分析通过构造新的变量(即主成分),这些新变量是原始变量的线性组合,并且新变量之间互不相关,从而将原始的高维数据空间降维到低维空间,实现数据的简化。
方差最大化:主成分分析的另一个重要原理是方差最大化。
这意味着,第一个主成分将捕获数据中的最大方差,第二个主成分捕获第二大方差,以此类推。
通过这种方式,主成分分析能够识别出数据中的主要变化方向和模式。
数据解释性:主成分分析生成的主成分是对原始数据的线性变换,因此,每个主成分都可以被解释为原始变量的某种组合。
主成分分析在经济学领域的应用研究
主成分分析在经济学领域的应用研究主成分分析(Principal Component Analysis,PCA)是一种常用的多变量数据降维技术,可以将高维数据转化为低维数据,以便更好地分析和解释数据的内在结构。
在经济学领域,主成分分析被广泛应用于数据降维、因子分析、经济变量的关联性研究等方面,为经济学研究提供了重要的工具和方法。
以下是主成分分析在经济学领域的应用研究内容:1. 数据降维与可视化分析主成分分析在经济学中最常见的应用是对多维经济数据进行降维处理,以便更好地进行数据分析和解释。
通过主成分分析,可以将大量经济指标或变量投影到几个主成分上,从而得到更少但信息含量丰富的综合指标,方便进一步的分析和处理。
同时,主成分分析还可以通过对数据的可视化分析,帮助经济学家更直观地理解数据的结构和特征。
通过绘制主成分分析得到的降维后的数据的散点图或者热力图,可以直观地观察不同经济变量之间的关系,发现潜在的经济规律和变量之间的相互作用。
2. 因子分析主成分分析在经济学中还被广泛应用于因子分析。
因子分析是一种统计方法,用于确定能够解释变量间方差共享的潜在因子。
通过主成分分析可以得到各个因子的权重系数,进而可以对经济变量进行综合性的评价和分析。
例如,在金融领域中,经济学家可以使用主成分分析来分析股票市场的规律和影响因素。
他们可以将股票市场的多个指标作为原始变量,然后应用主成分分析将这些指标转化为几个潜在的因子。
通过分析这些因子的权重和影响,可以更好地理解和解释股票市场涨跌的主要因素。
3. 经济变量关联性分析主成分分析还可以用于经济变量之间的关联性研究。
通过主成分分析,可以发现经济学中不同变量之间的相关性和相关程度。
这对于经济学研究非常重要,因为经济系统中的不同变量之间存在复杂的关系,如通货膨胀率、利率水平、国内生产总值等指标之间的相互影响。
通过主成分分析,经济学家可以将这些变量转化为少数几个主成分,从而更好地理解变量之间的关系和相互影响。
主成分分析方法在主成分分析方法中的应用
主成分分析方法在主成分分析方法中的应用在数据降维方面,主成分分析方法可以将高维度数据转化为低维度数据,从而减少数据的维度,减少数据的特征数量,简化数据集的复杂性。
在实际应用中,往往遇到高维数据,这些数据的维度较高,其中往往存在冗余和噪声特征。
通过主成分分析方法,可以提取出数据中最重要的特征,减少冗余特征和噪声特征的影响,从而降低数据的维度。
降维之后的数据更加便于处理和分析,对于大规模数据和复杂模型的应用有很大的帮助。
在数据压缩方面,主成分分析方法可以将高维度数据用较低维度的数据进行表示,从而减少存储空间和计算资源的消耗。
高维数据往往需要更多的存储空间和计算资源,而通过主成分分析方法,可以提取出数据中最重要的特征,并且用较低维度的数据进行表示。
这样可以节省存储空间和计算资源的消耗,提高数据的存储和计算效率。
在数据可视化方面,主成分分析方法可以将高维度数据转化为二维或三维数据,从而将数据可视化在二维或三维空间中。
高维数据很难直观地进行可视化,而通过主成分分析方法,可以将高维数据转化为较低维度的数据,并且在二维或三维空间中进行可视化。
这样可以直观地展示数据的分布、结构和关系。
例如,在图像处理领域,可以将高维图像转化为二维图像,并且在图像上展示出图像的特征。
在特征提取方面,主成分分析方法可以提取出数据中最重要的特征,从而减少数据的维度,简化数据集的复杂性。
在实际应用中,往往存在很多特征,其中很多特征是冗余和无用的。
通过主成分分析方法,可以提取出数据中最重要的特征,并且丢弃冗余和无用的特征。
这样可以简化数据集的复杂性,减少特征的数量,提高数据分析和建模的效果。
在实际应用中,特征提取是非常重要的步骤,它可以提高数据预处理的效果,对于模型的训练和预测有很大的影响。
总之,主成分分析方法在数据降维、数据压缩、数据可视化、特征提取等领域都有广泛的应用。
它可以通过线性变换将高维数据转化为低维数据,并且保留数据中最重要的特征。
稳健因子分析方法及其医学应用
稳健因子分析方法及其医学应用
颜光宇;夏结来
【期刊名称】《中国卫生统计》
【年(卷),期】1994(011)003
【摘要】因子分析是多元统计的一种重要方法,在生物医学领域具有广泛的应用。
然而,传统的因子分析方法是建立在普通相关阵的基础上的,而普通相关阵不具稳健性,易受异常值的影响,因此,传统因子分析方法是不稳健的,个别异常值的存在将可能严重扰乱因子分析的结果,对此,本文借助投影寻踪的思想,首先求出稳健的相关阵,继而提出一种新的可抗异常值干扰的稳健因子分析方法并编制其计算机程序,将该法应用于战士身体体质研究,得到了比传
【总页数】4页(P12-15)
【作者】颜光宇;夏结来
【作者单位】不详;不详
【正文语种】中文
【中图分类】R195.1
【相关文献】
1.稳健主成分回归及其医学应用 [J], 刘伟新;郭东星
2.线性回归中多个异常点的稳健诊断及医学应用 [J], 王彤;何大卫
3.用因子分析方法探索医学生的认知能力模型 [J], 孙宝志;金魁和
4.基于分割稳健而快速的局部立体匹配及医学应用 [J], 刘天亮;罗立民
5.稳健因子分析方法的构建及比较研究 [J], 王斌会;李雄英
因版权原因,仅展示原文概要,查看原文内容请购买。
主成分分析分析法
第四节主成分分析方法地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n个地理样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的地理数据矩阵:如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x1,x2,…,x p,它们的综合指标——新变量指标为x1,x2,…,zm(m≤p)。
则在(2)式中,系数l ij由下列原则来决定:(1)z i与z j(i≠j;i,j=1,2,…,m)相互无关;(2)z1是x1,x2,…,x p的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,…,x p的所有线性组合中方差最大者;……;z m是与z1,z2,……z m-1都不相关的x1,x2,…,x p的所有线性组合中方差最大者。
这样决定的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,x p 的第一,第二,…,第m主成分。
第六章-主成分分析法精选全文
可编辑修改精选全文完整版第六章 主成分分析法主成分分析法是将高维空间变量指标转化为低维空间变量指标的一种统计方法。
由于评价对象往往具有多个属性指标,较多的变量对分析问题会带来一定的难度和复杂性。
然而,这些指标变量彼此之间常常又存在一定程度的相关性,这就使含在观测数据中的信息具有一定的重叠性。
正是这种指标间的相互影响和重叠,才使得变量的降维成为可能。
即在研究对象的多个变量指标中,用少数几个综合变量代替原高维变量以达到分析评价问题的目的。
当然,这少数指标应该综合原研究对象尽可能多的信息以减少信息的失真和损失,而且指标之间彼此相互独立。
第一节 引言主成分分析,也称主分量分析,由皮尔逊(Pearson )于1901年提出,后由霍特林(Hotelling )于1933年发展了,这也正是现在多元统计分析中的一种经典统计学观点。
经典统计学家认为主成分分析是确定一个多元正态分布等密度椭球面的主轴,这些主轴由样本来估计。
然而,现代越来越多的人从数据分析的角度出发,用一种不同的观点来考察主成分分析。
这时,不需要任何关于概率分布和基本统计模型的假定。
这种观点实际上是采用某种信息的概念,以某种代数或几何准则最优化技术对一个数据阵的结构进行描述和简化。
主成分分析方法的主要目的就是通过降维技术把多个变量化为少数几个主要成分进行分析的统计方法。
这些主要成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
为了使这些主要成分所含的信息互不重迭,应要求它们互不相关。
当分析结束后,最后要对主成分做出解释。
当主成分用于回归或聚类时,就不需要对主成分做出解释。
另外,主成分还有简化变量系统的统计数字特征的作用。
对于任意p 个变量,描述它们自身及其相互关系的数字特征包括均值、方差、协方差等,共有)1(21-+p p p 个参数。
经过主成分分析后,每个新变量的均值和协方差都为零,所以,变量系统的数字特征减少了)1(21-+p p p 个。
主成分分析方法在经济评价中的作用
4)主成分载荷
定义主成分载荷为第j个主成分与第i个原始变 量的相关系数,经推导可得:
lij ( yi , x j )
i ii
pij
其含义是:原变量xj 在第i个主成分上的载荷, 它反映了主成分yi与原变量xj之间的关联程度。
3. 利用主成分分析进行综合评价
人们进行综合评价时,都会遇到如何选择评价指标 体系和如何对这些指标进行综合的困难。
1)协方差矩阵及数据的协方差
注意1: 协方差矩阵计算的是不同维度(指标)之间的协方差,而 不是不同样本之间的。
注意2:协方差,反应了两个维度之间的线性相关程度。 协方差越大,则线性相关性越大,数据的维度冗余也越大。
注意3:协方差矩阵在对角线上的元素越大,表明信号越 强,变量的重要性越高;元素越小则表明可能是存在的 噪声或是次要变量。在非对角线上的元素大小则对应于 相关观测变量对之间冗余程度的大小。
第一个主成分,是输入样本协方差阵的具有最大特征 值对应的特征向量。
特征向量不唯一,如何选取呢?一般选取特征向量的元素 之和为正数的这个向量。
2. 主成分分析的数学知识
3) PCA中的主成分及贡献率
累积贡献率:前k个主成分共有多大的综合能力,用这k个
主成分的方差和在全部方差中所占比重来描述,称为累积
线性代数理论的经济学应用系列专题之
主成分分析方法 在经济评价中的应用
1. 概述
主成分分析Principle Component Analysis(PCA) , 是一种通过降维来简化数据结构的方法。
其目的是把多个变量化为少数几个综合变量(综合指标), 这几个综合变量可以反映原来多个变量的大部分信息,但 指标之间要相互独立,互不相关。主成分分析主要起着降 维和简化数据结构的作用。
如何运用主成分分析法进行毕业论文的研究
如何运用主成分分析法进行毕业论文的研究毕业论文是研究生阶段的重要成果之一,为了得到准确可靠的研究结果,研究者需要选择合适的研究方法和工具。
主成分分析(Principal Component Analysis,PCA)作为一种常用的多变量分析方法,在毕业论文的研究中具有广泛的应用价值。
本文将介绍如何运用主成分分析法进行毕业论文的研究,并探讨其优势和注意事项。
一、主成分分析的基本原理主成分分析是一种通过线性变换将多个相关变量转化为一组无关变量的统计方法。
通过寻找变量之间的线性关系,主成分分析能够将高维数据降维为低维数据,并尽可能保留原始数据的信息。
在毕业论文的研究中,主成分分析可以用于数据的降维、变量的选择和数据的可视化等方面,为研究者提供了更多的分析手段和思路。
二、如何应用主成分分析进行毕业论文的研究1. 数据预处理在进行主成分分析之前,需要对原始数据进行预处理。
这包括数据的清洗、缺失值的处理以及数据的标准化等。
清洗数据可以去除异常值和离群点,以减少其对主成分分析结果的影响。
处理缺失值可以采用插补方法,如均值插补或回归插补。
数据标准化可以使各个变量具有相同的尺度,以避免某些变量对主成分的贡献过大。
2. 提取主成分主成分分析的核心是提取主成分,即将原始变量通过线性组合得到一组新的变量。
这些新变量具有以下特点:相互之间无相关性、依次按照方差的大小排列、每个主成分都能够解释原始变量的一部分方差。
在提取主成分时,可以根据特征值和累计方差贡献率进行选择,通常选择特征值较大的主成分或累计方差贡献率达到一定阈值的主成分。
3. 解释和解读主成分提取主成分后,需要对主成分进行解释和解读。
通过查看主成分的载荷矩阵,可以了解原始变量对每个主成分的贡献程度。
载荷矩阵中的每个元素表示相应主成分与原始变量之间的相关系数,绝对值越大表示相关性越高。
通过解释主成分的含义,可以深入理解数据背后的规律和特征。
三、主成分分析的优势和注意事项1. 优势主成分分析在毕业论文的研究中具有以下优势:(1)降维:主成分分析可以将高维数据降为低维数据,减少变量的数量,便于统计分析和解释。
主成分分析法在论文中的运用分析
主成分分析法在论文中的运用分析主成分分析法是将多指标化为少数几个综合指标的一种统计方法。
它从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此互不相关。
它常被用来寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释,从而更加深刻地揭示事物的内在规律,因此在学术界得到了广泛应用。
本次作业拟分析主成分分析法在文章《基于主成分分析法的科技进步测评实证研究——以陕西省为例》、《基于主成分分析法的京津冀区域协调发展综合评价》中的具体应用,以此明晰主成分分析法的具体应用情形、运用过程与结果分析,进一步强化理论学习效果。
《基于主成分分析法的科技进步测评实证研究——以陕西省为例》1一文在建立科技进步评价指标体系的基础上,利用主成分分析法对包括陕西在内的全国内地30个省、市、区科技竞争力进行排序,分析陕西在科技发展水平方面与全国整体水平及其它发达省市的差距,为陕西制定有关科技政策提供依据。
文章首先建立了科技进步评价指标体系,立足于广义的科技进步建立了一套综合性的科技进步统计评价指标体系,涉及工业、农业、人才、环保、邮电等社会活动的许多面,不仅体现了科技投入、产出、成果转化,而且也反映了科技进步促进经济社会发展,整个指标体系为三阶层框架结构,其基本内容包括5个模块、13个子项、30个指标。
文章第二部分介绍了科技进步的综合测评方法——主成分分析法,详细介绍了期优点及主要步骤,将采用主成分分析法分析陕西科技发展水平与全国整体科技发展水平及其它发达省市科技发展水平的差距。
文章第三部分是基于主成分分析法的科技进步测评实证研究。
文章在SPSS14.0中输入正确数据后,对9个指标进行标准化处理,再利用SPSS中的factor命令对数据进行主成分分析,由于前两个主成分累计贡献率为93.949%≥85%,所以提取的主成分个数为两个,得出主成分系数矩阵。
把主成分系数矩阵中的每列系数矩阵除以其相应的特征根后,得到主成分函数的表达式F1与F2。
基于MCD的稳健主成分算法及其实证分析
A Robust Principal Component Analysis Based on
MCD Estimator and Its Empirical Study 作者: 王斌会 陈一非
作者机构: 暨南大学统计系,广东广州 510632
出版物刊名: 数理统计与管理
页码: 462-468页
主题词: 异常值 MCD估计 主成分分析 稳健主成分分析
摘要:主成分分析方法是在经济管理中经常使用的多元统计分析方法,在变量降维方面扮演着很重要的角色,是进行多变量综合评价的有力工具。
但传统的主成分分析对于异常值十分敏感,计算结果很容易受到异常值影响,而实际数据常包含异常情况,通常分析很少考虑它们的作用。
本文基于MCD估计提出一种稳健的主成分分析方法,模拟和实证分析结果表明,该方法对于抵抗异常值有很好的效果。
主成分分析方法在主成分分析方法中的应用
主成分分析与因子分析及SPSS实现(-):原理与方法(2014-09-08 13:33:57)一、主成分分析(1)问题提出在问题研究中,为了不遗漏和准确起见,往往会面而俱到,取得大量的指标来进行分析。
比如为了研究某种疾病的彩响因素,我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标.如果将这些指标直接纳入多元统计分析,不仅会便模型变得复杂不稳定,而且还有可能因为变量之间的多重共践性引起较大的误差.有没有一种办法能对信息进行浓缩,减少变量的个数,同时消除多重共践性?这肘,主咸分分析隆重登场。
(2)主成分分析的原理主成分分析的本质是坐标的族转变换,将凍始的n个变量进行重新的线性组合,生成n个新的变量,他们之间互不相关,称为n个“成分”。
同时按照方差最大牝的原则,保证第一个成分的方差最大,然后依次递减。
这n个成分長按照方差从大到小排列的,其中前m个成分可能就包含了原始变量的大部分方差(及变异信息)。
那么这m个咸分就成为原始变苣的“主成分”,他们包含了原始变It的大部分信息。
注意得到的主成分不是原始变量筛选后的剩余变量,而是原始变量经过重新组合后的“综合变量”。
我们以最简单的二维数据来直观的解释主成分分析的原理。
假设现在有两个变it XI、X2,在坐标上画出散点图如下:x2XI与x2相关可见,他们之间存在相关关系,如果我们将坐标轴整体逆时针敲转45° ,变成新的坐标系Yl、Y2,如下图:Y1与Y2不相关根据坐标变化的原理.我们可以算出: Y1 = sqrt (2)/2 * XI + sqrt (2)/2 ♦ X2 Y2 = sqrt (2)/2 ♦ XI - sqrt (2)/2 ♦ X2 其中sqrt (x )为x 的平方根。
通过对XI 、X2的重新进行践性组合,得到了两个新的变itYl 、Y2。
此时,Yl 、Y2变得不再相关,而且Y1方向变异(方差)较大,Y2方向的变异(方差)较小,这时我们可 以提取Y1作为XI 、X2的主咸分,參与后续的统计分析,因为它携帶了原始变量的大部分信息。
基于DDC算法的稳健主成分法及其实证
DOI:10.13546/ki.tjyjc.2020.16.008基于D D C算法的稳健主成分法及其实证阮皓麟,王斌会(暨南大学管理学院,广州510632)摘要:经典主成分分析对离群值非常敏感,常因离群值的存在导致分析结果偏离实际。
针对含有离群值 的数据,传统的稳健主成分分析一般通过识别并删除离群样表后建模达到稳健效果。
然而,有些情况下离群样 本中只有少数几个变量发生离群,剩余的大部分变量并无离群。
删除离群样本的做法在这种情况下显然是不妥的。
文章基于DDC算法提出一种稳健主成分分析法DDCPCA。
模拟和实证结果表明,面对含该类离群样本 的数据,该方法与传统稳健主成分分析法相比具有较大的优势。
关键词:离群数据格;DDCPCA;稳健主成分分析中图分类号:C81 文献标识码:A 文章编号:1002-6487(2020)16-0036-05〇引言传统的稳健主成分法基本都是先确定稳健系数《,将全部n个样本中(1-«)«个离群样本识别并删除,然后利用剩下的正常样本进行分析。
这种做法对于离群样本仅有少数几个变量的观测值离群(以下称这种离群情况为“格离群”)的样本是不妥的。
删除样本直接导致样本量减小,增加对总体估计的误差。
对于髙维数据,常常出现缺少样本的情况,由于每一髙维样本包含的信息量远比低维样本大.这时删除样本的代价巨大。
另外,当格离群的样本比例较大时,删除样本将使得样本量大幅缩小,估计误差上升。
极端的情况是,当格离群的样本比例超过50%的时候,传统的稳健主成分分析法直接失效。
本文提出了一种基于D D C算法的稳健主成分法D D C P C A,并对其进行了模拟实验和实证分析。
实证分析中,选取了一个玻璃数据集。
该数据集包含180个玻璃样本在电子探针X光显微分析下750个波长上的观测值。
研究结果表明,该方法分析格离群的数据的表现较传统稳健主成分法更优秀。
另外,该算法也能胜任对行离群数据和高维数据的分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引言 一 、
稳健多变量分析方法主要是把稳健统计的思想 和多变量分析方法结合起来 , 使多变量分析方法里 面出现的统计量具 有稳健性 。 在多变量分析 方法 中 , 往往都是以协方差矩阵( 或相关系数矩阵) 作为 计算的出发点 , 因而构造一个稳健的协方差矩阵便 成为稳健多变量分析方法的研究重点 。 过去 , 制约稳健多变量分析方法应用主要是计 算问题 , 随着计算机技术的迅猛发展 , 很多以前只有 思想而不能实现的方法都可在计算机上得到实现 。 在方法的构造方面主要存在两种类型的估计方法 。 一种以 Huber( 1985) 年提出的投影寻踪( Projection Pursuit) 为代表 。 主要应用在生物化学的数据中 , 因
·74 · 个统计量来判断合适的 a 。 ( 1) 方向偏差 ( Direction Bias) 。
统计( u,
∑
*
)服从均 值为 u , 方 差为
方向偏 差 ( Zamar , 1989) 的 定义 为 : B i =1 a′ i( F) ×ai , 其中 F = ( 1 -e) F 0 +eH , F 0 是原分 布 , H 是污染分布 , 也是离群值的来源 。 e 是污染分 布比率 , e 越大表明数据中的离群值越多 。 a′ i( F) 和 a i 分别是 F 和 F 0 的协方差矩阵的第 i 个特征向 量 。 可见 , 当特征向量完全没偏差时 , B i = 0; 当特征 向量正交时 , B i = 1 。 因此可以定义以下式子 : B ij = 1 - a ij ( F) · ai , 其中 j 代表模拟中的第 j 次结果 , 如果用 m 来表示模拟的次数 , 那么最终把方向偏差 定义为 :
-1
方法的计算及其不稳健性 二 、
从传统主成分方法的计算过程可知 , 进行主成 分方法的计算关键是算出变量的协方差矩阵或者相 关矩阵 , 而相关矩阵可以从协方差矩阵得到 , 可以把 问题都归并到协方差矩阵的计算中 。 但协方差矩阵 是一个不稳健的估计量 , 对离群值非常敏感 , 所以导 致所计算的相关矩阵 、特征值和特征向量也受其影 响 , 容易产生不合理的结果 。 其实协方差矩阵对离 群值敏感主要因为它的计算中要使用到均值向量 , 而均值向量实际上只是对多维数据的简单求平均 , 这种计算方法必定会很容易受到离群值的影响从而 使得协方差矩阵不是稳健的估计量 。 在实际的数据中 , 离群值会经常的出现 。 一个 或多个的离群值有时便可以把整个结果改变 , 使得 整个样本数据所反映的数据特征大大受到了影响 , 甚至会得出相反的结果 。
第 24 卷第 8 期 2007 年 8 月
统计研究 Statistical Research
Vol . 24 , No . 8 Aug . 2007
稳健主成分分析方法研究及其 在经济管理中的应用
*
王斌会
内容提要 : 传统的多元统计分析方法 , 如主成分分析方 法和因 子分析 方法等 的共同 点是计算 样本的 均值向 量 和协 方差矩阵 , 并在这两者的基础上计算其他统计 量 。 当样本 数据中 没有离 群值时 , 这 些方法都 能得到 优良的 结 果 。 但是当样本数据中 包括离群值时 , 计算结果就会 很容易受 到这些 离群值 的影响 , 这 是因为传 统的均 值向量 和 协方差矩阵都不是稳健的统计量 。 本文对目前较流行的 FAST -MCD 方法的算 法进行研 究 , 构造 了稳健的 均值向 量 和稳健的协方差矩阵 , 应用到主成分分析中 , 并针对其不足之处提出改进方法 。 从 模拟和实证 的结果来 看 , 改进 后 的的方法和新的稳健估计量确实能够对离群值起到很好的抵抗作用 , 大幅度地降低它们对计算结果的影响 。 关键词 : 异常值 ; FAST -MCD 算法 ; 主成分分析 ;稳健主成分分析 中图分类号 : C812 文献标识码 : A 文章编号 : 1002 -4565( 2007) 08 -0072 -05
[ 7] [ 6] [ 5] [ 4]
变量 , 几十万样本的数据 。 但是 FASTMCD 方法的 一大缺点就是不能处理变量数量比样本数量要多的 数据 , 这时就要用到投 影寻踪 ( Projection Pursuit) 这 种稳健估计方法 。 不过这种情况多发生在生物化学 的样本数据中 , 在经济管理类数据中样本数量比变 量数量 多的 情 况还 是 占绝 大 多 数 , 所 以把 FASTMCD 估计的主成分分 析应用在经济管理分析中还 是很有意义的 。 估计方法主要利用迭代和马氏距离的思想构造 一个稳健的协方差矩阵估计量 , 然后在此稳健协方 差矩阵上计算出稳健相关矩阵 , 从而进行主成分分 析。 考虑一个 n 行 p 列的矩阵 X n ×p , 从中随机抽取 h 个样本数据 , 并计算这 h 个样本数据的均值 T1 和 协方差矩阵 S 1 。 然后通过 : 计算这 n 个样本 d 1( i) = ( xi -T1 ) ′ S1 ( x i -T1 ) 数据到中心 T1 的马氏距离 , 选出这 n 个距离中最小 的 h 个 , 再通过这个 h 个样本计算均值 T2 和协方 差矩阵 S 2 。 Rousseeuw , Van Driessen( 1999) 已证明 det ( S 2) ≤det( S 1) , 仅当 T1 =T2 , S 1 =S 2 的时候等号成 立 。 这样不断迭代下去 , 当 det( Sm )=det( Sm -1 ) 时 停止迭代 。 再通过 S m 进行加权计算就能求出稳健 的协方差矩阵估计量 。 反映在图形上就是不断寻找 包含 h 个样本点的到样本中心距离最短的超椭球 体 , 而把其余的 n -h 个样本点排除在超椭球体外 。 ( 二) FAST-MCD 的改进方法 1.FASTMCD 的改进思想 。 从 FASTMCD 的算法中 , 可以看到算法中 h 值 的确定是一个关键部分 , 如果 h 值 过大 , 那么就会 把离群值都纳入 计算中 , 得不到需要的稳 健结果 。 如果 h 值太小 , 又会把正常的样本值归入离群值的 范围 , 这样算出来的结果由于没有包含一些正常的 样本值 , 也是不科学的 。 从这点出发 , 如果能够把 h 值从算法改进中确定下来 , 那么必定会给程序带来 更高的准确性 , 针对 h 值是由抽取比率 a 确定这一 特点 , 可以不断地改变 a 的值来得到相应的特征值 和特征向量 , 然后再根据它们的变化把 a 给确定下 来 , 从而得到更准确的结果 。 2.FASTMCD 的改进方法-动态 a 值确定法 。 根据上面的改进思 想 , 本文以 1 %的变 化把 a 从小到大的增加 , 然后用方向偏差和方差偏差这两
方法的建立及其改进 三 、
稳健主成分分析方法的目的是构造一个稳健的 协方差矩阵 , 归根到底就是要降低离群值对协方差 矩阵的影响 , 并把离群值的遮蔽效应去掉 , 把离群值 高效地检测出来 。 通常所说的 M 估计 , MVE 估计和 MCD 估计方法都是以此为出发点 , 但是它们的算法 由于时间复杂度太高 , 在实际中很难应用 。 因此本 文主要研究 MCD 方法的改良方法 , FASTMCD 方法 , 并在 FASTMCD 方法的基础再提出改良的方法 。 ( 一) FASTMCD 估计方法的原理 MCD 方法最早由 Rousseeuw ( 1984) 提出
[ 1]
为生物化学的许多数据是变量数比样本数要多 , 计 算协方差矩阵的时候必然会产生多重共线性 , 而投 影寻踪的方法能很好地解决这个问题 。 另一种是构 [ 2] 造一个稳健协方差矩阵的办法 , 比如由 Rousseeuw 于 1984 年提出的 MVE( Minimum Volume Ellipsoid) 和 MCD( Minimum Covariance Estimator) 方法 。 这类方法 都有一个潜在的限制条件 , 就是分析的数据必须是 样本数比变量数要多 , 一般数据大都满足该条件 , 用 MVE 和 MCD 方法研究它们的稳健协方差矩阵比较 合适 。 在研究领域 , 不断有人对一些基础的稳健多 变量估计量在算法方面做出改进 , 务求提高其运算
[ 2]
, 虽然
其方法具有很高的稳健性 , 但是由于其算法的复杂 性加上当时计算机性能的落后 , 不能得到很好的运 用。 直 到 近 几 年 计 算 机 技 术 的 不 断 发 展 和 [ 3] Rousseeuw , Van Driessen( 1999) 提出改良过的 快速 MCD 算法( FASTMCD) , 才使得 MCD 方法真正地应 用在各种稳健估计中 , 其高效性可以处理超过 30 个
Robust Principal Component Analysis Method and its Application
Wang Binhui
Abstract : Traditional multivariable analysis method , for example , principal component analysis ( PCA)method and factor analysis method , are common in calculating the mean vector , the covariance matrix of sample and other variables . When there are no outliers in the sample , these methods can get good results . But when there are outliers in the sample , these methods are easily affected by them .This paper focuses on the study of the most popular FAST -MCD method which is improved to overcome its shortcoming , constructs robust mean vector and robust covariance matrix which is applied in PCA method .From the result of simulation and empirical study , the improved method and the new robust estimator are good for resisting outliers and decrease their influence greatly . Key words : Outliers ; FAST -MCD algorithm ; PCA ; Robust PCA