(完整版)主成分分析与因子分析的优缺点
主成分与因子分析的10点异同总结
主成分与因子分析的10点异同总结一、原理不同主成分分析(Principal components analysis,PCA)基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析(Factor Analysis,FA)基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。
就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)二、线性表示方向不同因子分析是把变量表示成各公因子的线性组合主成分分析中则是把主成分表示成各变量的线性组合。
三、假设条件不同主成分分析:不需要有假设(assumptions),因子分析:需要一些假设。
因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。
四、求解方法不同求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。
(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。
主成分分析与因子分析的异同比较及应用
主成分分析与因子分析的异同比较及应用一、相似之处:1.降低数据维度:主成分分析和因子分析都是降维方法,通过将原始变量进行线性组合,生成一组新变量,减少原始数据的维度。
2.揭示变量之间的关系:主成分分析和因子分析都可以揭示数据中变量之间的相关性和潜在结构,更好地理解变量之间的关系。
3.数据依赖:主成分分析和因子分析都依赖原始数据的线性关系。
二、主成分分析的特点和应用:1.数据探索:主成分分析可以用于对数据进行探索性分析,揭示数据中的模式和变量之间的关系。
2.特征选择:主成分分析可以用于提取最相关的变量,帮助选择最能代表数据信息的特征。
3.数据压缩:通过保留主要的主成分,主成分分析可以将数据压缩成较低维度,减少存储和计算的开销。
4.降噪:主成分分析可以通过去除与主成分相关较小的维度,减少噪声的影响。
三、因子分析的特点和应用:因子分析的目标是通过找到能够解释原始变量间共同方差的不可观测因子,来揭示变量背后的潜在结构。
因子分析的原理是通过将多个变量通过线性函数关系表示为少数几个潜在因子的和。
因子分析可以用于以下场景:1.变量间关系建模:因子分析可以用于建立变量之间的概念模型,识别变量的共同因子、独特因子和测量误差。
2.假设测试:因子分析可以用于检验变量之间的因果关系,以验证一些假设。
3.变量缩减:通过识别共同的因子,并组合成新的因子变量,因子分析可以减少数据集的维度。
4.数据恢复:因子分析可以通过基于因子提取的结果,恢复原始变量的丢失信息。
四、主成分分析与因子分析的区别:1.目标:主成分分析的目标是将原始变量转化为一组新的不相关的维度,以解释数据方差最大化;而因子分析的目标是将原始变量转化为一组潜在因子,以解释变量间的共同方差。
2.变量假设:主成分分析假设所有变量是观测变量的线性组合,而因子分析假设所有变量既有观测变量,也有不可观测的因子变量。
3.因素解释:主成分分析的主要解释对象是方差,因而主成分的解释目标是能够包含尽可能多的方差;而因子分析的解释对象是共同方差,因而因子的解释目标是能够解释原始变量之间的共同方差。
主成分分析、聚类分析、因子分析的基本思想及优缺点
之勘阻及广创作主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保存原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。
求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。
(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果纷歧致时,要恰当的选取某一种方法;2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位分歧的指标或是取值范围彼此差别非常大的指标,应考虑将数据尺度化,再由协方差阵求主成分;3.主成分分析不要求数据来源于正态分布;4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。
优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。
其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。
再次它在应用上偏重于信息贡献影响力综合评价。
缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
命名清晰性低。
聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。
目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于分歧组的样本应该足够不相似。
经常使用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。
注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;3. 对变量的多元正态性,方差齐性等要求较高。
数据分析中的因子分析与主成分分析
数据分析中的因子分析与主成分分析在当今信息爆炸的时代,数据分析已经成为了各行各业中不可或缺的一部分。
在数据分析的过程中,因子分析和主成分分析是常用的两种统计方法。
它们可以帮助我们理解数据背后的隐藏规律和关联性。
本文将介绍因子分析和主成分分析的基本概念、应用场景以及它们之间的区别。
一、因子分析因子分析是一种用于探索多个变量之间关系的统计方法。
它的基本思想是将多个相关的变量归纳为少数几个潜在因子,从而简化数据的复杂性。
通过因子分析,我们可以找到隐藏在数据背后的共性因素,并将其用较少的变量来代表。
在因子分析中,我们需要确定两个重要的概念:因子载荷和公因子。
因子载荷表示变量与因子之间的相关性,取值范围为-1到1。
而公因子则是指影响多个变量的共同因素。
通过因子分析,我们可以得到每个变量对于每个公因子的因子载荷,从而得知变量之间的相关性以及它们与公因子的关系。
因子分析在实际应用中有着广泛的用途。
例如,在市场调研中,我们可以利用因子分析来确定消费者对于某个产品的偏好因素;在心理学研究中,我们可以通过因子分析来探索人们的个性特征。
因子分析的结果可以帮助我们更好地理解数据,为进一步的分析提供基础。
二、主成分分析主成分分析是一种用于降维的统计方法。
它的目标是通过线性组合将原始变量转化为一组新的互相无关的变量,即主成分。
主成分分析通过保留原始数据的大部分信息,同时减少数据的维度,从而达到简化数据和减少冗余的目的。
在主成分分析中,我们首先需要计算协方差矩阵。
然后,我们通过求解协方差矩阵的特征值和特征向量,得到主成分。
特征值表示主成分的重要性,而特征向量则表示主成分的方向。
通过选择特征值较大的主成分,我们可以保留较多的原始数据信息。
主成分分析在实际应用中也有着广泛的用途。
例如,在金融领域,我们可以利用主成分分析来构建投资组合,降低风险;在图像处理中,我们可以利用主成分分析来提取图像的特征。
主成分分析可以帮助我们更好地理解数据的结构,发现数据中的重要特征。
主成分分析与因子分析的优缺点
主成分分析与因子分析的优缺点1.降维效果好:主成分分析能够把高维度的数据转化为低维度的数据,保留了原始数据的重要信息,并且尽量去除冗余信息,使数据更具可解释性。
2.数据简化:通过主成分分析,我们可以将原始数据转化为由主成分构成的新数据集,这样可以简化后续的数据分析工作。
3.可视化效果好:主成分分析可以将高维度的数据转化为低维度的数据,便于可视化分析,帮助我们更好地理解数据的结构和关系。
4.降低数据噪声:主成分分析通过对原始数据进行线性组合,减少了数据中的噪声影响,提高了数据的信噪比。
5.无需先验知识:主成分分析不需要任何先验知识,只利用原始数据的变异性进行分析,更加普适。
1.数据过于简化:主成分分析会将原始数据进行简化,有可能会造成信息的损失,使得数据的可解释性降低。
2.需要处理缺失值:主成分分析对数据中的缺失值敏感,如果原始数据中存在缺失值,需要提前进行处理。
3.不适用于非线性关系:主成分分析只适用于线性数据,对于非线性数据效果不好,不能完全捕捉到数据的特征。
因子分析的优点:1.探索性分析:因子分析可以从数据中发现潜在的、隐含的因素,帮助我们理解问题背后的内在结构。
2.解释方差:因子分析可以将原始数据解释为若干个因子的线性组合,帮助我们理解这些因子解释了数据方差的比例。
3.提取共享因素:因子分析可以识别多个变量之间的共享因素,使我们能够更好地理解变量之间的关系。
4.指导模型构建:因子分析可以为后续的建模提供参考,帮助我们选择最重要的变量,从而提高模型的准确性和可解释性。
因子分析的缺点:1.先验假设:因子分析需要假设原始变量与因子之间存在线性相关关系,这个假设可能不总是成立。
2.选择困难:因子分析需要根据一些统计指标(如因子负荷值)来确定最终的因子个数,这一过程可能具有主观性,容易受到分析者主观意识的影响。
3.处理缺失值:因子分析对数据中的缺失值敏感,需要采取合适的方法来处理缺失值。
4.对离群值敏感:因子分析对离群值比较敏感,离群值的存在可能会影响因子提取的结果。
主成分分析与因子分析的比较
主成分分析与因子分析的比较一、主成分分析方法1、主成分分析介绍主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。
在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。
信息的大小通常用离差平方和或方差来衡量。
主成分分析的基础思想是将数据原来的p 个指标作线性组合,作为新的综合指标(123,,,p F F F F )。
其中1F 是“信息最多”的指标,即原指标所有线性组合中使()1Var F 最大的组合对应的指标,称为第一主成分;2F 为除1F 外信息最多的指标,即()'12,j i Cov F F a a =∑且()2Var F 最大,称为第二主成分;依次类推。
易知123,,,p F F F F 互不相关且方差递减。
实际处理中一般只选取前几个最大的主成分(总贡献率达到85%),达到了降维的目的。
2、主成分确定的原则假设某个总体共有n 个样本,而每个样本测得p 项指标:X 1,X 2,X 3……X p ,得到原始数据()11121212221212p p p n n np x x x x x x X X X X x x x ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦其中11211n x x X x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦, 1,2,3,i p = 。
将数据矩阵X 的p 个向量12p X X X 作线性组合'111121211'212122222'1122,,,p p p p p p p pp p p F a X a X a X a X F a X a X a X a X F a X a X a X a X ⎧==++⎪==++⎪⎨⎪⎪==++⎩简写成'1122,i i i pi p i F a X a X a X a X ==++ 其中1,2,3,i p =设均值()E X u =,协方差阵()D X =∑。
主成分分析与因子分析的比较与应用
主成分分析与因子分析的比较与应用在数据分析领域,主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis,FA)是常用的降维技术。
它们可以帮助我们理解数据之间的关系、提取相关特征以及简化数据集。
本文将比较主成分分析和因子分析的不同之处,并探讨它们在实际应用中的具体用途。
一、主成分分析主成分分析是一种无监督学习方法,用于将高维数据转换为低维数据。
主成分分析的目标是找到一组新的低维变量,称为主成分,它们能够解释原始数据中最大的方差。
主成分分析的基本思想是将数据投影到方差最大的方向上,以便保留尽可能多的信息。
主成分分析的步骤如下:1. 标准化数据:将原始数据进行标准化处理,使得各个特征的均值为0,方差为1。
2. 计算协方差矩阵:通过计算特征之间的协方差矩阵,了解各个特征之间的相关性。
3. 计算特征值和特征向量:通过对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4. 选择主成分:按照特征值从大到小的顺序,选择最大的k个特征值对应的特征向量作为主成分。
5. 数据转换:将原始数据投影到所选主成分上,得到降维后的数据集。
主成分分析在实际应用中具有广泛的用途。
例如,在图像处理中,主成分分析可用于图像压缩和降噪;在金融领域,主成分分析可用于投资组合优化和资产定价;在生物科学中,主成分分析可用于基因表达数据的分析等。
二、因子分析因子分析也是一种常用的无监督学习方法,其目标是通过观察变量之间的共同变异性,识别潜在的影响因素或隐含变量。
因子分析的基本思想是将多个观测变量解释为少数几个潜在因子的线性组合,从而减少原始数据的维度。
因子分析的步骤如下:1. 建立模型:选择适当的因子分析模型,包括确定因子个数和选择因子旋转方法。
2. 估计参数:使用最大似然估计等方法,对模型中的参数进行估计。
3. 因子旋转:为了使得因子更易于解释,通常需要对因子进行旋转,常见的旋转方法有方差最大旋转和直角旋转等。
主成分分析、聚类分析、因子分析的基本思想及优缺点
主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。
求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。
(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;3.主成分分析不要求数据来源于正态分布;4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。
优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。
其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。
再次它在应用上侧重于信息贡献影响力综合评价。
缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
命名清晰性低。
聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。
目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。
注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;3. 对变量的多元正态性,方差齐性等要求较高。
主成分分析与因子分析的异同和SPSS软件——兼与刘玉玫、卢纹岱等同志商榷
主成分分析与因子分析的异同和SPSS软件——兼与刘玉玫、卢纹岱等同志商榷一、主成分分析与因子分析的异同主成分分析和因子分析都是通过线性组合原始变量来构建新的变量,以实现降维的目标。
它们都可以用来发现数据中的潜在结构,但其目标和原理有所不同。
1. 目标不同主成分分析的目标是将原始变量线性组合成少数几个互相无关的主成分,以尽可能保留原始数据的信息,并在缩减变量数目标同时实现数据降维。
主成分分析可以用于数据可视化、分类和猜测等领域。
因子分析的目标是确定观测变量背后的不行观测的潜在因子,并通过因子与变量之间的相干系数来诠释数据变异。
因子分析常用于心理学、社会学等领域,用于构建心理特质、社会经济指标等。
2. 原理不同主成分分析是基于协方差矩阵(或相关矩阵)进行计算的,通过寻找数据变异最大的新方向(主成分),依次确定其他主成分,来实现数据的最大可诠释性。
因子分析则是通过最大似然预估或主成分法进行计算的,假设观测变量是由潜在因子和随机误差共同决定的,因子分析的目标是推断出潜在因子及其与观测变量之间的干系。
3. 适用场景不同主成分分析适用于观测变量之间具有强相关性的状况,可以用于数据预处理、特征选择、信号处理等方面。
主成分分析对数据的线性性假设较强,对离群点比较敏感。
因子分析适用于观测变量之间存在潜在因子的状况,可以用于构建潜在因子模型、测量潜在心理特质等。
因子分析对数据的线性性假设较弱,对离群点相对不敏感。
4. 结果诠释不同主成分分析的结果可以诠释为数据中的主题或模式,各个主成分的贡献程度可以用特征值和累计方差贡献度来衡量。
因子分析的结果可以诠释为观测变量与潜在因子之间的干系,各个因子的诠释程度可以用因子载荷和共方差贡献度来衡量。
二、SPSS软件在主成分分析和因子分析中的应用SPSS是一款常用的统计分析软件,其提供了丰富的功能和简便的操作界面,可以便利地进行主成分分析和因子分析。
1. 主成分分析在SPSS中进行主成分分析的操作步骤为:点击“分析”菜单下的“降维”选项,选择“主成分...”进入主成分分析对话框。
主成分分析、聚类分析、因子分析的基本思想及优缺点
主成分分析、聚类分析、因子分析的基本思想及优缺点主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。
求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。
(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;3.主成分分析不要求数据来源于正态分布;4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。
优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。
其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。
再次它在应用上侧重于信息贡献影响力综合评价。
缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
命名清晰性低。
聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。
目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。
其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。
注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;3. 对变量的多元正态性,方差齐性等要求较高。
主成分分析聚类分析因子分析的基本思想及优缺点
主成分分析聚类分析因子分析的基本思想及优缺点1.降维:主成分分析可以将高维数据降维到较低维,便于数据的可视化和理解。
2.信息损失小:主成分保留了原始数据中大部分的方差,意味着经过主成分分析后的数据仍然能够保持原始数据的重要信息。
3.无假设性:主成分分析不需要对数据做出任何假设,适用于不同类型的数据。
1.可能丢失一些重要信息:虽然主成分保留了原始数据中大部分的方差,但也有可能丢失一些重要的信息。
2.对异常值敏感:主成分分析对异常值敏感,当数据中存在异常值时,可能对主成分的计算产生较大的影响。
3.需要进行数据标准化:主成分分析基于协方差矩阵或相关系数矩阵,因此需要对数据进行标准化处理,使得不同变量具有相同的尺度。
聚类分析(Cluster Analysis)是一种无监督学习方法,主要用于将数据样本划分为不同的群组或簇。
其基本思想是通过计算样本之间的相似度或距离,将相似的样本归为一类。
聚类分析的步骤包括:选择聚类算法(如k-means、层次聚类等),计算样本之间的相似度或距离,将相似的样本归为一类。
最后根据聚类结果进行验证和解释。
聚类分析的优点包括:1.无监督学习:聚类分析是一种无监督学习方法,不需要事先对数据进行标记或分类,适用于没有先验知识的数据。
2.发现隐藏模式:聚类分析能够发现数据中的潜在模式和相似性,有助于研究人员对数据进行探索和发现新的知识。
3.可解释性:聚类分析结果易于解释和理解,能够提供数据的直观结构。
聚类分析的缺点包括:1.对初始点敏感:聚类分析的结果可能受到初始点的选择影响,不同的初始点可能得到不同的聚类结果。
2.高维数据困难:当数据维度较高时,聚类分析面临“维度灾难”问题,会导致聚类结果不稳定或低效。
3.人为定制参数:聚类分析中需要选择合适的聚类数目、距离度量等参数,这些参数的选择可能会影响聚类结果。
因子分析(Factor Analysis)是一种统计方法,用于研究观测变量背后的潜在因子结构。
主成分分析与因子分析的联系与区别
主成分分析与因子分析的联系与区别相比之下,因子分析(Factor Analysis)更关注隐性的变量或者未观测到的结构。
因子分析假设观测到的变量由一组潜在的因子决定,这些因子通过线性组合来解释观测到的变量的协方差矩阵。
这些因子是未观测到的,但可以通过观测到的变量的线性组合来间接估计。
因子分析的目标是通过提取因子,找到能够解释原始数据方差的最少因子数量,以及变量与因子之间的关系。
相同点:1.数据降维:主成分分析和因子分析都是用于降低数据维度的方法。
它们能够将高维数据转化为低维的表示形式,从而更好地展示数据的结构。
2.可视化:主成分分析和因子分析都可以用于数据可视化。
通过降维,我们可以将数据在二维或三维平面上进行展示,以更好地理解变量之间的关系。
不同点:1.目标:主成分分析旨在最大化数据方差的解释,而因子分析旨在找到能够解释观测到的变量协方差矩阵的最少因子数量。
2.假设:主成分分析假设观测到的变量是线性相关的,而因子分析假设这些变量受到潜在因子的影响。
3.变量解释:在主成分分析中,主成分是原始变量的线性组合,它们解释了数据方差的不同比例。
而在因子分析中,因子是潜在的变量,通过观测到的变量的线性组合来间接估计。
4.其中一种程度上冗余度:主成分分析中的主成分是不相关的,而在因子分析中,因子之间可能存在一定的相关性。
5.数据特点:主成分分析适用于变量之间存在线性相关性的数据;而因子分析适用于存在潜在因子的数据,且变量之间的关系更加复杂。
需要注意的是,主成分分析和因子分析是统计方法,它们的结果需要进一步解释和解释。
研究者需要考虑数据的背景知识和分析的目标,以确定何时使用主成分分析还是因子分析。
主成分分析与因子分析的优缺点(精选5篇)
主成分分析与因子分析的优缺点(精选5篇)第一篇:主成分分析与因子分析的优缺点主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法.聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似.三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益.二、基本思想的异同(一)共同点主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,...,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系.也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ].聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集.对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用.(二)不同之处主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关.它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分.依次类推.若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m(m < p)个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差.主成分分析可以作为因子分析的一种方法出现.因子分析是寻找潜在的起支配作用的因子模型的方法.因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子.对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.通过因子分析得来的新变量是对每个原始变量进行内部剖析.因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分.具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态.因子分析只能解释部分变异,主成分分析能解释所有变异.聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小.聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律.从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量.三、数据标准化的比较主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据.而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化.不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价.聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果.因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响.不同方法进行标准化,会导致不同的聚类结果要注意变量的分布.如果是正态分布应该采用z 分数法.四、应用中的优缺点比较(一)主成分分析1、优点首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息.其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价.再次它在应用上侧重于信息贡献影响力综合评价.2、缺点当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确.命名清晰性低.(二)因子分析1、优点第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高.2、缺点在计算因子得分时,采用的是最小二乘法,此法有时可能会失效.(三)聚类分析1、优点聚类分析模型的优点就是直观,结论形式简明.2、缺点在样本量较大时,要获得聚类结论有一定困难.由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误.第二篇:主成分分析与全成分分析区别主成分分析与全成分分析的区别主成分分析:是把几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关的一种数学降维的方法。
主成分分析、聚类分析、因子分析的基本思想及优缺点
之邯郸勺丸创作主成分阐发:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保存原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分. 求解主成分的办法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知).(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估量)注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种办法;2. 对于度量单位或是取值规模在同量级的数据,可直接求协方差阵;对于度量单位不合的指标或是取值规模彼此差别很是大的指标,应考虑将数据尺度化,再由协方差阵求主成分;3.主成分阐发不要求数据来源于正态散布;4. 在选取初始变量进入阐发时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题).优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息.其次它通过计算综合主成分函数得分,对客不雅经济现象进行科学评价.再次它在应用上偏重于信息奉献影响力综合评价.缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确.命名清晰性低.聚类阐发:将个别(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强.目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化..其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不合组的样本应该足够不相似.经常使用聚类办法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分化法,加入法.注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求阐发人员事先知道样品分为多少类;3. 对变量的多元正态性,方差齐性等要求较高.应用领域:细分市场,消费行为划分,设计抽样计划等优点:聚类阐发模型的优点就是直不雅,结论形式简明.缺点:在样本量较大时,要获得聚类结论有一定困难.由于相似系数是按照被试的反应来建立反应被试间内在联系的指标,而实践中有时尽管从被试反应所得出的数据中发明他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果按照距离或相似系数得出聚类阐发的结果,显然是不适当的,但是,聚类阐发模型自己却无法识别这类错误.因子阐发:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综庞杂关系的变量归结为少数几个综合因子.(因子阐发是主成分的推广,相对于主成分阐发,更倾向于描述原始变量之间的相关关系),就是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计阐发办法.求解因子载荷的办法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法.注意事项:5. 因子阐发中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关.应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实.优点:第一它不是对原有变量的取舍,而是按照原始变量的信息进行重新组合,找出影响变量的配合因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高.缺点:在计算因子得分时,采取的是最小二乘法,此法有时可能会失效.判别阐发:从已知的各类分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(几率最大,距离最近,离差最小等判别准则).经常使用判别办法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等.注意事项:1. 判别阐发的基本条件:分组类型在两组以上,解释变量必须是可测的;2. 每个解释变量不克不及是其它解释变量的线性组合(比方出现多重共线性情况时,判别权重会出现问题);3. 各解释变量之间从命多元正态散布(不合适时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差别时,判别函数不相同).4. 相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大.应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断.对应阐发/最优尺度阐发:利用降维的思想以达到简化数据结构的目的,同时对数据表中的行与列进行处理,寻求以低维图形暗示数据表中行与列之间的关系.对应阐发:用于展示变量(两个/多个分类)间的关系(变量的分类数较多时较佳);最优尺度阐发:可同时阐发多个变量间的关系,变量的类型可以是无序多分类,有序多分类或连续性变量,并对多选题的阐发提供了支持.典型相关阐发:借用主成分阐发降维的思想,辨别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关.相同点:1.主成分阐发法和因子阐发法都是用少数的几个变量(因子) 来综合反应原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.2.这两种阐发法得出的新变量,其实不是原始变量筛选后剩余的变量.在主成分阐发中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子阐发是要利用少数几个公共因子去解释较多个要不雅测变量中存在的庞杂关系,它不是对原始变量的重新组合,而是对原始变量进行分化,分化为公共因子与特殊因子两部分.公共因子是由所有变量配合具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.3.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的阐发,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.4.聚类阐发是把研究对象视作多维空间中的许多点,并合理地分红若干类,因此它是一种按照变量域之间的相似性而逐步归群成类的办法,它能客不雅地反应这些变量或区域之间的内在组合关系.它是通过一个大的对称矩阵来探索相关关系的一种数学阐发办法,是多元统计阐发办法,阐发的结果为群集.对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类阐发也起到了降维的作用.不合之处:1.主成分阐发是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的阐发办法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保存原始变量的信息,且彼此不相关.它是一种数学变换办法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,坚持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分.依次类推.若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m < p) 个主成分就够了,只要这m 个主成分能反应原来所有变量的绝大部分的方差.主成分阐发可以作为因子阐发的一种办法出现.2.因子阐发是寻找潜在的起支配作用的因子模型的办法.因子阐发是按照相关性大小把变量分组,使得同组内的变量之间相关性较高,但不合的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子.对于所研究的问题就可试图用最少个数的不成测的所谓公共因子的线性函数与特殊因子之和来描述原来不雅测的每一份量.通过因子阐发得来的新变量是对每个原始变量进行内部剖析.因子阐发不是对原始变量的重新组合,而是对原始变量进行分化,分化为公共因子和特殊因子两部分.具体地说,就是要找出某个问题中可直接丈量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不成直接丈量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态.因子阐发只能解释部分变异,主成分阐发能解释所有变异.3.聚类阐发算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小.聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分红相似的组或簇,来获得某种内在的数据规律.从三类阐发的基本思想可以看出,聚类阐发中并没于产生新变量,但是主成分阐发和因子阐发都产生了新变量.就数据尺度化来说,区别如下:1.主成分阐发中为了消除量纲和数量级,通常需要将原始数据进行尺度化,将其转化为均值为0方差为1 的无量纲数据.2.因子阐发在这方面要求不是太高,因为在因子阐发中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系其实不太大,当然在采取主成分法求因子变量时,仍需尺度化.不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子阐发前还是要进行数据尺度化.在机关因子变量时采取的是主成分阐发办法,主要将指标值先进行尺度化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后机关综合评价函数进行评价.3.聚类阐发中如果介入聚类的变量的量纲不合会导致错误的聚类结果.因此在聚类过程进行之前必须对变量值进行尺度化,即消除量纲的影响.不合办法进行尺度化,会导致不合的聚类结果要注意变量的散布.如果是正态散布应该采取z 分数法.总结来说:1. 目的不合:因子阐发把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分阐发只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分).2. 线性暗示标的目的不合:因子阐发是把变量暗示成各公因子的线性组合;而主成分阐发中则是把主成分暗示成各变量的线性组合.3. 假设条件不合:主成分阐发中不需要有假设;因子阐发的假设包含:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关.4. 提取主因子的办法不合:因子阐发抽取主因子不但有主成分法,还有极大似然法,主轴因子法,基于这些办法得到的结果也不合;主成分只能用主成分法抽取.5. 主成分与因子的变更:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子阐发中因子不是固定的,可以旋转得到不合的因子.6. 因子数量与主成分的数量:在因子阐发中,因子个数需要阐发者指定(SPSS按照一定的条件自动设定,只要是特征值大于1的因子主可进入阐发),指定的因子数量不合而结果也不合;在主成分阐发中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等).7. 功效:和主成分阐发相比,由于因子阐发可以使用旋转技术帮忙解释因子,在解释方面加倍有优势;而如果想把现有的变量酿成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的阐发,则可以使用主成分阐发.当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的.。
是比较主成分分析和因子分析的相同之处和不同之处
是比较主成分分析和因子分析的相同之处和不同之处主成分分析是将多指标化为少数几个综合指标的一种统计分析方法.因子分析是主成分分析的推广和发展,它是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系.相同之处:都是用较少的综合变量来代替原来较多的变量,而这几个变量又能尽可能多地反映原来变量的信息,并且彼此之间不相关,利用这种降维的思想,产生了主成分分析,因子分析.不同之处:(一):主成分分析,它是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量.(二):主成分分析不能作为一个模型来描述,它只能是通常的变量变换,而因子分析需要构造因子模型,主成分分析中的主成分的个数和变量的个数p相同,它将一组具有相关关系的变量变换为一组互不相关的变量.而因子分析的目的是要用尽可能少的公因子,以便构成一个结构简单的因子模型,主成分分析是将原始变量表示为公因子和特殊因子的线性组合,用假设的公因子来”解释”相关阵的内部依赖关系.(三);主成分分析中不需要有假设,因子分析则需要一些假设(假设包括各个公因子之间不相关,特殊因子之间的不相关,公共因子和特殊因子之间不相关)(四)抽取方法不同,有主成分法,极大似然法,而主成分分析只能用因子分析法抽取.(五):主成分分析中,当给定的协方差矩阵或者相关矩阵或相关矩阵的特征值是唯一的时候,主成分一般是固定的,而因子分析是不固定的,可以旋转得到不同的因子.(六):在因子分析中,因子个数需要分析者指定(只要是特征值大于1的因子进入分析)指定的因子数量不同,结果不同,在主成分分析中成分的数量是一定的,一般有几个变量就有几个主成分. (七):和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更有优势,而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以用主成分分析.。
数据分析中的主成分分析和因子分析比较
数据分析中的主成分分析和因子分析比较在数据分析领域,主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis)是常用的降维技术。
它们可以帮助我们理解和处理高维数据,找到其中的主要特征与隐藏结构。
本文将对主成分分析和因子分析进行比较,并探讨它们的应用场景和优缺点。
一、主成分分析(PCA)主成分分析是一种广泛应用于数据降维的统计方法。
其主要目标是将原始变量转换为一组无关的主成分,这些主成分按重要性递减排列。
主成分分析的基本思想是通过线性变换,将原始变量映射到一个新的坐标系中,在新的坐标系下保留下最重要的特征。
主成分分析的步骤如下:1.标准化数据:将原始数据进行标准化处理,确保各变量具有相同的尺度和方差。
2.计算相关系数矩阵:计算标准化后的数据的相关系数矩阵,用于度量变量之间的线性关系。
3.计算特征值和特征向量:通过对相关系数矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值降序排列,选择前k个特征值对应的特征向量作为主成分。
5.映射数据:将原始数据映射到主成分空间,得到降维后的数据。
主成分分析的优点包括:1.降维效果好:主成分分析能够有效地降低数据维度,减少冗余信息,保留主要特征。
2.无信息损失:主成分之间相互无关,不同主成分之间不会出现信息重叠。
3.易于解释:主成分分析的结果可以通过特征向量进行解释,帮助我们理解数据背后的规律和因果关系。
二、因子分析(Factor Analysis)因子分析是一种用于解释变量之间相关性的统计方法。
它假设多个观察变量共同受到一个或多个潜在因子的影响。
通过因子分析,我们可以发现隐藏在多个观察变量背后的共同因素,并将原始数据转换为更少数量的因子。
因子分析的基本思想是通过寻找协方差矩阵的特征值和特征向量,找到一组潜在因子,使得在这组因子下观察变量之间的协方差最小。
因子分析的步骤如下:1.设定因子个数:根据实际情况和需要,设定潜在因子的个数。
主成分分析、因子分析、聚类分析的比较与应用
主成分分析、因子分析、聚类分析的比较与应用一、本文概述在数据分析与统计学的广阔领域中,主成分分析(PCA)、因子分析(FA)和聚类分析(CA)是三种重要的数据分析工具。
它们各自具有独特的功能和应用领域,对数据的理解和解释提供了不同的视角。
本文将对这三种分析方法进行详细的比较,并探讨它们在各种实际场景中的应用。
我们将对每种分析方法进行简要的介绍,包括其基本原理、数学模型以及主要的应用场景。
然后,我们将详细比较这三种分析方法在数据降维、变量解释以及数据分类等方面的优势和劣势。
主成分分析(PCA)是一种常见的数据降维技术,通过找出数据中的主要变量(即主成分),可以在保留数据大部分信息的同时降低数据的维度。
因子分析(FA)则是一种通过寻找潜在因子来解释数据变量之间关系的方法,它在心理学、社会学等领域有着广泛的应用。
聚类分析(CA)则是一种无监督学习方法,通过将数据点划分为不同的类别,揭示数据的内在结构和分布。
接下来,我们将通过几个具体的案例,展示这三种分析方法在实际问题中的应用。
这些案例将涵盖不同的领域,如社会科学、生物医学、商业分析等,以展示这些方法的多样性和实用性。
我们将对全文进行总结,并提出未来研究方向。
通过本文的比较和应用研究,我们希望能为读者提供一个全面、深入的理解这三种重要数据分析方法的视角,同时也为实际问题的解决提供一些有益的启示。
二、主成分分析(PCA)主成分分析(Principal Component Analysis,简称PCA)是一种常用的数据分析方法,它旨在通过正交变换将原始数据转换为一组线性不相关的变量,即主成分。
这些主成分按照方差大小进行排序,第一个主成分具有最大的方差,后续主成分方差依次递减。
通过这种方式,PCA可以在保持数据主要特征的同时降低数据的维度,简化数据结构,便于进一步的分析和可视化。
PCA的核心思想是数据降维,它通过计算协方差矩阵的特征值和特征向量来实现。
特征值代表了各个主成分的方差大小,而特征向量则构成了转换矩阵,用于将原始数据转换为主成分。
主成分分析、聚类分析、因子分析的基本思想及优缺点
之马矢奏春创作主成份分析:利用降维(线性变换)的思想, 在损失很少信息的前提下把多个指标转化为几个综合指标(主成份),用综合指标来解释多变量的方差- 协方差结构, 即每个主成份都是原始变量的线性组合,且各个主成份之间互不相关,使得主成份比原始变量具有某些更优越的性能(主成份必需保管原始变量90%以上的信息), 从而到达简化系统结构, 抓住问题实质的目的综合指标即为主成份.求解主成份的方法:从协方差阵动身(协方差阵已知), 从相关阵动身(相关阵R已知).(实际研究中, 总体协方差阵与相关阵是未知的, 必需通过样本数据来估计)注意事项:1. 由协方差阵动身与由相关阵动身求解主成份所得结果纷歧致时, 要恰当的选取某一种方法;2. 对怀抱单元或是取值范围在同量级的数据, 可直接求协方差阵;对怀抱单元分歧的指标或是取值范围彼此不同非常年夜的指标, 应考虑将数据标准化, 再由协方差阵求主成份;3.主成份分析不要求数据来源于正态分布;4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零, 说明存在多重共线性问题).优点:首先它利用降维技术用少数几个综合变量来取代原始多个变量, 这些综合变量集中了原始变量的年夜部份信息.其次它通过计算综合主成份函数得分, 对客观经济现象进行科学评价.再次它在应用上偏重于信息贡献影响力综合评价.缺点:当主成份的因子负荷的符号有正有负时, 综合评价函数意义就不明确.命名清晰性低.聚类分析:将个体(样品)或者对象(变量)按相似水平(距离远近)划分类别, 使得同一类中的元素之间的相似性比其他类的元素的相似性更强.目的在于使类间元素的同质性最年夜化和类与类间元素的异质性最年夜化..其主要依据是聚到同一个数据集中的样本应该彼此相似, 而属于分歧组的样本应该足够不相似.经常使用聚类方法:系统聚类法, K-均值法, 模糊聚类法, 有序样品的聚类, 分解法, 加入法.注意事项:1. 系统聚类法可对变量或者记录进行分类, K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为几多类;3. 对变量的多元正态性, 方差齐性等要求较高.应用领域:细分市场, 消费行为划分, 设计抽样方案等优点:聚类分析模型的优点就是直观, 结论形式简明.缺点:在样本量较年夜时, 要获得聚类结论有一定困难.由于相似系数是根据被试的反映来建立反映被试间内在联系的指标, 而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系, 但事物之间却无任何内在联系, 此时, 如果根据距离或相似系数得出聚类分析的结果, 显然是不适当的, 可是, 聚类分析模型自己却无法识别这类毛病.因子分析:利用降维的思想, 由研究原始变量相关矩阵内部的依赖关系动身, 把一些具有扑朔迷离关系的变量归结为少数几个综合因子.(因子分析是主成份的推广, 相对主成份分析, 更倾向于描述原始变量之间的相关关系), 就是研究如何以最少的信息丧失, 将众多原始变量浓缩成少数几个因子变量, 以及如何使因子变量具有较强的可解释性的一种多元统计分析方法.求解因子载荷的方法:主成份法, 主轴因子法, 极年夜似然法, 最小二乘法, a因子提取法.注意事项:5. 因子分析中各个公共因子之间不相关, 特殊因子之间不相关, 公共因子和特殊因子之间不相关.应用领域:解决共线性问题, 评价问卷的结构效度, 寻找变量间潜在的结构, 内在结构证实.优点:第一它不是对原有变量的取舍, 而是根据原始变量的信息进行重新组合, 找出影响变量的共同因子, 化简数据;第二, 它通过旋转使得因子变量更具有可解释性, 命名清晰性高.缺点:在计算因子得分时, 采纳的是最小二乘法, 此法有时可能会失效.判别分析:从已知的各种分类情况中总结规律(训练出判别函数), 当新样品进入时, 判断其与判别函数之间的相似水平(概率最年夜, 距离最近, 离差最小等判别准则).经常使用判别方法:最年夜似然法, 距离判别法, Fisher判别法, Bayes判别法, 逐步判别法等.注意事项:1. 判别分析的基本条件:分组类型在两组以上, 解释变量必需是可测的;2. 每个解释变量不能是其它解释变量的线性组合(比如呈现多重共线性情况时, 判别权重会呈现问题);3. 各解释变量之间服从多元正态分布(不符合时, 可使用Logistic回归替代), 且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著不同时, 判别函数不相同).4. 相对而言, 即使判别函数违反上述适用条件, 也很稳健, 对结果影响不年夜.应用领域:对客户进行信用预测, 寻找潜在客户(是否为消费者, 公司是否胜利, 学生是否被录用等等), 临床上用于鉴别诊断.对应分析/最优标准分析:利用降维的思想以到达简化数据结构的目的, 同时对数据表中的行与列进行处置, 寻求以低维图形暗示数据表中行与列之间的关系.对应分析:用于展示变量(两个/多个分类)间的关系(变量的分类数较多时较佳);最优标准分析:可同时分析多个变量间的关系, 变量的类型可以是无序多分类, 有序多分类或连续性变量, 并对多选题的分析提供了支持.典范相关分析:借用主成份分析降维的思想, 分别对两组变量提取主成份, 且使从两组变量提取的主成份之间的相关水平到达最年夜, 而从同一组内部提取的各主成份之间互不相关.相同点:1.主成份分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息, 变量虽然较原始变量少, 但所包括的信息量却占原始信息的85 %以上, 所以即使用少数的几个新变量, 可信度也很高, 也可以有效地解释问题.而且新的变量彼其间互不相关, 消除多重共线性.2.这两种分析法得出的新变量, 其实不是原始变量筛选后剩余的变量.在主成份分析中, 最终确定的新变量是原始变量的线性组合, 如原始变量为x1 , x2 , . . . , x3 , 经过坐标变换, 将原有的p个相关变量xi 作线性变换, 每个主成份都是由原有p 个变量线性组合获得.在诸多主成份Zi 中, Z1 在方差中占的比重最年夜, 说明它综合原有变量的能力最强, 越往后主成份在方差中的比重也小, 综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系, 它不是对原始变量的重新组合, 而是对原始变量进行分解, 分解为公共因子与特殊因子两部份.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量单独具有的因子.3.对新发生的主成份变量及因子变量计算其得分, 就可以将主成份得分或因子得分取代原始变量进行进一步的分析, 因为主成份变量及因子变量比原始变量少了许多, 所以起到了降维的作用, 为我们处置数据降低了难度.4.聚类分析是把研究对象视作多维空间中的许多点, 并合理地分成若干类, 因此它是一种根据变量域之间的相似性而逐步归群成类的方法, 它能客观地反映这些变量或区域之间的内在组合关系.它是通过一个年夜的对称矩阵来探索相关关系的一种数学分析方法, 是多元统计分析方法, 分析的结果为群集.对向量聚类后, 我们对数据的处置难度也自然降低, 所以从某种意义上说, 聚类分析也起到了降维的作用.分歧之处:1.主成份分析是研究如何通过少数几个主成份来解释多变量的方差一协方差结构的分析方法, 也就是求出少数几个主成份(变量) , 使它们尽可能多地保管原始变量的信息, 且彼此不相关.它是一种数学变换方法, 即把给定的一组变量通过线性变换, 转换为一组不相关的变量(两两相关系数为0 , 或样本向量彼此相互垂直的随机变量) , 在这种变换中, 坚持变量的总方差(方差之和) 不变, 同时具有最年夜方差, 称为第一主成份;具有次年夜方差, 称为第二主成份.依次类推.若共有p 个变量, 实际应用中一般不是找p 个主成份, 而是找出m (m < p) 个主成份就够了, 只要这m 个主成份能反映原来所有变量的绝年夜部份的方差.主成份分析可以作为因子分析的一种方法呈现.2.因子分析是寻找潜在的起支配作用的因子模型的方法.因子分析是根据相关性年夜小把变量分组, 使得同组内的变量之间相关性较高, 但分歧的组的变量相关性较低, 每组变量代表一个基本结构, 这个基本结构称为公共因子.对所研究的问题就可试图用最少个数的不成测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.通过因子分析得来的新变量是对每个原始变量进行内部剖析.因子分析不是对原始变量的重新组合, 而是对原始变量进行分解, 分解为公共因子和特殊因子两部份.具体地说,就是要找出某个问题中可直接丈量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不成直接丈量到、且相对自力的因子支配的规律, 从而可用各指标的测定来间接确定各因子的状态.因子分析只能解释部份变异, 主成份分析能解释所有变异.3.聚类分析算法是给定m 维空间R 中的n 个向量, 把每个向量归属到k 个聚类中的某一个, 使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量年夜, 类间相关性尽量小.聚类问题作为一种无指导的学习问题, 目的在于通过把原来的对象集合分成相似的组或簇, 来获得某种内在的数据规律.从三类分析的基本思想可以看出, 聚类分析中并没于发生新变量, 可是主成份分析和因子分析都发生了新变量.就数据标准化来说, 区别如下:1.主成份分析中为了消除量纲和数量级, 通常需要将原始数据进行标准化, 将其转化为均值为0方差为1 的无量纲数据.2.因子分析在这方面要求不是太高, 因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量, 而且因子变量是每一个变量的内部影响变量, 它的求解与原始变量是否同量纲关系其实不太年夜, 固然在采纳主成份法求因子变量时, 仍需标准化.不外在实际应用的过程中, 为了尽量防止量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采纳的是主成份分析方法, 主要将指标值先进行标准化处置获得协方差矩阵, 即相关矩阵和对应的特征值与特征向量, 然后构造综合评价函数进行评价.3.聚类分析中如果介入聚类的变量的量纲分歧会招致毛病的聚类结果.因此在聚类过程进行之前必需对变量值进行标准化, 即消除量纲的影响.分歧方法进行标准化, 会招致分歧的聚类结果要注意变量的分布.如果是正态分布应该采纳z 分数法.总结来说:1. 目的分歧:因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成, 因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成份分析只是从空间生成的角度寻找能解释诸多变量变异的绝年夜部份的几组彼此不相关的新变量(主成份).2. 线性暗示方向分歧:因子分析是把变量暗示成各公因子的线性组合;而主成份分析中则是把主成份暗示成各变量的线性组合.3. 假设条件分歧:主成份分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关, 特殊因子之间不相关, 公共因子和特殊因子之间不相关.4. 提取主因子的方法分歧:因子分析抽取主因子不单有主成份法, 还有极年夜似然法, 主轴因子法, 基于这些方法获得的结果也分歧;主成份只能用主成份法抽取.5. 主成份与因子的变动:当给定的协方差矩阵或者相关矩阵的特征值唯一时, 主成份一般是固定的;而因子分析中因子不是固定的, 可以旋转获得分歧的因子.6. 因子数量与主成份的数量:在因子分析中, 因子个数需要分析者指定(SPSS根据一定的条件自动设定, 只要是特征值年夜于1的因子主可进入分析), 指定的因子数量分歧而结果也分歧;在主成份分析中, 成份的数量是一定的, 一般有几个变量就有几个主成份(只是主成份所解释的信息量不等).7. 功能:和主成份分析相比, 由于因子分析可以使用旋转技术帮手解释因子, 在解释方面更加有优势;而如果想把现有的变量酿成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析, 则可以使用主成份分析.固然, 这种情况也可以使用因子得分做到, 所以这种区分不是绝对的.。
最新主成分分析与因子分析的优缺点
主成分分析就是将多项指标转化为少数儿项综合指标‘用综合指标来解释多变量的方差-协方差结构•综合指标即为主成分.所得出的少数儿个主成分J要尽可能多地保留原始变量的信息'且彼此不相关. 因子分析是研究如何以最少的信息丢失'将众多原始变量浓缩成少数儿个因子变量‘以及如何使因子变量具有较强的可解释性的一种多元统计分析方法.聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构'并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似丿而属于不同组的样本应该足够不相似.三种分析方法既有区别也有联系'本文力图将三者的异同进行比较'并举例说明三者在实际应用中的联系丿以期为更好地利用这些高级统讣方法为研究所用有所裨益.二、基本思想的异同(一)共同点主成分分析法和因子分析法都是用少数的儿个变量(因子)来综合反映原始变量(因子)的主要信息丿变量虽然较原始变量少丿但所包含的信息量却占原始信息的8S %以上'所以即使用少数的儿个新变量丿可信度也很高丿也可以有效地解释问题.并且新的变量彼此间互不相关丿消除了多重共线性.这两种分析法得出的新变量丿并不是原始变量筛选后剩余的变量.在主成分分析中丿最终确定的新变量是原始变量的线性组合'如原始变量为XI *2,…,X3 '经过坐标变换‘将原有的p个相关变量Xi作线性变换' 每个主成分都是由原有p个变量线性组合得到.在诸多主成分中之丄在方差中占的比重最大川兑明它综合原有变量的能力最强'越往后主成分在方差中的比重也小'综合原信息的能力越弱.因子分析是要利用少数儿个公共因子去解释较多个要观测变量中存在的复杂关系'它不是对原始变量的重新组合'而是对原始变量进行分解'分解为公共因子与特殊因子两部分.公共因子是山所有变量共同具有的少数儿个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量讣算其得分'就可以将主成分得分或因子得分代替原始变量进行进一步的分析'因为主成分变量及因子变量比原始变量少了许多丿所以起到了降维的作用丿为我们处理数据降低了难度.的状态.因子分析只能解释部分变异'主成分分析能解释所有变异.聚类分析算法是给定皿维空间R中的八个向量'把每个向量归属到k个聚类中的某一个丿使得每一个向量与其聚类中心的距离最小.聚类可以理解为:类内的相关性尽量大'类间相关性尽量小.聚类问题作为一种无指导的学习问题丿U的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律.从三类分析的基本思想可以看出,聚类分析中并没于产生新变量/旦是主成分分析和因子分析都产生了新变量.三、数据标准化的比较主成分分析中为了消除量纲和数量级'通常需要将原始数据进行标准化’将其转化为均值为o方差为丄的无量纲数据.而因子分析在这方面要求不是太高丿因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量'并且因子变量是每一个变量的内部影响变量'它的求解与原始变量是否同量纲关系并不太大'当然在采用主成分法求因子变量时'仍需标准化. 不过在实际应用的过程中’为了尽量避免量纲或数量级的影响'建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采用的是主成分分析方法'主要将指标值先进行标准化处理得到协方差矩阵丿即相关矩阵和对应的特征值与特征向量丿然后构造综合评价函数进行评价.聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果.因此在聚类过程进行之血必须对变量值进行标准化丿即消除量纲的影响.不同方法进行标准化'会导致不同的聚类结果要注意变量的分布.如果是正态分布应该采用N分数法.四、应用中的优缺点比较(一)主成分分析1、优点首先它利用降维技术用少数儿个综合变量来代替原始多个变量丿这些综合变量集中了原始变量的大部分信息.其次它通过计算综合主成分函数得分'对客观经济现象进行科学评价.再次它在应用上侧重于信息贡献影响力综合评价.2、缺点当主成分的因子负荷的符号有正有负时'综合评价函数意义就不明确.命名清晰性低.(二)因子分析1、优点笫一它不是对原有变量的取舍丿而是根据原始变量的信息进行重新组合'找出影响变量的共同因子'化简数据;笫二丿它通过旋转使得因子变量更具有可解释性丿命名清晰性高.2、缺点在计算因子得分时丿采用的是最小二乘法』匕法有时可能会失效.(三)聚类分析1、优点聚类分析模型的优点就是直观'结论形式简明.2、缺点在样本量较大时丿要获得聚类结论有一定困难.山于相似系数是根据被试的反映来建立反映被试间内在联系的指标丿而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系/旦事物之间却无任何内在联系』匕时,如果根据距离或相似系数得出聚类分析的结果'显然是不适当的'但是'聚类分析模型本身却无法识别这类错误.公务员制度讲座形考作业一、单项选择12、2005年4月27日,第十届全国人大常委会第十五次会议通过了(),这标志着我国的公务员制度迈入了一个新的发展阶段。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关. 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法.
聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似.
三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益.
二、基本思想的异同
(一) 共同点
主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.
聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的
内在必然联系.也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ].聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集.对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用.
(二) 不同之处
主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息,且彼此不相关.它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分.依次类推.若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m < p) 个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差.主成分分析可以作为因子分析的一种方法出现.
因子分析是寻找潜在的起支配作用的因子模型的方法.因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子.对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.通过因子分析得来的新变量是对每个原始变量进行内部剖析.因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分.具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态.因子分析只能解释部分变异,主成分分析能解释所有变异.
聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小.聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内
在的数据规律.
从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量.
三、数据标准化的比较
主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据.而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化.不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价.
聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果.因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响.不同方法进行标准化,会导致不同的聚类结果要注意变量的分布.如果是正态分布应该采用z 分数法.
四、应用中的优缺点比较
(一) 主成分分析
1、优点
首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息.其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价.再次它在应用上侧重于信息贡献影响力综合评价.
2、缺点
当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确.命名清晰性低.
(二) 因子分析
1、优点
第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化
简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高.
2、缺点
在计算因子得分时,采用的是最小二乘法,此法有时可能会失效.
(三) 聚类分析
1、优点
聚类分析模型的优点就是直观,结论形式简明.
2、缺点
在样本量较大时,要获得聚类结论有一定困难.由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误.。