主成分分析和因子分析应用中值得注意的问题
主成分分析注意事项
主成分分析注意事项主成分分析(Principal Component Analysis,PCA)是一种广泛应用于数据降维和数据可视化的统计方法。
本文将介绍主成分分析的注意事项,包括数据准备、算法理解和结果解释等方面。
下面分别进行详细阐述。
一、数据准备1. 数据类型:主成分分析适用于连续变量的数据,不适用于分类变量或非线性关系变量的分析。
如果数据包含分类变量,需要将其转换为虚拟变量(dummy variable)。
2. 数据缺失:需要对数据进行缺失值处理,可以通过删除、插补或者转换等方法来处理缺失值。
缺失值的处理方式会对主成分分析的结果产生一定影响,因此需要仔细选择合适的方法。
二、算法理解1. 协方差矩阵:主成分分析通过计算协方差矩阵来评估变量之间的线性关系。
因此,在进行主成分分析之前,应先计算出各个变量之间的协方差矩阵。
2. 特征值和特征向量:主成分分析将原始变量转换为一组线性无关的新变量,这些新变量通过特征值和特征向量来描述。
在计算主成分之前,我们需要对原始变量进行标准化,以确保各个变量具有相同的尺度。
三、结果解释1. 方差解释率:主成分分析的一个重要指标是方差解释率,它衡量了每个主成分所解释的总方差比例。
方差解释率越高,说明相应的主成分能够更好地捕捉原始数据的变异程度。
因此,在进行主成分分析后,应该关注方差解释率较高的主成分。
2. 主成分负荷:主成分负荷(loadings)可以衡量原始变量和每个主成分之间的相关性。
负荷值越大,说明原始变量在主成分中的权重越大,对主成分的解释能力也更强。
因此,在解释主成分时,可以通过观察变量的负荷值来确定主成分所代表的特征。
3. 主成分得分:主成分得分表示每个样本在每个主成分上的投影值。
我们可以根据主成分得分来研究样本之间的差异以及情况变量和主成分之间的关系。
可以使用主成分得分对样本进行分类、聚类或者可视化分析。
总结:主成分分析是一种常用的降维和数据可视化的方法。
因子分析与主成分分析在市场调研中的应用比较
因子分析与主成分分析在市场调研中的应用比较因子分析与主成分分析是市场调研中常用的数据分析方法,它们能够帮助研究者减少变量维度,发现变量之间的关联,揭示潜在因素对数据的影响。
虽然二者有着相似的作用和目标,但它们的理论基础和实际运用方式却有所不同。
首先,我们来看一下因子分析。
因子分析是一种通过矩阵运算将一组相关变量转化为一组无关因子的统计方法。
它通过计算共同变异量来发现隐藏在一系列观测变量背后的基本因素,并借此减少变量的数量。
在市场调研中,因子分析可以帮助研究者揭示不同变量之间的共同关系,从而识别出对购买行为或消费偏好有较大影响的因素。
例如,一个研究者可能有一组关于消费者购买行为的变量,比如价格敏感度、产品质量要求、品牌忠诚度等。
通过因子分析,研究者可以发现这些变量之间的潜在关系,譬如有些消费者可能更加注重产品的价格,而有些消费者可能更加看重产品的品牌。
通过将这些变量转化为几个无关因子,研究者可以更好地理解市场中消费者的不同需求,并有针对性地制定营销战略。
与因子分析相比,主成分分析的理论和应用方式更为广泛。
主成分分析是一种通过线性组合将一组相关变量转化为一组无关维度的多元统计方法。
与因子分析不同的是,主成分分析并不假设潜在因素存在,而是寻找一种最佳的线性表示方式,将现有变量的信息压缩到少数几个主成分中。
在市场调研中,主成分分析常常用于多变量数据的降维和分类。
例如,一个研究者可能有一组涵盖消费者年龄、性别、收入、教育水平等各种信息的变量。
通过主成分分析,研究者可以确定这些变量中哪些是相关的,并将其转化为更少的主成分,从而在保留最大信息量的前提下,简化分析过程,得到更高效的结论。
此外,因子分析和主成分分析在应用过程中也有所不同。
因子分析更注重因子的解释性,它会求解因子载荷矩阵,其中的每一个因子载荷值代表了变量与因子之间的相关性。
通过分析载荷矩阵,研究者可以确定哪些变量与特定因子关联较高,从而解释因子所代表的潜在因素。
主成分分析与因子分析的优缺点
主成分分析与因子分析的优缺点1.降维效果好:主成分分析能够把高维度的数据转化为低维度的数据,保留了原始数据的重要信息,并且尽量去除冗余信息,使数据更具可解释性。
2.数据简化:通过主成分分析,我们可以将原始数据转化为由主成分构成的新数据集,这样可以简化后续的数据分析工作。
3.可视化效果好:主成分分析可以将高维度的数据转化为低维度的数据,便于可视化分析,帮助我们更好地理解数据的结构和关系。
4.降低数据噪声:主成分分析通过对原始数据进行线性组合,减少了数据中的噪声影响,提高了数据的信噪比。
5.无需先验知识:主成分分析不需要任何先验知识,只利用原始数据的变异性进行分析,更加普适。
1.数据过于简化:主成分分析会将原始数据进行简化,有可能会造成信息的损失,使得数据的可解释性降低。
2.需要处理缺失值:主成分分析对数据中的缺失值敏感,如果原始数据中存在缺失值,需要提前进行处理。
3.不适用于非线性关系:主成分分析只适用于线性数据,对于非线性数据效果不好,不能完全捕捉到数据的特征。
因子分析的优点:1.探索性分析:因子分析可以从数据中发现潜在的、隐含的因素,帮助我们理解问题背后的内在结构。
2.解释方差:因子分析可以将原始数据解释为若干个因子的线性组合,帮助我们理解这些因子解释了数据方差的比例。
3.提取共享因素:因子分析可以识别多个变量之间的共享因素,使我们能够更好地理解变量之间的关系。
4.指导模型构建:因子分析可以为后续的建模提供参考,帮助我们选择最重要的变量,从而提高模型的准确性和可解释性。
因子分析的缺点:1.先验假设:因子分析需要假设原始变量与因子之间存在线性相关关系,这个假设可能不总是成立。
2.选择困难:因子分析需要根据一些统计指标(如因子负荷值)来确定最终的因子个数,这一过程可能具有主观性,容易受到分析者主观意识的影响。
3.处理缺失值:因子分析对数据中的缺失值敏感,需要采取合适的方法来处理缺失值。
4.对离群值敏感:因子分析对离群值比较敏感,离群值的存在可能会影响因子提取的结果。
主成分分析综合评价应该注意的问题
主成分分析综合评价应该注意的问题随着科学技术与质量活动的日益深入,统计学在质量评价管理中发挥了重要作用,以及汇总多维数据,将它们归纳为有限数量的衡量变量。
在这些方法中,主成分分析(PCA)是最常用的一种,它可以有效地压缩原始数据,并将其转换为可以三维可视化的表示形式。
PCA 是一种有用的工具,可以帮助改进和提高质量管理的工作效率和效果。
然而,在使用PCA进行综合评价时,应该注意一些问题,以确保评估的准确性和可靠性。
首先,评估者必须正确地确定动因和衡量变量的范围,它们是确定主要因素和价值的关键因素。
其次,应检查衡量变量之间的相关性,以确定其评价影响和贡献程度。
此外,应评估数据的质量,以确保数据准确,并采取必要措施来纠正任何质量问题。
最后,当选择PCA时,应检查数据中的噪声水平,排除有害因素并正确校准结果。
除了上述注意事项之外,PCA还可以用来识别待评价对象的关键特征,以及识别重要关联的变量和因素。
识别这些特征可以帮助理解影响指标的因素,从而有效地实施绩效评估。
此外,评估者还可以利用PCA来比较受评价对象之间的差异性,以及对其影响因素的衡量。
最后,需要强调的是,PCA并不能像多元统计分析那样涵盖更多的变量,但它可以帮助识别出评价的关键结构,从而有助于绩效管理的有效实施。
基于上述原因,在使用PCA进行综合评价时,必须首先认真考虑上述注意事项,以确保有效的绩效评估结果。
总而言之,PCA在质量管理中发挥了重要作用,但在使用PCA进行综合评价时,必须注意确定衡量变量范围、检查衡量变量相关性、评估数据质量、检查数据中的噪声水平等因素,以确保评估结果的准确性和可靠性。
而且,识别PCA所测量的特征可以有效实施绩效评估,而PCA还可以帮助比较受评价对象之间的差异性,以及对其影响因素的衡量。
此外,在实施PCA前,还需要深入了解PCA的本质,以及PCA评价的局限性,并提前了解不同因素对结果的影响,以获得准确判断。
因此,只有掌握这些问题,才能使PCA对绩效评价产生有效效果。
主成分分析与因子分析的比较与应用
主成分分析与因子分析的比较与应用在数据分析领域,主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis,FA)是常用的降维技术。
它们可以帮助我们理解数据之间的关系、提取相关特征以及简化数据集。
本文将比较主成分分析和因子分析的不同之处,并探讨它们在实际应用中的具体用途。
一、主成分分析主成分分析是一种无监督学习方法,用于将高维数据转换为低维数据。
主成分分析的目标是找到一组新的低维变量,称为主成分,它们能够解释原始数据中最大的方差。
主成分分析的基本思想是将数据投影到方差最大的方向上,以便保留尽可能多的信息。
主成分分析的步骤如下:1. 标准化数据:将原始数据进行标准化处理,使得各个特征的均值为0,方差为1。
2. 计算协方差矩阵:通过计算特征之间的协方差矩阵,了解各个特征之间的相关性。
3. 计算特征值和特征向量:通过对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4. 选择主成分:按照特征值从大到小的顺序,选择最大的k个特征值对应的特征向量作为主成分。
5. 数据转换:将原始数据投影到所选主成分上,得到降维后的数据集。
主成分分析在实际应用中具有广泛的用途。
例如,在图像处理中,主成分分析可用于图像压缩和降噪;在金融领域,主成分分析可用于投资组合优化和资产定价;在生物科学中,主成分分析可用于基因表达数据的分析等。
二、因子分析因子分析也是一种常用的无监督学习方法,其目标是通过观察变量之间的共同变异性,识别潜在的影响因素或隐含变量。
因子分析的基本思想是将多个观测变量解释为少数几个潜在因子的线性组合,从而减少原始数据的维度。
因子分析的步骤如下:1. 建立模型:选择适当的因子分析模型,包括确定因子个数和选择因子旋转方法。
2. 估计参数:使用最大似然估计等方法,对模型中的参数进行估计。
3. 因子旋转:为了使得因子更易于解释,通常需要对因子进行旋转,常见的旋转方法有方差最大旋转和直角旋转等。
关于主成分分析的五个问题
主成分分析是一种多元分析中最常见的降维和赋权方法。
然而,在实际的应用中,许多人在没有搞清楚方法的意义时就大胆使用,很有点好分析不求甚解的味道。
要知道这样的行为不仅害人而且害己。
所谓害人,就是害了阅读你报告的人;所谓害己,就是你会一而再,再而三的犯错。
第一问:为什么要降维?在实际分析问题时,研究者往往选择很多的指标。
这些指标之间经常会存在一定程度的线性相关,这样就会导致信息的重叠。
直白说就是用多个指标分析一个问题,由于某些指标反映的是问题的同一方面,这样如果把全部指标都同等地纳入模型,就会导致结果失真。
例如衡量学生成绩时,成绩表里有语文、数学、物理、化学。
可是化学老师勤快,一学期测验过好多次,所以这里就有多个化学成绩。
那么计算总分的时候,如果不把几个化学成绩降维成一个化学成绩,就会由于信息的重叠导致结果失真。
第二个问题:线性相关就一定是信息重叠吗?这个不一定吧。
我们举个例子。
比如:要衡量经济发展的影响因素,理论上讲,刺激经济发展的三驾马车是投资、消费和出口,那么我们用于衡量经济发展程度是不是就把这三个指标主成分一下?肯定不是。
正确的做法应该是这三个相加,纵然他们之间可能存在相关,甚至是高度相关,也不能使用主成分。
因为这种相关不是信息的重叠。
所以这里记住一点,线性相关并不意味着信息重叠。
第三个问题:降维一定要用主成分吗?这个答案更容易回答,相信很多人都会说否。
但实际中却一直这么操作。
因为觉得其他降维方法不会呀,而且主成分貌似很高深,用它倍有面子。
其实,实际中使用主成分是因为从主观上没有办法删减变量,如果主观上就能区别出哪些是核心原因,哪些不是,直接将不是的删了就行了,没必要搞个神秘的主成分来把问题复杂化。
要知道主成分使用时,第一步是标准化,这样一来很多指标的意义就模糊了。
这种删减指标的降维方法估计人人都会,可实际中统计专业的达人们却不屑使用。
总觉得用这个方法太没面子了。
所以这里再强调点,使用方法是为了有效解决问题。
STATA中主成分分析与使用主成分法的因子分析的区别
STATA中主成分分析与使用主成分法的因子分析的区别问题描述:在使用因子分析factor命令中,抽取共因子的方法包括主成分法、主因子法、迭代因子以及最大似然法。
后三种不难理解。
但是在stata做主成分分析有一个直接命令pca,那么pca主成分分析与factor中使用主成分法是否是一致的。
这个问题在spss中更为明显和严重。
下面就用实例来说明这个问题。
一、主成分分析先将变量标准化:Egen z1=std(x1)……Egen z7=std(x7)分析过程:. pca x*,mineigen(1)Principal components/correlation Number of obs = 50 Number of comp. = 2Trace = 7Rotation: (unrotated = principal) Rho = 0.7649--------------------------------------------------------------------------Component Eigenvalue Difference Proportion Cumulative-------------+------------------------------------------------------------Comp1 4.1151 2.87617 0.5879 0.5879Comp2 1.23893 .51336 0.1770 0.7649Comp3 .725575 .409071 0.1037 0.8685Comp4 .316504 .0585356 0.0452 0.9137Comp5 .257968 .0359421 0.0369 0.9506Comp6 .222026 .098134 0.0317 0.9823Comp7 .123892 . 0.0177 1.0000--------------------------------------------------------------------------Principal components (eigenvectors) 主成分特征向量------------------------------------------------Vari Comp1 Comp2 Unexplained-------------+--------------------+-------------x1 0.3002 -0.6292 .1386x2 0.4318 -0.1694 .1973x3 0.3969 0.0423 .3496x4 0.3966 -0.3436 .2064x5 0.4402 0.2032 .1516x6 0.3574 0.4024 .2737x7 0.2952 0.5023 .3288------------------------------------------------. loadingplot. estat loading,cnorm(eigen)Principal component loadings (unrotated) 主成分负荷component normalization: sum of squares(column) = eigenvalue----------------------------------Comp1 Comp2-------------+--------------------x1 .6091 -.7003x2 .8758 -.1886x3 .8051 .04705x4 .8046 -.3825x5 .8929 .2262x6 .725 .4479x7 .5988 .5591----------------------------------注:主成分向量=负荷/特征值的开方. estat kmo KMO检验Kaiser-Meyer-Olkin measure of sampling adequacy-----------------------Variable kmo-------------+---------x1 0.6759x2 0.8398x3 0.8517x4 0.8675x5 0.7961x6 0.6731x7 0.7318-------------+---------Overall 0.7836-----------------------. estat smcSquared multiple correlations of variables with all other variables-----------------------Variable smc-------------+---------x1 0.6093x2 0.7300x3 0.5951x4 0.6453x5 0.7948x6 0.7275x7 0.4858-----------------------. estat antiAnti-image correlation coefficients --- partialing out all other variables------------------------------------------------------------------------------------Va x1 x2 x3 x4 x5 x6 x7-------------+----------------------------------------------------------------------x1 1.0000x2 -0.3698 1.0000x3 -0.2740 -0.0700 1.0000x4 -0.2669 -0.3694 -0.0779 1.0000x5 -0.1825 -0.0386 -0.1297 -0.2412 1.0000x6 0.4149 -0.3903 -0.0029 0.1277 -0.6471 1.0000x7 0.2781 -0.0107 -0.4681 0.0538 -0.2887 0.0757 1.0000------------------------------------------------------------------------------------注:KMO、SMC和ANTI结合判断是否适合做主成分分析。
主成分分析聚类分析因子分析的基本思想及优缺点
主成分分析聚类分析因子分析的基本思想及优缺点1.降维:主成分分析可以将高维数据降维到较低维,便于数据的可视化和理解。
2.信息损失小:主成分保留了原始数据中大部分的方差,意味着经过主成分分析后的数据仍然能够保持原始数据的重要信息。
3.无假设性:主成分分析不需要对数据做出任何假设,适用于不同类型的数据。
1.可能丢失一些重要信息:虽然主成分保留了原始数据中大部分的方差,但也有可能丢失一些重要的信息。
2.对异常值敏感:主成分分析对异常值敏感,当数据中存在异常值时,可能对主成分的计算产生较大的影响。
3.需要进行数据标准化:主成分分析基于协方差矩阵或相关系数矩阵,因此需要对数据进行标准化处理,使得不同变量具有相同的尺度。
聚类分析(Cluster Analysis)是一种无监督学习方法,主要用于将数据样本划分为不同的群组或簇。
其基本思想是通过计算样本之间的相似度或距离,将相似的样本归为一类。
聚类分析的步骤包括:选择聚类算法(如k-means、层次聚类等),计算样本之间的相似度或距离,将相似的样本归为一类。
最后根据聚类结果进行验证和解释。
聚类分析的优点包括:1.无监督学习:聚类分析是一种无监督学习方法,不需要事先对数据进行标记或分类,适用于没有先验知识的数据。
2.发现隐藏模式:聚类分析能够发现数据中的潜在模式和相似性,有助于研究人员对数据进行探索和发现新的知识。
3.可解释性:聚类分析结果易于解释和理解,能够提供数据的直观结构。
聚类分析的缺点包括:1.对初始点敏感:聚类分析的结果可能受到初始点的选择影响,不同的初始点可能得到不同的聚类结果。
2.高维数据困难:当数据维度较高时,聚类分析面临“维度灾难”问题,会导致聚类结果不稳定或低效。
3.人为定制参数:聚类分析中需要选择合适的聚类数目、距离度量等参数,这些参数的选择可能会影响聚类结果。
因子分析(Factor Analysis)是一种统计方法,用于研究观测变量背后的潜在因子结构。
主成分分析与因子分析的优缺点(精选5篇)
主成分分析与因子分析的优缺点(精选5篇)第一篇:主成分分析与因子分析的优缺点主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法.聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似.三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益.二、基本思想的异同(一)共同点主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,...,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系.也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ].聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集.对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用.(二)不同之处主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关.它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分.依次类推.若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m(m < p)个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差.主成分分析可以作为因子分析的一种方法出现.因子分析是寻找潜在的起支配作用的因子模型的方法.因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子.对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.通过因子分析得来的新变量是对每个原始变量进行内部剖析.因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分.具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态.因子分析只能解释部分变异,主成分分析能解释所有变异.聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小.聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律.从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量.三、数据标准化的比较主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据.而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化.不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价.聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果.因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响.不同方法进行标准化,会导致不同的聚类结果要注意变量的分布.如果是正态分布应该采用z 分数法.四、应用中的优缺点比较(一)主成分分析1、优点首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息.其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价.再次它在应用上侧重于信息贡献影响力综合评价.2、缺点当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确.命名清晰性低.(二)因子分析1、优点第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高.2、缺点在计算因子得分时,采用的是最小二乘法,此法有时可能会失效.(三)聚类分析1、优点聚类分析模型的优点就是直观,结论形式简明.2、缺点在样本量较大时,要获得聚类结论有一定困难.由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误.第二篇:主成分分析与全成分分析区别主成分分析与全成分分析的区别主成分分析:是把几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关的一种数学降维的方法。
因子分析与主成分分析
因子分析与主成分分析因子分析和主成分分析是统计学中常用的降维技术,它们在数据分析和模式识别等领域中广泛应用。
本文将介绍因子分析和主成分分析的基本概念与原理,并对它们的应用进行探讨。
一、因子分析的概念与原理因子分析是一种用于发掘多个变量之间潜在关联性的方法。
当我们面对大量变量时,往往希望找到其中的共性因素来解释观测数据。
因子分析通过将变量进行降维,将原始变量解释为共同的因子或构念,从而减少信息冗余,提取数据的主要特征。
因子分析的核心思想是假设多个观测变量是由少数几个潜在因子所共同决定的。
这些潜在因子无法直接观测,但可以通过观测变量的线性组合进行间接估计。
通过因子分析,我们可以得到因子载荷矩阵,它描述了每个观测变量与潜在因子之间的关系强度。
二、主成分分析的概念与原理主成分分析是一种常用的无监督学习方法,用于降维和数据压缩。
与因子分析类似,主成分分析也采用线性组合的方式将原始变量映射到一个低维的特征空间。
主成分分析的目标是找到一组新的变量,称为主成分,它们能够最大程度地保留原始数据中的信息。
主成分分析的步骤如下:1. 标准化数据:将原始数据标准化,使得变量的均值为0,方差为1,以消除变量尺度差异的影响。
2. 计算协方差矩阵:计算标准化后的数据的协方差矩阵,用于评估各个变量之间的相关性。
3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
4. 选择主成分:根据特征值大小,选择要保留的主成分数量。
5. 计算主成分:将原始数据投影到所选择的主成分上,得到降维后的数据。
三、因子分析与主成分分析的应用1. 数据降维:因子分析和主成分分析可以用于降低数据集的维度,减少冗余信息。
在机器学习和数据挖掘中,高维数据集的处理往往会面临计算复杂度和过拟合等问题,降维技术可以有效解决这些问题。
2. 变量选择:通过因子分析和主成分分析,可以识别出对观测数据具有重要影响的变量。
这对于特征选择和模型建立有重要意义,可以提高模型的解释性和泛化能力。
因子分析中的常见问题解决技巧分享(Ⅰ)
因子分析是一种常用的多元统计方法,用于发现数据中隐藏的结构和模式。
在实际应用中,人们常常会遇到各种各样的问题。
本文将分享因子分析中的一些常见问题及解决技巧。
1. 数据准备阶段在进行因子分析之前,首先需要对数据进行清洗和准备。
常见问题包括缺失值处理、异常值处理和变量标准化等。
对于缺失值,可以采用删除、插补或者使用适当的因子分析方法。
对于异常值,可以通过观察数据分布和离群点分析来识别和处理。
而对变量的标准化,则可以采用z-score标准化或者min-max标准化等方法。
2. 因子提取阶段在因子提取阶段,常见问题包括确定因子数和选择提取方法。
确定因子数可以采用平行分析、特征值大于1、累计贡献率达到70%~80%等方法。
选择提取方法可以根据数据特点和研究目的来决定,常见的包括主成分分析、最大似然估计和最小残差平方法等。
3. 因子旋转阶段在因子旋转阶段,常见问题包括选择旋转方法和确定旋转次数。
选择旋转方法可以根据因子分析的目的和数据结构来决定,常见的包括方差最大化旋转、极大似然估计旋转和斜交旋转等。
确定旋转次数可以通过观察因子载荷矩阵和解释性等指标来决定。
4. 因子解释阶段在因子解释阶段,常见问题包括解释因子意义和命名因子。
解释因子意义可以通过观察因子载荷矩阵和因子得分来理解。
而命名因子则需要根据因子载荷矩阵和研究领域知识来确定。
5. 结果解释和验证阶段在因子分析完成后,需要对结果进行解释和验证。
常见问题包括结果解释和结果验证。
结果解释可以通过因子载荷矩阵、因子得分和因子旋转后的载荷矩阵来进行。
而结果验证可以通过因子得分的相关性、因子得分的回归分析和因子分析的稳健性等方法来进行。
通过以上的论述,我们可以看到因子分析中存在着诸多问题,但是这些问题通常都能够通过合理的方法和技巧来解决。
因此,在进行因子分析时,需要对数据进行充分的准备和考虑,同时也需要对因子提取、旋转、解释和验证等阶段进行认真的分析和处理。
只有这样,我们才能够得到准确可靠的因子分析结果,为后续的研究和决策提供有力的支持。
因子分析和主成分分析在数据降维中的应用
因子分析和主成分分析在数据降维中的应用一、背景介绍数据降维是一种对高维数据进行简化的方法,它可以减少数据分析过程中的计算量,提高模型效率。
在实际数据分析中,数据的维度常常是非常高的,而且高维数据具有许多不规则的特征,如噪声、缺失值等,这需要运用合适的降维技术来针对这些问题进行处理。
因子分析和主成分分析是两种经典的统计降维技术,它们被广泛应用于数据降维领域,并在实际中取得了良好的效果。
下面将对这两种降维技术的原理、方法及应用进行详细介绍。
二、因子分析因子分析是一种基于相关性分析的统计方法,它可以从数据中提取出不同因子之间的潜在关系,并将数据转化为具有较少、更为有表达的因子变量。
因此,因子分析适用于探索多个变量之间的结构,从而更好地理解它们之间的关系。
1.原理和方法因子分析的基本原理是将多个测量指标转化为少量的有意义的因子变量,这些因子变量在互相独立的前提下反映了原始变量的大部分信息。
因子分析还建立在一种假设之上,即每个因子都与一组变量具有一定的相关性,并且因子直接不相关。
基本思路是先对测量指标进行因子旋转,使得每个因子只与少数相关系数较大的测量指标相关,然后从转化后的因子中寻找最能解释总变异的因子。
在因子分析中,通常可采用主成分分析、极大似然估计等方法来进行因子提取,并通过旋转方法来增强提取到的因子与原始数据的解释性。
2.应用因子分析主要应用于探索潜在的结构,在社会、心理、医学等领域中非常常见。
例如,在心理学中,心理学家用问题问卷来测量个体的特定人格特征,因为人格是一种非常复杂的概念,通常需要通过因子分析来找到能够代表人格的因子。
因子分析还可以应用于方差分析、路径分析、结构方程模型等多种统计分析方法中。
三、主成分分析主成分分析是一种数学方法,是一种基于线性关系的多元统计分析方法,通过对变量之间的相关性进行分解,以生成一组线性无关的新变量(主成分)保留原始数据的最大变异量来实现数据降维的目的。
1.原理和方法主成分分析主要的思路是找到一个比原始变量更基础,或更本质的概念,来代替原来的所有变量,从而简化问题。
因子分析与主成分分析的区别与应用
因子分析与主成分分析的区别与应用因子分析与主成分分析是统计学中常用的多变量分析方法,用于降维和提取数据中的主要信息。
虽然它们都可以用于数据分析,但在方法和应用上存在一些区别。
本文将介绍因子分析与主成分分析的区别,并讨论它们各自的应用。
一、因子分析与主成分分析的定义因子分析是一种用于研究多个观测变量之间的内在相关性结构的统计技术。
它通过将多个变量组合为少数几个“因子”来解释数据的方差。
每个因子代表一组相关性高的变量,可以帮助我们理解数据背后的潜在结构。
主成分分析是一种通过将原始变量转换为线性组合(即主成分)来降低多维数据维度的技术。
它通过找到数据中的最大方差方向来确定主成分,并逐步提取主成分,以解释数据的最大方差。
主成分分析可以帮助我们发现数据中的主要特征。
二、因子分析与主成分分析的区别1. 目的不同:因子分析的目的是确定一组能够最好地描述观测数据之间关系的因子,并解释数据中的方差。
因子分析更加关注变量之间的共同性和相关性,希望通过较少的因子来解释数据。
主成分分析的目的是通过寻找数据中的主要结构和主要特征来降低数据的维度。
主成分分析着重于方差的解释,通过线性组合来减少变量数量,提取出主要成分。
2. 基本假设不同:因子分析基于观察变量之间的共同性,假设观测变量是由一组潜在因子决定的。
它假设每个观测变量都与每个因子有一个固定的因子载荷。
主成分分析假设原始变量之间是线性相关的,并且通过线性变换,可以找到解释大部分数据方差的新变量。
3. 输出结果不同:因子分析输出因子载荷矩阵,该矩阵显示每个因子与每个观测变量之间的关系。
因子载荷表示每个因子对每个变量的贡献程度,可用于解释观测变量之间的共同性。
主成分分析输出的是主成分,每个主成分是原始变量的线性组合。
主成分按照解释的方差大小排序,因此前几个主成分更能代表原始数据的方差。
三、因子分析与主成分分析的应用因子分析的应用广泛,可以用于心理学、社会科学、市场调研等领域。
数据分析中的主成分分析和因子分析比较
数据分析中的主成分分析和因子分析比较在数据分析领域,主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis)是常用的降维技术。
它们可以帮助我们理解和处理高维数据,找到其中的主要特征与隐藏结构。
本文将对主成分分析和因子分析进行比较,并探讨它们的应用场景和优缺点。
一、主成分分析(PCA)主成分分析是一种广泛应用于数据降维的统计方法。
其主要目标是将原始变量转换为一组无关的主成分,这些主成分按重要性递减排列。
主成分分析的基本思想是通过线性变换,将原始变量映射到一个新的坐标系中,在新的坐标系下保留下最重要的特征。
主成分分析的步骤如下:1.标准化数据:将原始数据进行标准化处理,确保各变量具有相同的尺度和方差。
2.计算相关系数矩阵:计算标准化后的数据的相关系数矩阵,用于度量变量之间的线性关系。
3.计算特征值和特征向量:通过对相关系数矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值降序排列,选择前k个特征值对应的特征向量作为主成分。
5.映射数据:将原始数据映射到主成分空间,得到降维后的数据。
主成分分析的优点包括:1.降维效果好:主成分分析能够有效地降低数据维度,减少冗余信息,保留主要特征。
2.无信息损失:主成分之间相互无关,不同主成分之间不会出现信息重叠。
3.易于解释:主成分分析的结果可以通过特征向量进行解释,帮助我们理解数据背后的规律和因果关系。
二、因子分析(Factor Analysis)因子分析是一种用于解释变量之间相关性的统计方法。
它假设多个观察变量共同受到一个或多个潜在因子的影响。
通过因子分析,我们可以发现隐藏在多个观察变量背后的共同因素,并将原始数据转换为更少数量的因子。
因子分析的基本思想是通过寻找协方差矩阵的特征值和特征向量,找到一组潜在因子,使得在这组因子下观察变量之间的协方差最小。
因子分析的步骤如下:1.设定因子个数:根据实际情况和需要,设定潜在因子的个数。
对主成分分析法运用中十个问题的解析
对主成分分析法运用中十个问题的解析一、本文概述主成分分析法(Principal Component Analysis, PCA)是一种广泛应用于数据降维和特征提取的统计方法。
它通过正交变换将原始数据转换为新的坐标系,使得新坐标系中的各坐标轴(主成分)上的数据互不相关,并且按照方差大小依次排列。
这样,原始数据的大部分信息就可以由少数几个主成分来表示,从而实现数据降维和特征提取的目的。
然而,在应用主成分分析法时,我们常常会遇到一些问题,这些问题可能会影响分析结果的有效性和可靠性。
本文旨在对主成分分析法运用中常见的十个问题进行解析,帮助读者更好地理解和应用这一方法。
通过本文的阐述,读者将能够掌握主成分分析法的核心原理,了解其在应用中可能遇到的问题,以及如何解决这些问题,从而提高数据分析的准确性和效率。
二、数据预处理问题主成分分析(PCA)是一种广泛使用的无监督学习方法,用于从多元数据集中提取关键信息。
然而,在使用PCA之前,对数据进行适当的预处理是至关重要的,因为它可以显著影响PCA的结果。
以下是关于PCA运用中常见的十个数据预处理问题及其解析:缺失值处理:数据集中经常存在缺失值,这些缺失值在进行PCA之前必须进行处理。
一种常见的方法是用均值、中位数或众数来填充缺失值,或者完全删除含有缺失值的行或列。
选择哪种方法取决于数据的性质和分析的目标。
数据标准化:PCA对数据的尺度非常敏感。
因此,通常需要对数据进行标准化处理,即减去均值并除以标准差,以使每个特征的均值为0,标准差为1。
这样,PCA将不再受到特征尺度的影响。
异常值处理:异常值可能会对PCA的结果产生显著影响。
因此,在进行PCA之前,需要对数据进行检查,并决定如何处理异常值。
一种常见的做法是使用IQR(四分位距)来识别并删除或处理异常值。
数据转换:在某些情况下,对数据进行适当的转换可以提高PCA的效果。
例如,对于偏态分布的数据,可以使用对数转换或Box-Cox转换来使其更接近正态分布。
主成分分析注意事项
主成分分析注意事项主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维方法,它可以通过线性变换将高维数据映射到低维表示空间中,同时最大程度地保留原始数据的信息。
在进行PCA分析时,需要注意以下几个方面。
首先,PCA分析的前提是原始数据需要满足线性可分的假设。
也就是说,原始数据中的数据点应该近似位于一个低维子空间中。
如果原始数据不满足线性可分的假设,那么PCA分析可能会产生不准确的结果。
其次,PCA分析是一种无监督学习算法,它只利用数据的统计特性进行降维。
因此,在进行PCA分析之前,需要对数据进行适当的预处理,例如去除均值、缩放数据等,以便确保数据分布的稳定性和可比性。
第三,PCA分析的结果会受到数据的量纲影响。
在进行PCA分析之前,需要对数据进行标准化处理,以确保不同变量的量纲一致。
常用的标准化方法包括Z-score标准化、最大最小值标准化等。
第四,PCA分析的结果受到数据的方差分布影响。
在进行PCA分析时,应该注意数据是否服从高斯分布,如果数据不服从高斯分布,可以采用正态化或者对数变换等方法进行处理。
第五,PCA分析的结果和主成分的解释性息息相关。
通常情况下,我们希望选择解释性较好且能够保留较多原始数据信息的主成分。
可以通过观察主成分的累积贡献率以及特征值等指标来评估主成分的贡献程度。
第六,PCA分析也可以用于特征选择。
除了主成分的贡献程度外,还可以通过特征向量和特征值之间的关系来评估变量的重要性。
一般来说,特征向量绝对值较大的变量对应的特征值较大,说明该变量在主成分中的贡献较大。
第七,PCA分析可以通过降维来减少数据维度,但需要保留足够多的主成分以保留原始数据的信息。
在进行PCA分析时,可以通过主成分的累积贡献率来选择合适的降维维度。
通常情况下,保留累积贡献率较高(例如90%以上)的主成分即可。
最后,PCA分析的结果应该进行适当的解释和应用。
通过对主成分的解释,可以发现变量之间的关系、主要影响因素等,从而得到有关数据的有用信息。
因子分析中的常见误区与解决方法(四)
因子分析是一种常用的统计方法,用于发现变量之间的关系并将它们归纳到更少的潜在因子中。
然而,在进行因子分析时,常常会遇到一些误区,这些误区可能会导致分析结果的不准确甚至错误。
本文将讨论因子分析中的一些常见误区以及解决方法。
误区一:变量选择不当在进行因子分析时,选择哪些变量作为分析对象是非常关键的。
如果选择的变量过多或者过少,都会对因子分析的结果产生影响。
过多的变量可能会使得因子分析变得复杂,而过少的变量可能无法完全反映出变量之间的关系。
因此,在选择变量时,需要根据实际情况进行合理的筛选,确保所选变量能够充分反映出研究对象的特征。
解决方法:在选择变量时,可以先进行相关性分析,筛选出相关性较高的变量作为因子分析的对象。
同时,也可以利用专业知识和经验来进行变量的选择,确保选择的变量能够全面反映研究对象的特征。
误区二:因子个数确定不当确定因子的个数是因子分析中的一个关键问题。
如果因子个数确定不当,可能会导致因子解释不清晰或者因子解释过分细化。
因此,在进行因子分析时,需要准确确定因子的个数,确保能够充分反映出变量之间的关系。
解决方法:确定因子的个数可以利用一些统计方法,如特征值大于1、Kaiser准则、累计贡献率等。
同时,也可以结合实际情况和专业知识进行判断,确保确定的因子个数能够合理解释变量之间的关系。
误区三:因子旋转选择不当因子旋转是因子分析中非常重要的一步,它可以使得因子的解释更加清晰。
然而,在进行因子旋转时,选择不当可能会导致因子解释不清晰或者产生混淆。
解决方法:在进行因子旋转时,可以使用方差最大化旋转方法、直接斜交旋转方法等。
同时,也可以结合实际情况和专业知识进行判断,选择合适的因子旋转方法,确保能够使得因子的解释更加清晰。
误区四:因子解释不合理在进行因子分析时,因子解释是非常重要的一步,它可以帮助我们理解变量之间的关系并作出相应的结论。
然而,因子解释不合理可能会导致结论的不准确或者错误。
解决方法:在进行因子解释时,需要根据实际情况和专业知识进行判断,确保能够合理解释因子的含义。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医疗保健
0.784 0.286
交通和通信
0.865 0.333
教育文化娱乐服务 0.916 0.224
居住
0.937 0.003
杂项和其它
0.780 0.500
数 据 来 源 : 中 国 统 计 年 鉴 2005, 中 国统计出版社
从表 1 的分析结果可知, 8 个属性
被 分 为 两 类 : 除 “衣 着 ”以 外 的 属 性 为 一
符合实际意义的解释。但实际上这个因 将会很有益处。聚类分析中使用主成分
子分析结果是有问题的, 原因就在于未 分析或因子分析方法的目的就是为了作
剔除这四个异常值而计算出的样本相关 图( 当取两个主成分或因子时) 或看单个
阵是很不稳定的, 不能有效地估计总体 数值的大小 ( 当取一个主成分或因子
相关阵。我曾在另文中从表 2 的相关阵 时) , 如果将主成分( 或因子) 得分用来计
规模 ) 得 分 ( f^1) 非 常 大 , 它 们 是 : “中 国 石 化”( f^1=23.853) 、“宝钢股份”( f^1=3.239) 、 “华能国际”( f^1=3.032) 和“浦发银行”( f^ 1=2.327) 。 为 了 取 得 较 好 的 因 子 分 析 结 果, 应剔除这四只( 规模) 因子得分异常 的 股 票 , 尤 其 是 “中 国 石 化 ”为 一 个 规 模
11.144%, 累 计 贡 献 率 为 85.687%, 提 取 前 2 个因子的特征向量建立因子载荷 阵, 作正交旋转, 表 1 为正交旋转后的因 子载荷阵。
表 1 正交旋转后的因子载荷阵
Component
12
食品
0.878 0.201
衣着
0.176 0.973
家庭设备用品及服务 0.888 0.308
做法是, 删除样本中极个别的异常值, 然 否有异常值, 经过初步的因子分析计算,
后用这稍缩减了一点点的样本对总体中 发现有这样四只股票的第一因子 ( 反映
取值非异常的部分( 几乎占整个总体) 进 行统计推断, 这样往往能使推断的有效 性大为提高。因此, 在作主成分分析和因 子分析时我们一般需首先对原始数据进 行检查, 用适当的方法作异常值的识别。 这些方法可以包括: 对每两个原始变量 作一样本观测值的散点图; 对前几个计
类记作 Ψ1, 其中 , “居 住 ”的 载 荷 最 高 , 其 次 是 “教 育 文 化 娱 乐 服 务 ”; “衣 着 ”单 独
为一类记作 Ψ2。 根据式(3)- (7), 对这 8 个属性进行属
性重要性的计算。表 2 是这 8 个属性重
要性的计算结果。
从表 2 中的计算结果, 得到属性重
要性的排序依次为 “居住”、“食品”、“教
x4 0.956 0.972 0.997 1.000
x5 0.024 0.044 0.108 0.133 1.000
x6 - 0.018 - 0.008 0.017 0.027 0.585 1.000
x7 0.032 0.041 0.088 0.109 0.776 0.218 1.000
x8 0.016 0.036 0.093 0.118 0.846 0.291 0.831 1.000
本相关矩阵 R 出发来进行主成分分析 两两散点图; 直接查看某种计算结果; 等
和因子分析的。
等。下面的例子将告诉我们异常值会对
一 、异 常 值 的 影 响
数据分析的结果产生多么大的影响。
在实际问题中, 我们所遇到的( 特别
例 1. 沪市 608 家上市公司 2001 年
是反映规模的) 总体经常会含有一个取 财务报表中有如下十个主要财务指标:
x9 0.905 0.899 0.917 0.911 0.041 - 0.013 0.040 0.009 1.000
x10 0.989 0.990 0.975 0.964 0.001 - 0.051 0.024 0.016 0.911 1.000
盘价进行主成分 分析和因子分析。
( 2) 将 ( 1) 中 的周五收盘价改 为 周 回 报 率 ( =( 本 周五收盘价上周 五 收 盘 价 ) /上 周 五收盘价), 如果 数据 x1,x2, …,xn 表 现为独立分布的,
增 加 , 随 着 手 机 、电 脑 的 普 及 , 通 信 费 用 支出也相应有大幅增加; 最后一项是“衣 着”, 除北京、西藏在服装方面支出较大, 其它城市人均支出在此方面的支出远小 于其它项目。这样的排序结果比较符合 我国的国情, 也证明了这种属性重要性 排序方法的正确性。
五 、结 论 属性重要性的测度在数据挖掘预处 理和综合评价中都非常重要。本文提出 的基于因子分析的无监督属性重要性的 测度方法, 通过两次加权达到了通过整 个属性集来考察属性重要性的目的。它 不仅能够对属性的重要性排序, 还能够 将计算结果作为赋权的依据。这种方法 的另一个优点就是能够处理连续属性 值, 并且易于理解, 容易操作, 应用范围 比较广泛。 但需要注意的是, 在使用该方法之 前应该对数据集进行 KMO 检验, KMO 值 低 于 0.6 的 数 据 集 是 不 适 宜 通 过 因 子 分 析来进行属性重要性的排序的。另外, 在 确定个公因子的过程中, 由于累积贡献率 很少会取到 100%, 会损失一部分信息。 ( 作者单位/ 厦门大学经济学院计划统计系)
一个容量为 n 的( 简单随机) 样本, 在实
际问题中, μ和 Σ一般都是未知的, 可用
样本分别估计为
n
n
! ! x= 1 n
i
=
1
xi,
s=
1 n- 1
(xi- x)(xi- x)'
i=1
它们都是无偏的。因此, 在实际应用中,
人们一般都是从样本协方差矩阵 S 或样 算所得的样本主成分得分或因子得分画
些误用也出现在了公开发表的学术论文
中。这两种方法虽然很有用, 但它们都有
自己的适用场合和需符合的条件, 如果
不注意这些就有可能陷入方法使用的误
区。只有科学合理地使用这些方法才能
取得理想的效果。本文将从四个方面阐
述使用主成分分析和因子分析时需注意
的问题。
设 x1, x2, … , xn 是 来 自 均 值 向 量 为 μ、协 方 差 矩 阵 为 Σ的 某 个 p 维 总 体 的
1.000 0.218 1.000 0.290 0.833 0.138 0.067 - 0.066 0.033
1.000 0.058 1.000 0.051 0.861
1.000
分析 在对 n 个 p( >
2) 维 样 品 进 行 聚 类时, 除了使用正 规的聚类分析方
特大的股票, 会对因子分析的结果产生 法外, 我们有时也试图使用主成分分析
出发对该例作了因子分析, 并取得了较 算各样品之间的距离, 那就不合适了, 下
好的效果。
面我们针对使用主成分和欧氏距离来说
二 、时 间 序 列 数 据
明这一点。
设 x1,x2, …,xn 是 一 组 p 维 时 间 序 列
设 x1,x2,…,xn 是 n 个 样 品 , 从 样 本 协
数据, 对此种数据进行主成分分析或因 方差阵出发可求得第 j 个样品的第 i 个
明显的不利影响。表 1 和表 2 分别是根 或因子分析方法进行降维。如果前两个
据 608 家数据和剔除四家后的 604 家数 主成分或因子的累计贡献率达到了一个
据计算出的上述十个财务指标的样本相 较高的百分比, 则可以在由这两个主成
关阵, 可见, 表 1 的结果严重地受到了四 分或因子构成的得分散点图上用目测方
因子分析。
x5 0.171 0.325 0.539 0.559 1.000
三 、用 作 聚 类
x6 0.149 0.228 0.284 0.274 0.585 x7 0.096 0.177 0.362 0.402 0.776 x8 0.066 0.204 0.455 0.500 0.849 x9 0.748 0.768 0.574 0.567 0.125 x10 0.622 0.619 0.485 0.500 0.002
表2
由剔除四家后的 604 家上市公司数据计算的样本相关阵
则样本协方差阵 S
x1
x2
x3
x4
x5
x1 1.000
就可用来代替总
x6
x7
x8
x9
x10
体 协 方 差 阵 Σ, 进
x2 0.723 1.000
而可进一步试着
x3 0.427 0.743 1.000
作主成分分析或x4 0.407来自0.697 0.982 1.000
子分析需格外小心, 因为在大多数情况 下 x1, x2,…,xn 彼此间不是独立的, 而是相 关的, 因而不是一个简单随机样本。若 x1,x2…,xn 相 关 , 则 由 x1,x2,…,xn 算 得 的 样 本协方差阵 S 将不是总体协方差阵 Σ
主 成 分 得 分 为 yji=t' ixj, i=1,2, … ,p, j=1,2, … ,n, 于 是 yj=T' xj, 其 中 yj=(yj1,yj2, … ,yjp)' 为 第 j 个 样 品 的 主 成 分 得 分 向 量 , T=(t1, t2,…,tp)为正交矩阵。若取前 m 个主成分 ( 累计贡献率已达到了一个较高的百分
个异常值的影响。
法对各样品点进行直观地聚类。尽管仅
如果从表 1 的相关阵出发进行因子 使用两个主成分或因子会使信息有所损
分析, 那么单从表面上看, 因子分析似乎 失, 但样品散点图中却包含着正规的聚
取得了成功, 前三个因子有着较高的( 样 类方法所反映不出的信息, 将这种图形
本) 累计贡献率, 且它们都能得到很好的 聚类方法与正规聚类方法结合起来使用