如何进行数据降维—主成分分析与因子分析的比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何进行数据降维
—主成分分析与因子分析的比较
当我们使用统计分析方法进行多变量分析的时候,变量个数太多就会增加分析的复杂性。遇到这种情况,我们一般需要采取降维的方法对变量进行降维,以期更好来进行后续的分析工作。因子分析和主成分分析就是我们常用的两种变量降维的方法。但哪种方法更好呢?本文将对这两种方法来进行比较,希望大家能从相互的比较过程中,找到适合自己分析的降维方法。
首先,先来给大家简单的介绍下这两种方法的原理。
一般而言,针对某一个响应的若干因子之间存在着一定的相关性,因子分析就是在这些变量中找出隐藏的具有代表性的因子,将相同本质的变量归入一个因子,以此来减少变量的数目。
而对于主成分来说,这种相关性意味着这些变量之间存在着一定的信息重叠,主成分分析将重复的因子(相关性强的因子)删去,通过建立尽可能保持原有信息、彼此不相关的新因子来对响应进行重新的刻画。
从统计学上来看,主成分分析本质上是一种通过线性变换来进行数据集简化的技术,它是将数据从现有的坐标系统变换到一个新的坐标系统中,然后将数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
相比较主成分分析,因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分,然后通过构造因子模型,将原始观察变量分解为公共因子因子的线性组合。简而言之,主成分分析是将主要成分表示为原始观察变量的线性组合,而因子分析是将原始观察变量表示为新因子的线性组合。
基于两个方法的原理及实施步骤,我们不难看出,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。
此外,主成分分析主要是作为一种探索性的技术,可以同聚类分析和判别分析一起使用,帮助我们更好的进行多元分析,特别是当变量很多,数据样本量少的情况,一些统计分析方
法可能不能很好的进行分析,这时候可以使用主成分分析对变量数量进行简化。例如在进行图像识别时,通过主成分分析,我们可以用更少的维度特征对图像进行识别,从而帮助我们快速的进行图像的识别和后续的分类分析等。
图:运用主成分分析,进行图像的降维处理
当然,其他降维分析的方法还有很多,这里只是列举了两种最常用的方法抛砖引玉,大家也可以去发现更多的分析方法。