主成分分析和聚类分析的比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析和聚类分析的比较
摘要:主成分分析和聚类分析方多元统计中两种重要的分析方法,但却容易在使用中混淆。本文从基本思想,应用的优缺点、应用实例中讨论两者的异同,并简述两种方法在实际问题中的应用。
关键词:主成分分析;聚类分析
一、引言
主成分分析是利用降维的思想,在缺失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集的样本应该性质相似,而属于不同组的样本应该足够不相似。
两种方法既有区别又有联系,本文将两者的异同进行比较,并举例说明两者在实际应用中的联系,以便更好地理解这两种统计方法而为实际所应用。
二、基本思想的异同
相同点:主成分分析方法是用少数的几个变量来综合反映原始变量的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85%以上,因此其可信度很高。通过主成分分析,可以将事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,解释变量之间的内在关系。因此主成分变量比原始变量少了很多,从而起到了降维的作用。
聚类分析的基本思想是采用多变量的统计值,定量的确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用。按它们亲疏差异程度,归类不同的分类中的一元。使分类更具有客观实际并能反映事物的内在必然联系。聚类分析是通过一种大的对称矩阵来探索相关关系的一种数学分析方法。对变量分类后,我们对数据的处
理难度也降低,所以从某种意义上说,聚类分析也起到了降维的作用。不同点:主成分分析是研究如何通过原来变量的少数几个变量组合来解释原来变量绝大多数信息的一种多元统计方法。主成分分析就是设法将原来众多具有相关性的指标,从新组合成一组相互无关的指标来代替原来的指标。我们将选取的一组线性组合标为F i,若F i方差越大,贝M弋表所包含的信息越多。贝U称其为第一主成分,再选一组线性组合其方差次大,记为F2,,称其为第二主成分,且规定F i与F2线性无关。是指第一主成分与第二主成分所包含信息不重合。且所包含的信息大小逐渐递减。我们在实际研究中只需要选取前几个成分即可。
在聚类分析过程中,如果选取的聚类量纲不同会导致错误的结果。因此在聚类过程之前必须对变量进行标准化。不同的方法进行标准化,会导致不同的聚类结果。
三、应用的优缺点
i 、主成分分析
优点:它用降维技术将少数几个综合变量来弋替原始多个变量。这些综合变量集中了原始变量大多数信息。当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标弋替原指标进行分析,主成分分析中各主成分是按照方差的大小来排列顺序的,在分析问题时,只取前后方差大的几个主成分来弋表原变量,从而减少了计算工作量,由于选择的原则是累计贡献率》85%所以不会因
为减少作量却把关键指标遗漏而影响评估结果。在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件。缺点:在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否贝主成分将空有信息量而无实际含义)。主成分的解释其含义一般多少带有点模糊性。因此,提取的主成分个数m通常应明显小于原始变量个数p (除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确,命名清晰性低。
2、聚类分析
优点:聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小 类合并。每类的变量相似但类与类之间的差异性很大,这样能清晰描述数据。聚 类分析运用范围极广,涉及很多领域,包括数学,计算机科学,统计学,生物学 和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用 作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 聚
类分析方便快捷,是管理统计很好的方法。
缺点:聚类分析是以完备的数据文件为基础的, 一般要求各个观测变量的量纲一 致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特征差异性 的作用有被夸大或缩小的可能。要检查各变量的量纲是否一致,不一致则需进行 转换。 四、实例分析比较 1. 聚类分析
运用中国统计年鉴数据,对主要城市废水中主要污染物排放来源情况进行研究 (2013 年)
在spass 软件进行操作,其操作框及结果如下图所示。(以系统聚类法为例)。
器 _______________________________________ ■、 扇鼠主副Z 闵囲疆临眞止坊• JL jirtr THiaifc Lint* iLMti, 主丢宵JIC 愛百it 序 生gM I 石 工耳 I 万阿 (Rl 1J5RI Mi 3 4 T t :卓 94B6 6K5 33d 日汨詔 14139 5 ~| S 3: 2E21S 333S -E6469 B43M 156F1 I 2E T E 257^3 3B3D2 57H2 347B "? j :t II 柯站 4D39 2M |lB?fe 3 靜釉』骂 ZQ 镒 1C64-3 E 却 11M 3 一次 IB B533 9169 BD9 MT1 1D | 星■ &4E2 116710 1384 2Q73 II 陥駅衰 44 BT 69U- 1D65 33EJ 1Z ~ 上塞 4542E 22砧CO 1B34 1T72 T 厂 用宣 25固1 21fiB7 佃H U 苗州 3313E 3ia47 IJR 53S4L Is j 0 E Etna TB9E 3fT 4210: IE ii 州 弱 E2 S19D K2B IT 用 1 1HKI2 11473 IE® 茁無 IE 一吉两 B596 5413 3 Ed 29 7B 19 _ M 11E3& 11973 5K2 4B54 2D Jt !R 13BU 1B1E3 UOZ ES52 21 ~ -fe S' 4>143 13499 ]« _ 43D0€ 5W 耳 BESE 22 —j 广州 Z1S1 2354 138$ 13&17B WWTT 1F44Z 23 书 宁 STB 23954 136 26636 S2244 T5M •a A 験. 生二 焙 wZuflLB 磊兰钿L 伽■国 nSB-.