主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

学年论文(本科)

学院:数学与信息科学学院

专业:统计学

年级:2011级

姓名:xxx

论文题目:主成分分析及其应用

指导教师:xxx 职称:助教成绩

2013年3月19日

目录

摘要 (1)

关键词 (1)

Abstract (1)

Keywords (1)

前言 (1)

1. 主成分分析的来源 (1)

2. 主成分分析的基本思想 (1)

3. 主成分分析的基本步骤 (2)

3.1检验待分析的变量是否适合作主成分分析 (2)

3.2主成分求法的判定 (2)

3.3求协方差阵或相关阵的特征根及对应标准化特征向量 (2)

3.4确定主成分个数 (2)

3.5写出主成分的表达式,计算各样品的主成分得分 (3)

4. 主成分分析在实例中的应用 (3)

5.主成分分析的其他应用 (6)

6. 总结 (7)

参考文献 (7)

主成分分析及其应用

学生姓名:xxx 学号:

数学与信息科学学院统计学

指导教师:xxx 职称:助教

摘要:本文介绍了主成分分析的基本思想和进行主成分分析的步骤及主成分分析在各领域的应用,并通过实例展示进行主成分分析的过程。

关键词:主成分分析;应用;变量

Principal Component Analysis and Its Application Abstract:This paper introduces the basic thoughts of the principal component analysis and principal component analysis steps and applications of principal component analysis in various fields, and demonstrate the process of principal components analysis by an example.

Key Words:p rincipal component analysis; applications; variable

前言

主成分分析是一种多元统计方法,它对多变量表示数据点集合寻找尽可能少的正交矢量表征数据信息特征。在解决实际问题中起着重要作用,笔者总结了主成分分析的主要思想及其分析步骤。

1.主成分分析的来源

在众多领域的研究中,人们为了避免遗漏重要信息,往往选取与之有关的较多的变量进行分析。若要全部列出,也许会有几十个变量。但选取的变量过多,不但会增加计算量,使本来不复杂的现象变得复杂,而且有可能造成信息的重叠,这样会给问题分析和解释带来困难,甚至会影响最终统计分析的结果。为解决这一问题,科学家找到了一种行之有效的方法即主成分分析法。主成分的概念最早由英国生物统计学家Karl Pearson在1901年提出,但当时仅限于非随机变量的讨论,之后由霍特林于1933年将其扩展到随机变量。

2.主成分分析的基本思想

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一

组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。

3.主成分分析的基本步骤

3.1检验变量是否适合作主成分分析

计算相关系数阵,检验待分析的变量是否适合作主成分分析。若p个指标之间完全不相关,压缩指标是不可能的即不适合作主成分分析;两个指标之间完全相关,保留一个指标;指标之间有一定的相关性但不完全相关,即0<r<1,指标压缩才可能,适合作主成分分析。原始变量相关程度越高,降维的效果越好,选取的主成分就会相对少一些。

3.2主成分求法的判定

根据研究问题所选定的初始变量的特征判断由协方差阵求主成分还是由相关阵求主成分。究竟是由协方差阵还是相关阵求主成分没有定论,可以都试一下,分析结果的差别及发生明显差异的原因何在。在一般而言,当分析中所选的变量具有不同的计量单位,或变量水平差异很大时,应该选择基于相关系数矩阵的主成分分析。否则,基于协方差阵作主成分分析效果可能更好。

3.3求协方差阵或相关阵的特征根及对应标准化特征向量

3.4确定主成分个数

主成分分析希望能用尽可能少的主成分包含原始变量尽可能多的信息,一般情况下主成分的个数应小于原始变量个数。那么如何确定需要保留的主成分数量?有以下几条原则可以遵循。一是主成分的累积贡献率。一般来说,累积贡献率达到70%至90%就比较满意了。二是特征根。由于特征根等于主成分的方差,所以特征根可以看成是主成分影响力度大小的指标。一个经验方法是只保留那些单独能解释至少1/p的主成分,如果是基于相关阵求主成分,保留特征根大于1对应的主成分。然而这个经

验准则缺乏充分的理论支持,不应盲目运用。三是碎石图。碎石图是以主成分为横坐标,特征根为纵坐标的图形。在SPSS 中提供了这种方法。四是综合判断。大量的实践表明,如果根据积累贡献率确定主成分数往往是偏多的,而用特征根来确定主成分数往往又偏低。所以,可以先根据碎石图,找到碎石图比较平稳时对应的主成分数,然后再结合累积贡献率及特征根,以确定合适的主成分数量。 3.5写出主成分的表达式,计算各样品的主成分得分

若从原p 个指标提取了m 个主成分,则

x l x

l x l y p p 12

21

1

11

1

...+++=

x l x l x l y

x l x

l x l y p

pm m m m

p

p +++=+++= (221122)

22

1

12

2

将n 个样品的原始变量值代入上式,可以得到每个样品的主成分得分,进行后续的统计分析。也就是说,后续的统计分析不再使用原始变量,而是使用提取的主成分。

4.主成分分析在实例中的应用

以1999年全国17个省市的7项限额以上工业主要评价指标为例(数据来自统计年鉴),见表1。计算由X 1~X 7组成的相关系数矩阵R ,见表2和R 的特征值、贡献率以及累积贡献率,见表3.

表1 部分地区限额以上工业主要评价指标

相关文档
最新文档