数学建模 聚类分析因子分析实例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析中的降维方法在四川省社会福利中的应用
由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标(即变量),由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研究结果也会偏差很大。因此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。多元统计分析法主要包括降维、分类、回归及其他统计思想。
一.多元统计分析方法中降维的方法
1.概述
多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些。同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。根据所测量的特征和分类规则将一些“类似的”对象或变量分组。多元统计分析也可以研究变量间依赖性。即对变量间关系的本质进行研究。是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。
在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。多元统计分析中的降维方法主要包括聚类分析、判别分析、主成分分析、因子分析、对应分析和典型相关分析等几种方法。其中主成分分析和因子分析是在作综合评价方面应用最广泛、较为有效的方法。本文主要介绍这两种多元统计分析方法的应用。
2 主成分分析
2.1主成分分析的基本思想
在大部分实际问题中,需要考察的变量多,变量之间是有一定的相关性的,主成分分析就是以损失很少部分信息为代价,保留绝大部分信息的前提下,
将原来众多具有一定线性相关性的p个指标压缩成少数几个互不相关的综合指
标(主成分),并通过原来变量的少数几个的线性组合来给出各个主成分的具有实际背景和意义的解释。由于主成分分析浓缩了众多指标的信息,降低了指标的
维度,从而简化指标的结构,深刻反映问题的内在规律。 2.2 主成分分析的数学模型
设对某一事物的研究涉及指标(变量):12,,,P X X X ,,这p 项指标构成p 维
的随机向量()12,,
,P X X X X '=,其均值和协方差矩阵分别是()X μ=E ,∑。
对X 进行线性变换,原来的变量12,,,P X X X 的线性组合可以形成新的综合
变量,用Y 表示,满足:
11111221221122221122p p
p p
p
p p pp p Y u X u X u X Y u X u X u X Y u X u X u X
=+++⎧⎪
=+++⎪⎨
⎪
⎪=+++⎩ 矩阵表示为:Y UX =,其中
()12,,
,p Y Y Y Y '=,1112112p p p pp u u u U u
u u ⎛⎫
⎪
=
⎪ ⎪⎝⎭
,()12,,
,
p X X X X '=
由于不同的线性变换得到的综合变量Y 的统计特性不同,为了达到较好的效果,我们希望i i Y u X '=的方差尽可能大且新的综合变量i Y 之间相互独立。由以下原则来确定新的综合变量i Y : (1)222121i i i i ip u u u u u '=++
+= (1,2,
,)i p =;
(2)i Y 与j Y 相互独立,即无重复信息cov(,)0i j Y Y = (;,1,2,
,)i j i j p ≠=;
(3)
1Y 是12,,,P X X X 的一切线性组合(系数满足上述方程组)中方差最大的,2
Y 是与1Y 不相关的12,,
,P X X X 的一切线性组合中方差最大的,p Y 与
121,,
,p Y Y Y -都不相关的12,,
,P X X X 的一切线性组合中方差最大的。
在实际应用时,通常挑选前几个方差比较大的主成分,虽然这样做会丢失一
部分信息,但它使我们抓住了主要矛盾进行深入分析,并从原始数据中进一步提出了某些新的信息,因而在某些实际问题的研究中得益比较大,这种既减少了变量的个数又抓住了主要矛盾的做法有利于问题的分析和处理。 2.3 总体主成分的导出及性质
在实际求解主成分时,常常是从原始变量的协方差矩阵或相关矩阵的结构出发,而从两个出发点求解出的主成分不同。 2.3.1 从协方差矩阵出发求解主成分
性质1:设矩阵A A '=,将A 的特征值12,,
,n λλλ依大小顺序排列,不妨设
12n λλλ≥≥≥,12,,
,p γγγ为矩阵A 各特征值对应的标准正交特征向量,则对
任意向量x 有10
max x x Ax x x λ≠'=',0min n x x Ax
x x
λ≠'='
性质2:设随机向量12(,,
,)p X X X X '=的协方差矩阵为∑,12p λλλ≥≥
≥为
∑的特征值,12,,,p γγγ为矩阵∑各特征值对应的标准正交向量,则第i 个主成
分为:1122i i i pi p Y X X X γγγ=++
+ (1,2,
,)i p =,此时 var()i i i i Y γγλ'=∑=,
cov(,)0i j i i Y Y γγ'=∑=。
由以上性质,我们把原始变量12(,,,)p X X X X '=的协方差矩阵∑的非零特
征值120p λλλ≥≥
≥>对应的标准化特征向量12,,
,p γγγ分别作为系数向量,
即11Y X γ'=,22Y X γ'=,……,p p Y X γ'=分别为12(,,,)p X X X X '=的第一主成
分、第二主成分,……,第p 主成分的充要条件是: (1)Y u X '=,u u I '=,即u 为p 阶正交阵; (2)Y 的分量12,,
,p Y Y Y 之间相互独立;
(3)Y 的p 个分量12,,,p Y Y Y 方差依次递减。
于是随机向量12(,,
,)p X X X X '=与随机向量()12,,
,p Y Y Y Y '=之间存在关
系式:111112
1112122
2222212
p p p p pp p p p p u u u u X X u u u X X u Y u X X u u u X X u γγγ⎛⎫
⎛⎫''⎛⎫⎛⎫⎛⎫ ⎪
⎪
⎪⎪ ⎪ ⎪ ⎪'' ⎪⎪ ⎪
'===
= ⎪ ⎪ ⎪⎪ ⎪ ⎪
⎪ ⎪⎪ ⎪ ⎪⎪ ⎪ ⎪ ⎪ ⎪ ⎪''⎝⎭⎝⎭⎝⎭
⎝⎭⎝⎭
由于在无论∑的各特征值是否存在相等的情况,对应的标准化特征向量
12,,,p γγγ总是存在,所以总是可以找到对应的各特征值的相互正交的特征向
量。故将主成分的求解转换为求解原始变量12(,,,)p X X X X '=的协方差阵∑的
特征值和特征向量。
性质3:第k 个主成分k Y 的方差贡献率为1
k
k p
i
i a λλ
==
∑(1,2,
,)k p =,反映主成