实验六 主成分分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验六 主成分分析
一、实验目的
通过本次实验,掌握SPSS 及ENVI 的主成分分析方法。
二、有关概念
1. 主成分分析的概念
主成分分析(又称因子分析),是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法。代表各类信息的综合指标就称为因子或主成份。 主成分分析的数学模型可写为:
m m x a x a x a x a z 131********++++=
m m x a x a x a x a z 23232221212++++=
m m x a x a x a x a z 33332321313++++=
………
m nm n n n n x a x a x a x a z ++++= 332211
其中,x 1、x 2、 x 3、 x 4 …x m 为原始变量;z 1、 z 2、 z 3、 z 4 …z n 为主成份,且有m≥n 。
写成矩阵形式为:Z=AX 。Z 为主成份向量,A 为主成份变换矩阵,X 为原始变量向量。主成份分析的目的是把系数矩阵A 求出,主成份Z1、Z2、Z3…在总方差中所占比重依次递减。
从理论上讲m=n 即有多少原始变量就有多少主成份,但实际上前面几个主成份集中了大部分方差,因此取主成份数目远远小于原始变量的数目,但信息损失很小。
因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价。如果因子分析结果保证了因子之间的正交性(不相关)但对因子不易命名,还可以通过对因子模型的旋转变换使公因子负荷系数向更大(向1)或更小(向0)方向变化,使得对公因子的命名和解释变得更加容易。进行正交变换可以保证变换后各因子仍正交,这是比较理想的情况。如果经过正交变换后对公因子仍然不易解释,也可进行斜交旋转。
2. 因子提取方法
SPSS 提供的因子提取方法有:
①Principal components 主成份法。该方法假设变量是因子的纯线性组合。这
是SPSS最通用的因子提取方法,故因子分析有时又称为主成份分析。
②Unweighted least square不加权最小平方法。该方法使观测的和再生的相关阵之差的平方最小。
③Generalized least square 用变量的单值加权,使观测的和再生的相关阵之差的平方最小。
④Maximum likelihood 最大似然法。此方法不要求多元正态分布。给出参数估计,如果样本来自多元正态总体它们与原始变量的相关阵极为相似。
⑤Principal axis factoring 使用多元相关的平方作为对公因子方差的初始估计。
⑥Alpha factoring α因子提取法
3.因子旋转方法
SPSS提供的因子旋转方法有:
①None 不进行旋转。此为系统默认的选择项。
②Varimax方差最大旋转。
③Equamax 平均正交旋转。
④Quartmax四次方最大正交旋转。
⑤Direct Oblimin 斜交旋转,指定此项可以在下面的矩形框中键入Delta值,该值应该在0~-1之间,是因子映象自相关的范围。0值产生最高相关因子,大负数产生旋转的结果与正交接近。
三、实验内容
1. 在上海市宝山、吴淞地区的环境质量综合评价中,对20个监测点的大气、地面水和土壤要素进行监测,得到三种要素的实测超标倍数数据。本实验对这批资料进行主成份分析,为进一步进行环境综合分析作准备。
2. 对2009年钱塘江湾TM影像进行主成分分析
四、实验步骤
(一)SPSS主成分分析
1.主成分分析的基本步骤
(1)打开“d:\SPSS实习\主成份分析.sav”文件,选择Analyze菜单下的Data Reduction的Factor项,展开主对话框。
(2)在左侧源变量框中选取“大气超标倍数”、“地面水超标倍数” “土壤超标倍数”变量,进入Variables框中,作为参与因子分析的变量。
(3)单击Descriptives按钮,展开相应的子对话框。在Statistics组中选取Initial solution 选择项,显示初始分析结果,给出原始变量的公因子方差、与变量数目相等的因子、各因子的特征值、各因子特征占总方差的百分比以及累积百分比。在Correlation Matrix组中选取Coefficients,显示原始变量相关系数矩阵。按Continue返回主对话框。
(Statistics组中的Univariate descriptive项要求给出各变量的均数和标准差;
Correlation Matrix组提供以下几种检验变量是否适合作因子分析的方法:
(4)单击Extraction按钮,展开相应的子对话框。在Method组中选择Principal components主成份法作为提取公因子的方法;在Extract组中选取Number of factors,并在其右侧框中输入“2”,指定提取公因子的数目为2;在Display组中选取Unrotated factor solution及Screen plot选项,要求显示未经旋转的因子提取结果因了载荷碎石图;Maximum iterations for convergence为因子分析收敛的最大迭代次数,系统默认为25;按Continue返回主对话框。
(5)单击Scores按钮,展开相应的子对话框。选取Save as variables 选项,即要求将因子得分作为新变量保存在数据文件中;在Method组选取Regression选项,即因子的得分用回归法,其因子得分的均值为0(Regression Method: A method for estimating factor score coefficients. The scores that are produced have a mean of 0 and a variance equal to the squared multiple correlation between the estimated factor scores and the true factor values. The scores may be correlated even when factors are orthogonal.);选取Display factor score coeffient matrix,显示因子得分系数矩阵;按Continue返回主对话框
(6)单击OK,提交运行。
(7)输出结果分析。
2.主成分分析结果分析
输出结果分析如下列表6.1~表6.6所示:
表6.1给出了三个原始变量的相关系数矩阵。