主成分分析与聚类分析和判别分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验三主成分分析、聚类分析和判别分析
学院:地理科学学院专业:自然地理学
姓名:郭国洋
实验内容
(1)中国31个省份、直辖市、自治区(不包括港澳台)经济状况的7项指标。
(2)用主成分分析剖析出影响中国大陆经济状况的主要指标,并对中国大陆的经济综合实力进行排序。
(3)用主成分剖析出的指标,用聚类分析对中国大陆的经济状况进行评价,并对每类的经济综合状况进行评价。
(4)结合本题,谈谈聚类分析和主成分分析两种方法如何结合使用来分析问题。
实验目的
(1)巩固主成分和聚类分析的基本原理和方法步骤以及在实际分析中的意义。
(2)用SPSS软件完成地理的主成分分析和聚类分析。
第一部分主成分分析
1 实验数据
查阅2012年中国统计年鉴,数据表示2011年的指标。得到中国31个省份、直辖市、自治区(不含港澳台)的7项经济统计指标数据,包括:总人口/10^4人,城镇人口比例/%,第一产业总产值/10^8元,工业生产总值/10^8元,公共财政预算收入/10^8元,城乡居民储蓄余额/10^8元,城镇单位就业人员工资总额/10^8元。样本容量:31,变量:7,如图1。
。
2 实验步骤及分析
(1)点击“分析”—“降维”—“因子分析”,将上述的7个指标选择为变量。SPSS中的“主成分分析”嵌入到“因子分析”中,因此在操作的过程中我们要先进行因子分析。如2。
图2 选择因子分析变量
(2)依次点击“因子分析”框中的“描述”、“抽取”、“旋转”、“得分”、“选项”,勾选相应的选项,如图3、4、5、6、7所示
图3抽取图4 旋转
图4描述统计图5因子得分
图6选项图7旋转
(3)点击“确定”,得到相应的结果并分析。
图8 KMO和Bartlett检验
分析:
图8中,在进行因子分析之前,需要检验变量之间是否具备进行分析的条件。由图中
可知KMO值为0.787>0.5,说明数据变量之间具有结构效度,Sig<0.05,说明可以进行因子分析。
图9 公因子方差
分析:
图9是指全部公共因子对于变量的总方差做所的贡献,说明了全部公共因子反映出的原变量的信息的百分比。
例如:“总人口”的共同度是0.969,即提取的公因子对原变量的方差作出了96.9%的贡献。图9中我们知道提取公因子之后各个变量的数值都比较大,说明在变量空间转化为因子空间是,保存了比较多的信息,因此,因子分析的效果是显著的。
图10 解释的总方差
分析:
图10中可以看到各个特征值的贡献率以及累积贡献率。可见,在本次试验中,前两个因子的累积贡献率已达到93.667%。
图11 碎石图
分析:
图11横坐标为因子数,纵坐标为特征值,从图中可以看出前面两个因子的特征值比较大,都大于1,从第三个因子以后,折线平缓,因此,本次实验选择前面2个因子。
图12 因子载荷矩阵图13 旋转成分矩阵
分析:
在图12中我们发现工业生产总值、公共财政预算收入、城乡居民年底储蓄余额、城镇单位就业人员工资总额在第2个主因子的载荷值都比较低,不能对因子作出很好的解释。
本实验有必要对因子载荷矩阵实施旋转,得到图13的结果。用具有Kaiser标准化的正交旋转法旋转之后我们发现第一因子主要由“总人口、第一产业总产值、工业生产总值”决定,第二因子主要由“城镇人口比重、公共财政预算收入、储蓄余额、工资总额”决定。
图14 成份得分协方差矩阵
分析:图14的结果告诉我们两个因子之间是不相关的。
图15 成份得分系数矩阵
分析:
图15给出了因子得分系数矩阵,将公共因子表示成原始变量的线性组合,将公因子对变量做线性回归,得到系数的最小二乘估计就是所谓的因子得分系数。
图16 因子得分
分析:
根据估计出来的得分系数,可以计算因子得分,由于在图6的“因子得分”中勾选了“保存为变量”,在SPSS数据视图中出现的fac1_、fac_2就是变量的因子得分,如图16。
图17 因子载荷图
分析:
图17说明了我们提取了两个公因子,所以输出的是二位平面图,我们可以看到旋转后在主因子为坐标轴的二维平面上原变量的位置。
(3)计算主成分综合得分
点击“转换”—“计算变量”,输入目标变量——Z1、Z2(总得分)和数学表达式:Y=0.70643*FAC1_1+0.22545*FAC2_1
图18 计算变量
图19 因子总得分
分析:该图的列Z1、Z2代表主成分变量,由此可以相关的线性组合方程组。
(4)对31个观察量的综合得分进行排序
点击“数据”—“排序个案”,选择Y作为变量,选择“降序”,点击确定。如图20所示。
图20 综合得分排序
4 部分小结
在以上的操作过程中我们提取了两个公因子(主成分),发现两个主成分可以保存有原变量的93.188%的信息,因此我们认为主成分的提取是有效。“总人口、第一产业总产值、工业生产总值”可以由第一主成分代替,“城镇人口比重、公共财政预算收入、储蓄余额、工资总额”可以由第二主成分代替。在对因子载荷矩阵进行旋转之后,我们发现可以就不难建立因子模型,在得到因子得分后,就可以得到以两个组成分为变量的因子总得分,达到实验的要求和目的。本次实验是有效的。
第二部分聚类分析
1 实验原理
聚类分析,亦称群分析或点群分析,它是研究多要素事物分类问题的数量方法。其基本原理是,根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。
最近邻元素:也是最近距离法。定义类与类之间的距离为两类中最近的样品之间的距离。
2 实验步骤
(1)点击“分析”—“分类”—“系统聚类”,将上述的7个指标选择为变量。如图所示。
(2)依次点击“系统聚类分析”框中的“统计量”、“绘制”、“方法”、“保存”,勾选相应的选项,如图所示。方法选择:最近邻元素(最近距离法)、距离选择:欧式距离。