主成分分析和聚类分析(DOC)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
北京建筑工程学院
理学院信息与计算科学专业实验报告
课程名称《数据分析》实验名称《主成分分析和聚类分析》实验地点:基础楼C-423日期__2016.5.5_____ 姓名张丽芝班级信131 学号201307010108___指导教师王恒友成绩
(1)熟悉利用主成分分析进行数据分析,能够使用SPSS软件完成数据的主成分分析;
(2)熟悉利用聚类分析进行数据分析,能够运用主成分分析的结果,做进一步分析,如聚类分析、回归分析等,能够使用SPSS软件完成该任务。
【实验要求】
根据各个题目的具体要求,分别运用SPSS软件完成实验任务。
【实验内容】
1、表4.9(数据见exercise4_5.txt)给出了1991年我国30个省市、城镇居民的月平均
消费数据,所考察的八个指标如下:(单位均为元/人)
X1: 人均粮食支出; X2:人均副食支出;
X3: 人均烟酒茶支出; X4: 人均其他副食支出;
X5:人均衣着商品支出; X6: 人均日用品支出;
X7: 人均燃料支出; X8: 人均非商品支出。
(1)求样本相关系数矩阵R。
(2)从R出发做主成分分析,求出各主成分的贡献率及前两个主成分的累积贡献率;
2、(1)对题1中的数据,按照原有的八个指标,对30个省份进行聚类,给出分为3类的聚类结果。
(2)利用题1得到的前2个主成分指标,分别按最短距离法(最近邻居距离)、最长距离法(最远邻居距离)、类平均距离法(组间平均距离)、重心距离法;其中距离均采用欧式平方距离,对样本进行谱系聚类分析,并画出谱系聚类图;给出分为3类的聚类结果。并与(1)的结果进行比较
【实验步骤】(此部分主要包括实验过程、方法、结果、对结果的分析、结论等)
1
1)
2)
方差贡献率是38.704%,第二个主成分的方差贡献率是29.590%,前两个主成分的方差占所有主成分方差的64.294%。前两个主成分的累计贡献率为68.294%,选择前两个主成分即可代表绝大多数原来的变量。 2
由上图可知,聚类2包含样本数最多,聚类3包含样本数最少。通过K 中心聚类分析,可以对我国各地区生活中的人均支出类别情况有一个基本的了解。我们可以将不同地区的人均消费情况分为3类;其中第二类包含的省市最多,有18个,其他两类包含城市较少。通过分析结果也可知每个地区所属类别。
每个聚类中的案例数 聚类
1 10.000
2 18.000 3
2.000 有效 30.000 缺失
.000
(2)
按最短距离法(最近邻居距离)对样本进行谱系聚类分析
合并为一类,距离系数为3.299,在“首次出现阶段集群”里显示为0,因此合并两项都是第一次出现,合并结果取15,即归为第15类。
群集成员
案例 3 群集
1:山西 1
2:内蒙古 1
3:吉林 1
4:黑龙江 1
5:河南 1
6:甘肃 1
7:青海 1
8:河北 1
9:陕西 1
10:宁夏 1
11:新疆 1
12:湖北 1
13:云南 1
14:湖南 1
15:安徽 1
16:贵州 1
17:辽宁 1
18:四川 1
19:山东 1
20:江西 1
21:福建 1
22:广西 1
23:海南 1
24:天津 1
25:江苏 1
26:浙江 1
27:北京 1
28:西藏 1
29:上海 2
30:广东 3
集群成员表如图,当划分为3个类别时,各个地区所属类别。与上一问所得结论有较大出入。
上图直观的反应了样品逐步合并的过程。
最长距离法(最远邻居距离)
群集成员
案例 3 群集1:山西 1 2:内蒙古 1 3:吉林 1 4:黑龙江 1 5:河南 1 6:甘肃 1 7:青海 1 8:河北 1 9:陕西 1 10:宁夏 1 11:新疆 1 12:湖北 2 13:云南 2 14:湖南 2 15:安徽 2 16:贵州 2 17:辽宁 2 18:四川 2 19:山东 2 20:江西 1 21:福建 3 22:广西 3 23:海南 3 24:天津 2 25:江苏 2 26:浙江 2 27:北京 2 28:西藏 2 29:上海 3 30:广东 3
类平均距离法(组间平均距离)
群集成员
案例 3 群集1:山西 1 2:内蒙古 1 3:吉林 1 4:黑龙江 1 5:河南 1 6:甘肃 1 7:青海 1 8:河北 1
9:陕西 1 10:宁夏 1 11:新疆 1 12:湖北 1 13:云南 1 14:湖南 1 15:安徽 1 16:贵州 1 17:辽宁 1 18:四川 1 19:山东 1 20:江西 1 21:福建 1 22:广西 1 23:海南 1 24:天津 1 25:江苏 1 26:浙江 1 27:北京 1 28:西藏 2 29:上海 3 30:广东 3
重心距离法
群集成员
案例 3 群集1:山西 1 2:内蒙古 1 3:吉林 1 4:黑龙江 1 5:河南 1 6:甘肃 1 7:青海 1
8:河北 1 9:陕西 1 10:宁夏 1 11:新疆 1 12:湖北 1 13:云南 1 14:湖南 1 15:安徽 1 16:贵州 1 17:辽宁 1 18:四川 1 19:山东 1 20:江西 1 21:福建 1 22:广西 1 23:海南 1 24:天津 1 25:江苏 1 26:浙江 1 27:北京 1 28:西藏 1 29:上海 2 30:广东 3