主成分分析和聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

北京建筑工程学院

理学院信息与计算科学专业实验报告

课程名称《数据分析》实验名称《主成分分析和聚类分析》实验地点:基础楼C-423日期__2016.5.5_____ 姓名张丽芝班级信131 学号201307010108___指导教师王恒友成绩

(1)熟悉利用主成分分析进行数据分析,能够使用SPSS软件完成数据的主成分分析;

(2)熟悉利用聚类分析进行数据分析,能够运用主成分分析的结果,做进一步分析,如聚类分析、回归分析等,能够使用SPSS软件完成该任务。

【实验要求】

根据各个题目的具体要求,分别运用SPSS软件完成实验任务。

【实验内容】

1、表4.9(数据见exercise4_5.txt)给出了1991年我国30个省市、城镇居民的月平均

消费数据,所考察的八个指标如下:(单位均为元/人)

X1: 人均粮食支出; X2:人均副食支出;

X3: 人均烟酒茶支出; X4: 人均其他副食支出;

X5:人均衣着商品支出; X6: 人均日用品支出;

X7: 人均燃料支出; X8: 人均非商品支出。

(1)求样本相关系数矩阵R。

(2)从R出发做主成分分析,求出各主成分的贡献率及前两个主成分的累积贡献率;

2、(1)对题1中的数据,按照原有的八个指标,对30个省份进行聚类,给出分为3类的聚类结果。

(2)利用题1得到的前2个主成分指标,分别按最短距离法(最近邻居距离)、最长距离法(最远邻居距离)、类平均距离法(组间平均距离)、重心距离法;其中距离均采用欧式平方距离,对样本进行谱系聚类分析,并画出谱系聚类图;给出分为3类的聚类结果。并与(1)的结果进行比较

【实验步骤】(此部分主要包括实验过程、方法、结果、对结果的分析、结论等)

1

1)

2)

方差贡献率是38.704%,第二个主成分的方差贡献率是29.590%,前两个主成分的方差占所有主成分方差的64.294%。前两个主成分的累计贡献率为68.294%,选择前两个主成分即可代表绝大多数原来的变量。 2

由上图可知,聚类2包含样本数最多,聚类3包含样本数最少。通过K 中心聚类分析,可以对我国各地区生活中的人均支出类别情况有一个基本的了解。我们可以将不同地区的人均消费情况分为3类;其中第二类包含的省市最多,有18个,其他两类包含城市较少。通过分析结果也可知每个地区所属类别。

每个聚类中的案例数 聚类

1 10.000

2 18.000 3

2.000 有效 30.000 缺失

.000

(2)

按最短距离法(最近邻居距离)对样本进行谱系聚类分析

合并为一类,距离系数为3.299,在“首次出现阶段集群”里显示为0,因此合并两项都是第一次出现,合并结果取15,即归为第15类。

群集成员

案例 3 群集

1:山西 1

2:内蒙古 1

3:吉林 1

4:黑龙江 1

5:河南 1

6:甘肃 1

7:青海 1

8:河北 1

9:陕西 1

10:宁夏 1

11:新疆 1

12:湖北 1

13:云南 1

14:湖南 1

15:安徽 1

16:贵州 1

17:辽宁 1

18:四川 1

19:山东 1

20:江西 1

21:福建 1

22:广西 1

23:海南 1

24:天津 1

25:江苏 1

26:浙江 1

27:北京 1

28:西藏 1

29:上海 2

30:广东 3

集群成员表如图,当划分为3个类别时,各个地区所属类别。与上一问所得结论有较大出入。

上图直观的反应了样品逐步合并的过程。

最长距离法(最远邻居距离)

群集成员

案例 3 群集1:山西 1 2:内蒙古 1 3:吉林 1 4:黑龙江 1 5:河南 1 6:甘肃 1 7:青海 1 8:河北 1 9:陕西 1 10:宁夏 1 11:新疆 1 12:湖北 2 13:云南 2 14:湖南 2 15:安徽 2 16:贵州 2 17:辽宁 2 18:四川 2 19:山东 2 20:江西 1 21:福建 3 22:广西 3 23:海南 3 24:天津 2 25:江苏 2 26:浙江 2 27:北京 2 28:西藏 2 29:上海 3 30:广东 3

类平均距离法(组间平均距离)

群集成员

案例 3 群集1:山西 1 2:内蒙古 1 3:吉林 1 4:黑龙江 1 5:河南 1 6:甘肃 1 7:青海 1 8:河北 1

9:陕西 1 10:宁夏 1 11:新疆 1 12:湖北 1 13:云南 1 14:湖南 1 15:安徽 1 16:贵州 1 17:辽宁 1 18:四川 1 19:山东 1 20:江西 1 21:福建 1 22:广西 1 23:海南 1 24:天津 1 25:江苏 1 26:浙江 1 27:北京 1 28:西藏 2 29:上海 3 30:广东 3

重心距离法

群集成员

案例 3 群集1:山西 1 2:内蒙古 1 3:吉林 1 4:黑龙江 1 5:河南 1 6:甘肃 1 7:青海 1

8:河北 1 9:陕西 1 10:宁夏 1 11:新疆 1 12:湖北 1 13:云南 1 14:湖南 1 15:安徽 1 16:贵州 1 17:辽宁 1 18:四川 1 19:山东 1 20:江西 1 21:福建 1 22:广西 1 23:海南 1 24:天津 1 25:江苏 1 26:浙江 1 27:北京 1 28:西藏 1 29:上海 2 30:广东 3

相关文档
最新文档