主成分分析和聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
北京建筑工程学院
理学院信息与计算科学专业
实验报告
课程名称〈〈数据分析》实验名称〈〈主成分分析和聚类分析》 姓名 张丽芝 班级 信131 学号
201307010108_ 指导教师 王恒友 成 绩 ____________________
【实验目的】
(1) 熟悉利用主成分分析进行数据分析,能够使用 SPSS 软件完成数据的主成分分析;
(2) 熟悉利用聚类分析进行数据分析,能够运用主成分分析的结果,做进一步分析,如 聚类分
析、回归分析等,能够使用 SPSS 软件完成该任务。
【实验要求】
)给出了 1991年我国30个省市、城镇居民的月平均 单位均为元/人) X1:人均粮食支出; X2 X3:人均烟酒茶支出; X4: X5:人均衣着商品支出; X6: X7:人均燃料支出; X8:
(1)求样本相关系数矩阵R 。
(2)从R 出发做主成分分析,求出各主成分的贡献率及前两个主成分的累积贡献率;
2、(1)对题1中的数据,按照原有的八个指标,对 30个省份进行聚类,给出分为3类 的聚类结果。
(2)利用题1得到的前2个主成分指标,分别按最短距离法(最近邻居距离)、最长距 离法(最远邻居距离)、类平均距离法(组间平均距离)、重心距离法;其中距离均采用欧式 平方距离,对样本进行谱系聚类分析,并画出谱系聚类图;给出分为 3类的聚类结果。
并与 (1)的结果进行比较
【实验步骤】(此部分主要包括实验过程、方法、结果、对结果的分析、结论等 ) 1 1)
实验地点: 基础楼C-423日期_2016.5.5 ___________
根据各个题目的具体要求,分别运用
【实验内容】
SPSS 软件完成实验任务 1、表 4.9 (数据见 exercise4_5.txt 消费数据,所考察的八个指标如下: 人均副食支出; 人均其他副食支出; 人均日用品支出; 人均非商品支出。
2)
表:方差贡献率和累计贡献率
提取方法:主成份分析。
由上图可知,只有前两个成分的特征值大于1,所以只选择前两个主成分。
第一个主成分的 方差贡献率是38.704%,第二个主成分的方差贡献率是29.590%,前两个主成分的方差占所有 主成分方差的64.294%。
前两个主成分的累计贡献率为68.294%,选择前两个主成分即可代表 绝大多数原来的变量。
2
由上图可知,聚类2包含样本数最多,聚类3包含样本数最少。
通过K 中心聚类分析,可以对 我国各地区生活中的人均支出类别情况有一个基本的了解。
我们可以将不同地区的人均消费 情况分为3类;其中第二类包含的省市最多,有18个,其他两类包含城市较少。
通过分析结果 也可知每个地区所属类别。
最终聚类中心
每个聚类中的案例数
(2)
按最短距离法(最近邻居距离)对样本进行谱系聚类分析
由聚类表可知聚类的具体过程。
以第一步为例,样品1和2合并为一类,距离系数为3.299, 在“首次出现阶段集群”里显示为0,因此合并两项都是第一次出现,合并结果取15,即归为第15类。
集群成员表如图,当划分为3个类别时,各个地区所属类别。
与上一问所得结论有较大出入。
最长距离法(最远邻居距离)
类平均距离法(组间平均距离)
性川宁內堤It t 蛆hl)的輯烷甜
重心距离法。