统计学作业聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析
采用欧式距离,分别运用类平均法、最短距离法、最长距离法,对31个省、直辖市、自治区分类。
1、类平均法
* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
甘肃 28 -+
宁夏 30 -+
青海 29 -+-+
河南 16 -+ |
新疆 31 -+ +-+
黑龙江 8 -+ | |
陕西 4 -+-+ +-+
内蒙古 5 -+ | |
陕西 27 -----+ +-+
山东 15 ---+-+ | |
湖南 18 ---+ | | |
河北 3 -+-+ +-+ |
吉林 7 -+ +-+ |
湖北 17 ---+ | +---+
四川 23 -+-+ | | |
云南 25 -+ +-+ | |
辽宁 6 ---+ | +-----+
江西 14 -+-+ | | |
贵州 24 -+ +-----+ | |
安徽 12 ---+ | |
广西 20 -------+-----+ +-----------------------------+
海南 21 -------+ | |
江苏 10 -+-------+ | |
重庆 22 -+ +---+ | |
天津 2 ---------+ +---+ | |
福建 13 -------------+ +-+ |
西藏 26 -----------------+ |
北京 1 ---------+ |
上海 9 ---------+---+ |
浙江 11 ---------+ +-----------------------------------+
广东 19 -------------+
2、最短距离法
* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *
Dendrogram using Single Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
甘肃 28 -+
宁夏 30 -+
青海 29 -+---+
河南 16 -+ |
新疆 31 -+ |
黑龙江 8 -+ |
陕西 4 -+---+-+
内蒙古 5 -+ | |
陕西 27 -----+ |
四川 23 -----+-+
云南 25 -----+ |
河北 3 -+---+ |
吉林 7 -+ | |
湖北 17 -----+-+
山东 15 -----+ |
辽宁 6 -------+-+
湖南 18 -------+ |
江西 14 ---+-+ | +---+
贵州 24 ---+ +-+ | |
安徽 12 -----+ | +-+
广西 20 ---------+ | |
江苏 10 -+-----------+ +---+
重庆 22 -+ | +---+
海南 21 ---------------+ | +-+
天津 2 -------------------+ | +-----------------------+
福建 13 -----------------------+ | |
西藏 26 -------------------------+ |
北京 1 -------------------+-+ |
上海 9 -------------------+ +-+ |
浙江 11 ---------------------+ +-------------------------+
广东 19 -----------------------+
3、最长距离法
* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *
Dendrogram using Complete Linkage
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
甘肃 28 -+
宁夏 30 -+
青海 29 -+---+
河南 16 -+ |
新疆 31 -+ +---+
黑龙江 8 -+ | |
陕西 4 -+-+ | |
内蒙古 5 -+ +-+ +-----+
陕西 27 ---+ | |
山东 15 ---+---+ | |
湖南 18 ---+ | | |
河北 3 -+-+ +-+ |
吉林 7 -+ +-+ | |
湖北 17 ---+ +-+ +---------+
四川 23 -+-+ | | |
云南 25 -+ +-+ | |
辽宁 6 ---+ | |
江西 14 -+ | |
贵州 24 -+-------+ | +-----------------------+
安徽 12 -+ +-----+ | |
广西 20 -----+---+ | |
海南 21 -----+ | |
江苏 10 -+-----+ | |
重庆 22 -+ +---------+ | |
天津 2 -------+ +-------+ |
福建 13 -----------+-----+ |
西藏 26 -----------+ |
北京 1 -------+ |
上海 9 -------+-----+ |
浙江 11 -------+ +-----------------------------------+
广东 19 -------------+
由上述图表可知,类平均法分为三类:{1,9,11,19}为第一类,{13,22,2,10,26}为第二类,其他为第三类;最短距离分为两类,{1,9,11,19}为第一类,其余的归为第二类;最长距离法归为三类:{1,9,11,19}为第一类,{13,22,2,10,26}为第二类,其他为第三类。
综合考虑,我
们认为从全国各省、直辖市、自治区的消费情况来看,分为三类较为适合。
有分类结果可以看出,类平均法和最长距离法结果一致。
但从题目中表的实际情况来看,西藏的经济发展水平和消费水平与始终处在第二类的福建、天津、江苏、重庆有较大的差距,因此我们把西藏列为待分类,运用判别分析法来进行分类。
判别分析
测数量为1。
从表我们可以看出,出了变量人均粮食支出的类内均值检验的显著性概率sig.=0.16大于0.05,其余变量类内均值检验的显著概率皆远小于0.05,说明八个变量类内均值都存在显著差异,可以进行判别分析。
从上表相关数值可知,各变量的线性相关关系皆不显著。
Wilks' Lambda值
上表是对判别函数的显著性检验,其中Lambda值分别等于0.41、0.897,非常小,显著性概率函数1sig=0.000,函数2sig=0.09略大于0.05,从而认为判别函数有效。
由上表我们可以看出,全部31个观测样本都被采用,没有一个样本由于缺失值或由于其他原因被排除。
由上图可看出西藏更接近于第三类。
上表显示,对于原始数据中分别属于第一类、第二类、第三类的30个观测值仍然归为原类,全部判断对,待判的1个观测量归入第二类,即西藏归入第二类。
(?)。