分层聚类分析报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

课程论文

题目:基于系统聚类分析的我国不同省市之间农

产品种植结构比较分析

院(系):数学与统计学院

专业年级

学生姓名:学号:

指导教师: 刘翠霞职称:讲师

日期:2012-10-05

摘要:在国家统计局关于农产品种植面积的统计指标基础上,采用层次聚类分析我国不同省市之间农产品种植结构比较分析,并得出各主要聚类群。在此基础上认为目前我国农产品种植情况还是以粮食种

植为主,各地区各地区农产品种植结构均有不同情况。

关键词:层次聚类分析种植结构地区比较

一、引言

农业实力是我国综合实力发展所要解决的一个非常重要的问题。众所周知,我国是农业大国,现阶段全球粮食库存跌破安全警戒,主要粮食种植面积下降;同时人口增长以及生物能源的快速发展,带来粮食需求的刚性上涨,致使世界粮食供求紧张,另外我国的种植行业其生产方式仍以家庭作业为主,产业化程度较低,这注定了农业中的种植行业在农产品涨价的过程中受益程度相对有限。我们非常有必要按照种植产物的不同种类将种植情况趋同的地区进行分类,找到并了解当前我国的农产品种植结构的差异与共性。

二、模型选择

层次聚类分析是一种多元数理统计方法。它并没有事先设定样本分类的标准,而是通过对样本和变量数据的不同特征指标值进行差异程度计算,根据变量或样本间不同的差异程度大小重新结合分类,产生一个更有效的分类。其优点在于可以对分类变量进行聚类,提供的距离测量方法和结果表示方法也非常丰富。它的实现过程如下:

1.由于本文所选用数据存在大量的量纲,所以必须进行无量纲化处理。

2.将各组数据作为独立的一类(设为n类),按照系统聚类分析

的重心法距离计算各数据点之间的距离,形成一个距离阵。

3.将距离最近的两组数据并为一类,从而形成n-1个类别,计算新产生的类别与其他各个类别之间的距离或者相似度,形成新的距离阵。这种方法的思想来自于方差分析,使用该方法的目的是使得各个类别间的样本量尽可能接近。

4.按照与第二步相同的原则,再将距离最接近的两个类别合并,一直重复该步骤直到所有数据被合并为一个类别为止。

三、实证分析

1.数据来源及变量说明。按照国家统计口径的划分,将种植种类划分为七类:粮食种植、瓜果种植、蔬菜种植、棉花种植、烟叶种植、油料种植、糖料种植。以上所有指标数据,均来自《中国农村统计年鉴》原始数据或换算得到。

2.结果解释。根据模型实现过程,通过多次聚类可以得出谱系图(Dendrogram)。由于篇幅限制,在此就不再逐步进行了,只给出最后结果。在谱系图中,聚类的全过程可以直观的表现出来,它把类间的最大距离算做相对距离为25,其余的距离均换算成与之相比的相对距离大小。

3.结果的验证和进一步说明。以下是层次聚类分析产生的结果,我们在确定分类过程中,总是希望能够进行“等分”,所以从表1中可以直观的看到,将31个省份分为四类相对合适,这个时候最大的类别和特点突出的类别都划分较为明确,适合进一步的分析。

在确定各类别说之后,我们要进一步检验各个类别是否存在显著差异,以及各个类别具有怎么样的特征。表2中可以看出,各个类别之间在各变量上都是有显著差异的,且这种差异具有统计意义。

原始数据

案例处理汇总

聚类过程的结果

冰状图

树状图

下面我们将主要根据树状图进行分析,由图可知如何对各城市分类。

四、结论与结果分析

1.如果分为两类

第一类:新疆自治区

第二类:其他城市

2.如果分为三类城市

第一类:新疆自治区

第二类:青海

第三类:其他城市。

3.如果分为四类城市

第一类:新疆自治区

第二类:青海

第三类:福建,广东、浙江、海南、北京、广西、天津、上海

第四类:其他城市。

4.如果分为五类

第一类:新疆自治区

第二类:青海

第三类:上海

第四类:福建,广东、浙江、海南、北京、广西、天津

第五类:其他城市。

详细分析分为四类的情况

第一类:新疆自治区归为一类棉花的种植在其种植结构中占据了重要的比重。

第二类:青海省归为一类,其种植的特征不明显。

第三类:福建,广东、浙江、海南、北京、广西、天津、上海八个省市归为一类,经济作物在其种植中占据了较大比例。

第四类:其他城市,归为一类,粮食作物在其种植结构中占统治地位。通过聚类分析我们可以清楚地区分各个省市的农业种植结构差异。参考文献:

【1】:冯力.统计学实验(第二版).东北财经大学出版社2012.03

【2】:陈胜可.spss统计分析从入门到精通.清华大学出版社.2010.08 【3】:[德]克劳斯·巴克豪斯.[德]本徳·埃里克森.[德]伍尔夫·普林克.[中]王熙逸.[德]儒尔夫·韦伯.格致出版社.上海人民出版社

2008.09

【4】:[美]理查德·A.约翰逊. [美]迪安·W.威克恩.清华大学出版社2008.11

【5】:李卫东.北京大学出版社.2008.11

相关文档
最新文档