[改进的聚类算法在农业经济类型划分中的应用] kmeans聚类算法改进
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[改进的聚类算法在农业经济类型划分中的应用] kmeans聚类算法改进
一、引言
吉林省各地自然、经济、社会条件各有差异,对农业经济的
影响很大。为了稳定提高粮食综合生产能力,促进农业经济结构
进一步优化。就需要准确地对省内各市县农业经济类型进行划
分,以期做到合理的资源优化配置。本文采用一种改进的k-均值
聚类分析技术对所采集的吉林省各县市农业生产的相关数据进行
分析,目的是对吉林省各地农业经济类型进行划分,揭示各地区
农业生产的特点和优势,为加快全省农业经济发展提供依据。
二、改进的聚类算法基本原理
改进的聚类算法的基本思想是:首先对数据集合进行系统聚
类分析,得到聚类树及相应的聚类中心矩阵;接着从聚类树中查
找较早形成的大类,并计算其聚类中心,这样我们就得到了较好
的聚类数k及比较具有代表性的初试聚类中心集合;最后通过k-
均值算法进行聚类分析。
虽然此改进算法需要我们人为的设定条件,但是这些条件都
是在进行系统聚类分析之后的数据基础上得来的,比经典的k-均
值算法的直接判断聚类数和随机抽取初始聚类中心要具有明显的
优势。根据本文待挖掘的数据量和系统聚类的结果,初始条件设
定如下:被判定为较早形成的大类聚类,其包含的数据对象应大于4,与下一次合并的聚类间距越小越好,且应小于所有聚类过程中的聚类间距均值。
三、改进的聚类算法在吉林农业经济类型划分中的应用
分类指标的选择
农业经济系统是一个多因素、多层次、结构复杂的系统,要正确地划分农业经济类型,首先必须选择一套能全面反映当前农业经济状况的指标体系。为此我们根据吉林农业的实际情况,选择对农业经济发展起主导作用的因子作为聚类指标,通过实地调查和对统计资料的综合分析,选定以下10个指标:X1 ,年平均降水量;X2 ,年平均温度;X3 ,农业人口;X4 ,每公顷粮食产量;X5 ,农业机械总动力;X6 ,粮食面积占耕地面积比例;
X7 ,林业产值占农业总产值比例;X8 ,牧业产值占农业总产值比例;X9,渔业产值占农业总产值比例;X10 ,人均收入。
数据准备
根据以上10项指标,我们通过查阅xx年《吉林省统计年鉴》可以得到吉林省各地区农业经济各项指标的原始数据,如表1所示。
数据来源:根据xx年《吉林省统计年鉴》整理。
数据挖掘结果
首先对以上数据进行标准化转换,之后采用系统聚类分析法得到聚类树,分析聚类树及聚类间距我们可以得到初始聚类数为
k=5。之后,本文进行k=5的k-均值聚类分析,得到聚类成员表如下:
结果分析
方差分析表的结果表明,分类后各变量在不同类别之间的差异都是显著的,表示把20个县市地区分成5类是比较合理的。
第一类,梨树、伊通、公主岭、双辽、东丰、长岭6个县市。这些县市年平均温度较高,降水较少,粮食面积占耕地面积比例都比较小,牧业相对于林业、渔业有明显的优势,其人居收入相对较高。这类地区应该对其农业产业结构进行适当调整,使农林牧副业各产业协调发展。
第二类,桦甸、通化、辉南3个县市。这类县市农、林、牧渔各业都有一定发展,各项经济指标居于全省中上等水平,其振兴经济最好的途径就是各业协调发展,根据各县实际情况,积极引进科学技术和优良品种,走农业产业化发展之路。
第三类,农安、榆树、德惠、扶余4个县市。这类县市虽然粮食面积占耕地面积比例很高,但是由于自然条件相对较差,降水贫乏,从而制约了该类地区的农业经济发展。对此,应该采取兴修水利的措施来缓解雨水不足的现状。此外,应在稳定粮食产量的基础上积极改善生态环境,发展多种经营,稳步发展其农业经济。
第四类,蛟河市、梅河口市。这两个市的农业经济状况是所有县市中最好的,该地区雨水充足、粮食面积占耕地面积比例较
高、畜牧业发展相对滞后、林业和渔业发展较其他地区有明显优势且人均收入明显高于其他各地区。因此,该类地区应注意保持其现有的农业产业结构同时兼顾畜牧业的发展,做到以优势产业拉动劣势产业的协调发展。
第五类,九台、永吉、舒兰、磐石、东辽5个县市。这类县市自然条件适宜、粮食面积占耕地面积比例很高,林业、畜牧业和渔业协调发展较好。该地区应充分合理利用自然条件优势,实行以发展粮食生产为主,兼顾其他各业的农业发展思路。
四、结论
将数据挖掘技术应用到农业经济类型的划分中,极大地改善了以往的划分方式。本文通过聚类分析方式对吉林省农业经济数据进行了数据挖掘,并提出了一种聚类分析的改进方法,使其更好地应用于农业经济类型的分类中,使得对农业经济类型的划分更客观、可靠。