数据挖掘技术在农业领域的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘技术在农业领域的应用
刘春玲;崔凌云;贾冬青;郝国芬;张焕生
【摘要】数据挖掘作为一项极具应用前景的技术,在处理农业领域积累的大量农业数据信息中起着非常重要的作用.为此,结合农业领域的特点,系统综述了聚类分析、决策树、关联规则、粗糙集等主要数据挖掘技术在农业中的应用现状以及应用前景.【期刊名称】《农机化研究》
【年(卷),期】2010(032)007
【总页数】4页(P201-204)
【关键词】数据挖掘;农业信息;应用
【作者】刘春玲;崔凌云;贾冬青;郝国芬;张焕生
【作者单位】河北工程技术高等专科学校,河北,沧州,061001;河北工程技术高等专科学校,河北,沧州,061001;河北工程技术高等专科学校,河北,沧州,061001;河北工程技术高等专科学校,河北,沧州,061001;河北工程技术高等专科学校,河北,沧
州,061001
【正文语种】中文
【中图分类】S126
0 引言
信息化是一个国家和地区的经济增长能力、综合实力和竞争力的重要体现。
加快农业信息化进程是推动农业和农村经济发展、农民增收致富、农村社会稳定的一
项重要战略措施。
随着计算机技术在农业生产中的广泛应用,农业科技人员获取、积累了大量与农业生产过程密切相关的属性数据和空间数据,这些数据真实、具体
地反映了农业生产作业的本质状况,是指导区域精准作业的宝贵财富。
但由于农业
生产的复杂性,使得农业数据具有丰富、多维、动态、不完整、不确定等特性,导致
了我们“淹没在数据的海洋中 ,数据丰富,知识贫乏”,所以需要用一种方法从上述
结构化和半结构化的大量数据中找出隐藏的规律,根据规律制定正确的农业策略,达
到使农业生产持续、高效、协调发展的目的。
数据挖掘技术 (Data Mining, DM)
作为一种重要的数据处理和知识发现的技术,能够有效地从农业信息数据中找出潜在的和有用的农业知识,为农业部门的科学决策和知识管理提供支持,因此数据
挖掘技术在农业领域中有着广阔的应用前景。
1 数据挖掘方法
数据挖掘就是利用各种分析工具在海量数据中发现模型和数据间关系的过程。
使用这些模型和关系可以进行预测,并帮助决策者寻找数据间潜在关联,发现被忽略的因素,因而被认为是解决当今时代所面临的数据爆炸而信息贫乏问题的一种有效方法。
数据挖掘过程主要包括确定业务对象、数据准备、数据挖掘、结果分析4 个步骤。
常用的数据挖掘方法有聚类分析、决策树、关联规则、遗传算法、粗糙集等。
1.1 聚类分析
聚类是把一组个体按照相似性归纳成若干类别,即“物以类聚”。
其目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大。
利用聚类分析抽取学习样本,首先将数据集T 划分为M个不相交的“类”,然后对
这M个类中的数据对象分别进行随机抽取,这样就可以最终获得聚类采样数据子集。
聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。
目前,常用的聚类分析算法比较有代表性的有K2MEANS算法、BIRCH算法、STNG算法、神经网络方法、DBSCAN算法等。
聚类分析算法常应用模式识别和空间数据
分析等。
1.2 决策树
决策树是一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成2个或更多块。
每个叶节点是属于单一类别的记录。
首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。
决策树的功能是预言一个新的记录属于哪一类。
决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。
1.3 关联规则
关联规则是从大量的数据中或对象间抽取其相互之间的关联性,揭示数据间未知的依赖关系,根据这种依赖关系,可以从某一数据对象的信息推断出另一数据对象的信息。
关联规则比较典型的算法有 Apriori算法和 FP2Tree算法, FP2Tree算法是在Apriori算法的基础上改进的,采取分而治之的策略,不产生候选集,而是将数据库的信息压缩成一个描述频繁项相关信息的频繁模式树,因而具有较好的完整性和紧密性。
1.4 遗传算法
遗传算法是计算数学中用于解决最优化的索算法,是进化算法的一种。
进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。
遗传算法通常实现为一种计算机模拟。
对于一个最优化问题,一定数量的候选解 (称为个体)的抽象表示(称为染色体)的种群向更好的解进化。
传统上,解用二进制表示( 即0 和1) 的串,但也可以用其它表示方法。
进化从完全随机个体的种群开始,之后一代一代发生。
在每一代中,整个种群的适应度被评价 ,从当前种群中随机地选择多个个体 (基于它们的适应度),通过自然选择和突变产生新的生命种群,该种群在算法的下一次迭代中成为当前种群,即产生出代表新的解集种群。
这个过程将导致种群
像自然进化一样,后生代种群比前代更加适应于环境,末代种群中的最优个体经过
解码( decoding),可以作为问题近似最优解。
1.5 粗糙集
粗糙集理论是波兰数学家 Z1Pawlak 在 1982年提出的一种可以分析模糊和不确
定问题的数学理论。
这一理论从新的视角出发对知识进行了定义,它把知识看作是
关于论域的划分 ,并引入代数学中的等价关系来讨论知识。
它提供了一整套方法,从数学上严格地处理数据分类问题,是一种比较适用的归纳、分类方法。
粗糙集理论
的特点是无需提供除问题所需处理的数据集合之外的任何信息。
随着粗糙集理论的日趋成熟,它在各个方面的应用也越来越广泛,如大气质量预测分析、股票数据分析、模式识别、地震预报、空间数据分类以及医学上的各种病情分析诊断等,粗糙集理论在农业病害规则发现中也得到应用。
2 数据挖掘在农业中的应用
我国是一个农业大国,农业领域的原始信息是海量的和异构的,其中包括大量模糊的、不完整的、带有噪声和冗余的信息。
利用数据挖掘技术对大量积累的农业信
息进行挖掘,可以克服“数据丰富而知识贫乏”现象,寻找各种因素的内在联系
和规律用于指导农业生产,这对作物的高产、优质具有十分重要的意义。
目前,数据挖掘在农业中的应用主要集中在以下几个方面。
2.1 数据挖掘在农业环境分析中的应用
数据挖掘在农业环境监测和环境保护方面起到非常重要的作用。
我国历来对农业环境状况十分重视,在基本农田检测、污水灌溉、面源污染、食品安全、生态农业
法规标准等方面都积累并不断扩充着大量数据。
利用数据仓库技术和数据挖掘技术对大量积累的农业环境数据进行挖掘,对有效把握农业环境状况的全局,了解农业污染发展趋势和实施农业环境保护战略提供有力保障。
郑向群等从土壤养分的数据库中,挖掘出土壤肥力评价规则,指导农业生产的科学
施肥,从农田土壤环境质量状况数据和农作物生长条件的知识,能够挖掘出农产品的质量状况,可以分析出导致农产品质量状况恶化可能的环境或生态方面的原因[2];赵怿甦采用模糊评价算法在综合考虑污染物因子的基础上按地区实际条件评测环境,并采用算法找出污染物因子Apriori之间的相关性,从而挖掘出导致环境差异的具体原因[3];杨杨等借助数据仓库为农业环境监测部门构建农业环境监测系统,分别采集土壤、空气和灌溉水3个环境要素的26种污染因子,运用序列分析、聚类分析和关联分析对环境综合分析,预测环境变化趋势,有效降低了农业污染的控制成本[4]。
2.2 数据挖掘在病虫害防治决策中的应用
数据挖掘在农业病虫害管理中的应用,主要集中在病虫害动态监测、发生趋势预测及其风险评估等几个方面。
农作物病虫害的发生受作物布局、栽培耕作条件、品种抗性和气象条件等诸多因素的影响,同时也与一定的地理空间相关。
数据挖掘技术可以用于预测某段时间发生虫害的可能性,以及发生其它种类虫害的可能性,从而为病虫害防治提供决策支持。
符保龙从影响病虫害发生量的气候因子角度来分析,将开发的神经网络模型用于广西柳江县田间RBF水稻病虫害的预测,使用第1~3 年的5-10月的病虫害数据,成功地预测出第3 年5-10月病虫害的发生情况[5];周启生构建果园的病虫害挖掘平台并应用于果园病虫害防治,能预测某段时间发生虫害并提供病害虫综合防治决策[6];任长伟等将空间关联规则挖掘用于森林病虫害,对历史病虫害数据挖掘规律和森林病虫害分布特征结合建立森林病虫害预测模型,实现GIS数据管理和分析的科学化,并实现森林病虫害区域的可视化展现[7] 。
2.3 数据挖掘在农业专家系统中的应用
农业领域存在大量的领域知识,如何利用这些领域知识引导挖掘过程产生有意义的结果是农业数据挖掘中的重要问题。
一方面,数据挖掘过程是一个不断重复的交互
过程,领域专家参与和引导能获得更精确和实用的知识;另一方面,农业专家系统由于数据采集缺少统一标准,而且数据复杂且具有一定的偶然性,往往需要数据挖掘来二次知识发现。
利用数据挖掘技术对海量的数据进行处理,从而使农业专家系统具有自学习、自适应等能力,因此基于数据挖掘的农业专家系统现在已成为农业专家系统的重要发展方向之一。
基于数据挖掘的农业专家系统通常由人机界面、推理机、数据挖掘模块、数据库和知识库构成。
数据挖掘模块通常负责从数据库中发现知识,并且管理和挖掘模块通常负责从数据库中发现知识维护知识库;推理机基于知识库作智能推理。
例如,张文静等通过关联规则的Apriori算法挖掘出各个数据项之间有价值的联系,以农作物病虫害为例建立农业专家系统的知识库,并验证了关联规则在决策推理中的作用[8];顾静秋基于XML元数据模型利用关联规则挖掘MAQA 算法构造知识库,并将知识用于主观Bayes推理且取得很好的效果[9]。
2.4 数据挖掘在农业电子商务中的应用
农业电子商务是指利用互联网的易用性、广域性和互通性,为从事涉农领域的生产经营主体提供在网上完成产品或服务的销售和电子支付等业务交易的过程。
数据挖掘技术能从海量的网络信息中挖掘出有用的信息,能自动预测客户的消费趋势和市场走向,指导农业企业建设个性化的智能网站,为农业企业创造新的商业增长点。
李业刚等利用模糊数据关系矩阵对农业企业系统的任一时间、单位、类型的利润建立相似关系,采用最大树法聚类分析,为农产品预测趋势和决策行为提供支持[10];刘德军等“基于数据挖掘的现代农业物流管理系统”利用分类知识发现、数据聚类、关联规则发现、序列模型发现和趋势预测等数据挖掘方法,提供立体的、多视角的、有渗透力的知识,从而提高现代农业物流管理决策能力和决策准确性,减少因决策失误而造成的经济损失[11] ;余小高先采用数据预处理大量异构的、
分布的、半结构化的数据,通过协同过滤、聚类分析和关联规则等数据挖掘技术挖
掘出农业电子商务中潜在的模式,使企业能及时应对市场变化,占领市场的制高点。
3 发展前景
数据挖掘在农业上是一个非常年轻而富有前景的研究领域,目前只是取得了初步成果,有大量的理论与方法需要深入研究。
3.1 数据输入形式的多样性
农业领域中存在一些半结构化、非结构化的数据形式,如文本、图形、数学公式、图像或 WWW资源 ,目前的数据挖掘工具一般只能提供对数值型的结构化数据的处理 ,对数据中存在缺损或噪声的情况尚无有效的解决方法,数据输入形式的多样化是亟待解决的问题。
3.2 基于不确定性和模糊性的空间数据挖掘
精准农业中由于技术手段的限制或人为的误差 ,空间数据中存在大量的不确定性和模糊性 ,研究基于不确定性和模糊性的空间数据挖掘技术就显得尤为迫切。
空间统计学、证据理论、模糊集和粗糙集等方法是处理不确定性的很好方法,把这些方法应用于空间数据挖掘领域有待于进一步拓展。
3.3 数据仓库与时空数据挖掘
由于农业生产的复杂性、连续性 ,各种数据库需要集成数据仓库,而空间数据挖掘也有随时间的改变而改变的现象。
因此,数据仓库和时空数据挖掘的研究是今后数据挖掘发展的必然趋势。
3.4 知识的可视化表示与用户的参与性
理解所发现知识的最有效的方式是进行图形可视化。
可视化仍是一个不成熟的领域,有待于进一步研究。
有效的决策过程往往需要多次交互和多次反复,使数据挖掘的结果准确并易于表达,实现在多抽象层次上交互挖掘知识。
目前,许多知识发现系统和工具缺乏与用户的交互,难以有效利用领域知识。
4 结束语
任何产业的快速发展都离不开高新技术,农业的发展必然要走信息化道路。
数据挖掘技术作为具有潜力巨大的研究领域,通过与现代农业相结合,将在农业科研、生产、管理等方面发挥巨大的作用,这对推动我国农业现代化的发展具有重要的作用。
【相关文献】
[1] 邵峰晶,于忠清.数据挖掘原理与方法[M].北京:中国水利水电出版社,2003.
[2] 郑向群,高怀友,周军,等.农业环境信息数据分析中数据挖掘技术的应用[J].农业环境与发
展,2003(1):35-37.
[3] 赵怿甦.数据挖掘在农业环境中的应用[D].天津:天津大学,2004.
[4] 杨杨,赵政. 基于数据仓库的农业环境监测系统的研究与实现[J].计算机工程与应
用,2007,43(9):211-214.
[5] 符保龙. RBF网络在农业病虫害预测中的应用研究[J].安徽农业科学,2008,36(1):388-389.
[6] 周启生.数据挖掘技术在病虫害防治决策中的应用[J].农业网络信息,2004(7):8-10.
[7] 任长伟,尚艳英,曹彦荣.基于GIS与空间关联规则数据挖掘在森林病虫害预测中的应用初探[C]//
昆明:第四届海峡两岸GIS发展研讨会暨中国GIS 协会第十届年会,2006:743-748.
[8] 张文静,卢海霞,杨捧,等.基于关联规则的农业专家系统知识库的建立[J].农机化研究,
2008(7):93-95.
[9] 顾静秋.农业专家系统的知识获取、表示与推理[J].农业办公自动化,2004,66(1):32-34.
[10] 李业刚,宋道金,王淑君,等.农业电子商务中模糊数据挖掘技术的应用[J].农机化研
究,2008(1):178-180.
[11] 刘德军,张广胜.数据挖掘在现代农业物流管理决策中的应用研究[J].沈阳师范大学学
报,2008,26(3):310-313.
[12] 胡彩平,秦小麟.空间数据挖掘研究综述[J].计算机科学,2007,34(5):14-19.
[13] Jose Fernando,Ortega Alvarez.An economic optimization model for irrigation water management[J].Irrigation Science ,2004(23):61-75.
[14] 陆晓希,黄力.基于粗糙集理论及其在农业病害规则发现中的应用[J].安徽农业科学,
2006,34(3):3 251-3 252.
[15] 孙微微,胡月明,刘才兴.基于决策树的土壤质量等级研究[J].华南农业大学学报(自然科学
版)2005(3):108-110.。