基于matlab的数据挖掘技术研究【文献综述】

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

毕业论文文献综述

信息与计算科学

基于matlab的数据挖掘技术研究

数据挖掘是用于大规模数据处理的一种新的思维方式和技术手段,他是在现实生活中各种数据量呈指数级不断增长,以及以数据库(database)技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现影藏在大型数据库中的规律和模式,它融合了人工智能(artificial intelligence)、统计(statistics)、机器学习(nachine learning)、模式识别(pattern recognition)和数据库等多种学科的理论、方法与技术,已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域中获得了非常广泛的应用。即使在日常生活中,数据挖掘技术也已经潜移默化地参与到人们的生活质量改善过程中。

数据挖掘有很多种技术和计算方法,包括决策树方法(decision tree)、人工神经网络方法(artificial neural metwork,ANN)、聚类分析、模糊集合方法、遗传算法(genetic algorithm)、模拟退火算法(simulated annealing,SA)、进化式程序设计(evolutionary programming)等。这里主要介绍一下聚类分析、遗传算法和人工神经网络算法。

聚类分析也称无监督学习,或无教师学习,或无指导学习,因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。聚类分析是研究如何在没有训练的条件下把样本划分为若干。聚类(clustering)是对物理的或抽象的样本集合分组的过程。聚类分析有很多种目标,但都涉及把一个样本集合分组或分割为子集或簇(cluster)。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。聚类分析主要针对的数据类型包括区间标度变量、二值变量、标称变量、序数型变量、比例标度型变量以及由这些变量类型构成的复合类型。聚类算法应具有以下几个特点:1处理不同字段类型的能力;2可伸缩性;3处理高维数据的能力;4发现具有任意簇的形状的族类能力;5能够处理异常数据;6对数据顺序的不敏感性;7输入参数对领域知识的弱依赖性;8聚类结果的可解释性和实用性;9增加限制条件后的聚类分析能力。

基因算法起源于对生物系统进行的计算机模拟研究,是一种受生物进化启发,使用计算机模拟生物进化的学习方法。基因算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法。基因算法的最大优点是问题求解与初始条件无关,搜索最优解的能力极强。从数学的角度看,基因算法是一种概率型搜索算法:从工程学角度看,它是一种自适应的迭代寻优过程。基因算法需要完成两种数据转换,算法实施之前进行从表现型到基因型的转换,即将搜索空间中的参数或可行解转化成遗传空间中的染色体或个体,完成编码操作;在算法

完成之后,需要进行从基因型到表现型的转换,是前者的反方向操作,作为译码操作,即将遗传空间中的染色体或个体转换成解空间中的最优解。基因算法有如下特点:1在生物系统中,进化被认为是一种成功的自适应方法,且具有很好的健壮性。2基因算法搜索的假设空间中,假设的各个部分相互作用,每一部分对总的假设适应度的影响难以建模。3基因算法易于并进化,且可降低由使用超强计算机硬件所带来的昂贵费用。4基因算法采用一种随机化的搜索老寻找最大适应度得假设。

神经网络起源生物学和神经生物学中有关神经细胞计算本质的研究工作。所谓神经网络就是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重。在网络学习阶段,网络通过调整权重来实现输入样本与其相应(正确)类别的对应。由于网络学习主要是针对其中的连接权重进行的,因此神经网络的学习有时也称为连接学习。鉴于神经网络学习时间较长,因此它仅适用于时间容许觉得应用场合。此外它们还需要一些关键参数,如网络结构等。这些参数通常需要经验才能有效确定。由于神经网络的输出结果较难理解,因而受到人们的冷落,也使得神经网络较难成为理想的数据挖掘方法。神经网络的优点是对噪声数据有较好适应能力,并且对未知数据也有较好的预测分类能力。目前人们也提出了一些从神经网络中抽取出(知识)规则的算法。这些因素又将有助于数据挖掘中的神经网络应用。

当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。具体发展趋势和应用方向主要有:对知识发现方法的研究进一步发展,如对Bayes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统,例如Weka等软件。数据挖掘的发展应是挖掘工具在先进理论指导下的改进,而就国内情况而言,还有至少20年的发展空间。

参考文献

[1]黄子诚,基于决策树的数据挖掘技术[J],电脑知识与技术Vo.l6,No.8,2010(3):P1949-1950

[2] 袁溪,数据挖掘技术及其应用[J].科技资讯.NO.10 2010:p22,p24

[3]赵芳,马玉磊,浅析数据挖掘技术的发展及应用[J],科技信息:P64

[4]王平,王升花,邬连学,基于遗传算法的变压器故障诊断方法的研究[J],技术应用 2011(2):P69

[5]卢华,刘福胜,王少杰,张鹏,基于遗传算法的平原水库坝高优化[J],人民黄河 Vol33,No.1,2011(1):P125-128

[6]刘兴波,凝聚型层次聚类算法的研究[J],科技信息 NO.11,2008:P202

[7]吴燕,科技文档的层次聚类分析[J],商业文化. 社会经纬,2008(1):P353-354

[8]孟姗姗,全国地区小康和现代化指数的层次聚类分析[J]

[9]张利华,彭海燕,余淑媛,量子克隆遗传算法的多用户检测技术研究[J],大众科技,No.1,

相关文档
最新文档