数据挖掘技术概述_董欢
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息产业
数据挖掘技术概述
董欢1、
2(1、西安电子科技大学研究生院,陕西西安7100712、西北政法大学经济管理学院,陕西西安710063)
数据挖掘(datamining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一个新的研究领域,以人工智能作基础,结合了数据库技术、统计学和进化计算等理论和算法。数据挖掘研究的对象是大量隐藏在数据内部的有价值的信息,如何获取有价值、感兴趣的信息是我们所要解决的主要问题。机器学习、数理统计等方法是数据挖掘进行知识学习的重要方法。数据挖掘算法的好坏将直接影响到所发现知识的好坏。统计方法应用于数据挖掘主要是进行数据评估;机器学习是人工智能的另一个分支,通过学习训练数据集,发现模型的参数,并找出数据中隐含的规则。其中决策树方法、关联规则、神经网络和遗传算法在数据挖掘中应用很广泛。1数据挖掘中的常用技术1.1决策树方法决策树是代表着决策集的树形结构,一般都是自上而下生成的,选择分类的方法有很多种,但是目的一致,就是对目标类尝试最佳的分类。决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息嫡的ID3算法。它的主要问题是:ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如Schhlnlner和fisher设计了ID4递增式学习算法等。最为典型的决策树学习算法是ID3算法,它采用自顶向下不回溯策略,保证找到一个简单的树,算法C4.5是ID3算法的扩展,将分类领域从类别属性扩展到数值型属性。1.2关联规则关联规则用来揭示数据与数据之间未知的相互依赖关系。由一个条件和一个结果组成的,形如IF...THEN…的简单形式就叫做规则,
关联规则挖掘就是扫描整个数据集,从中找出具有给定的最小支持度和最小置信度的关联规则。其中最具代表性的是R.Agrawal提出的Apriori算法。1.3神经网络神经网络是仿照生理神经网络结构的非线性预测模型,通过学习进行模式识别。它基于人脑的组织模式,将众多结构和功能极其简单的神经元通过各种方式联接成一个复杂的网络结构,以实现复杂的智能行为。神经网络具有很强的自学习能力,能够自动地从训练样本中学习领域知识,网络具有很强的自适应能力,而且神经网络的智能活动表现为一种并行的联想方式,能够像人脑一样实现快速的“推理”。神经网络可以分成四种类型,即前向型、反馈型、随机型和自组织竞争型。神经网络的性质主要取决于两个因素:一个是网络的拓扑结构,另一个是网络的权值和工作规则,这二者结合起来构成一个网络的重要特征。随着网络结构和功能的不同,网络权值的学习算法也不同,从学习过程的组织与管理而言分有监督学习与无监督学习;从学习过程的推理和决策方式而言分确定性学习、随机学习和模糊学习。1.4遗传算法遗传算法是一种基于生物进化论和分子遗传学的搜索优化算法。它首先将问题的可能的解按某种形式进行编码,编码后的解称为染色体;随机选取N个染色体作为初始种群,再根据预定的评价函数对每
个染色体计算适应值,性能较好的染色体有较高的适应值;选择适应值较高的染色体进行复制,并通过遗传算子,产生一群新的更适应环境的染色体,形成新的种群,直至最后收敛到一个最适应环境的个体,得到
问题的最优化解。
1.5聚类分析
聚类是将数据集分成若干不同的类,使得在同一类的数据对象尽可能相似,而不同类中的数据尽可能相异。聚类与分类的根本区别在
于:分类需要事先知道所依据的对象特征,而聚类是在不知道对象特征的基础上要找到这个特征。因此在很多应用中,聚类分析作为一种数据预处理过程,是进一步分析和处理数据的基础。
聚类分析可以作为一个获得数据分布情况、观察每个类的特征和对特定类进一步分析的独立工具。通过聚类,能够识别密集和稀疏的区域,发现全局的分布模式,以及数据属性之间的相互关系等。
1.6统计学习
统计分析方法主要用于完成知识总结和关系型知识挖掘。对关系表中的各属性进行统计分析,找出它们之间存在的关系。关系表中的属性之间一般存在两种关系:第一种是函数关系,能用函数公式表示的确定性关系。第二种是相关关系,即不能通过函数公式表示的关系,例如人的年龄与血压之间,这些变量之间存在着密切的关系,但不能由一个(或几个)变量的数值精确地求出另一个变量的值。但确定性和相关关系
之间并没有一道不可逾越的鸿沟。
由于测量误差等原因,确定性关系实际上往往通过相关关系呈现出来;当事物的内部规律被深刻了解时,相关关系又可能转化为确定性关系。对它们可采用回归分析、相关分析、主成分分析等方法。
1.7粗糙集
粗糙集作为一种软计算方法,依照粗集(roughset)理论,可以克服传统的不确定信息的处理方法的不足,即使没有给定特征属性的数量描
述,也可以进行有机结合,找出问题潜在规律。粗糙集一般应用于类,针
对那些不稳定的、有缺陷的信息发挥了较强的处理能力。粗糙集方法执
行思想描述如下:开始时要对近似的属性值做离散化处理,接下来把这些属性逐个进行规划成等价12类,然后应用等价条件、上下取近似来展现决策关系,最后对该系统进行约简,去掉那些冗余属性。
粗糙集方法的优点除了伸缩性、鲁棒性和抗噪声性外,还为普遍使用者提供了易理解性和开放性。
2总结
数据挖掘技术及其应用是目前的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。随着人们对数据挖掘技术的深入研究,数据挖掘技术
必将得到更为广泛的应用,并取得更加显著的效果。
参考文献
[1]崔志国.数据仓库与数据挖掘技术在图书馆决策支持系统中的研究与应用[D].呼和浩特:内蒙古工业大学,2009.
[2]陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2003.[3]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.
[4]黄晓霞,萧蕴诗.数据挖掘集成技术研究[J].计算机应用研究,2003(4).[5]赵明茹.浅谈数据挖掘[J].科技信息,2010(31).
[6]郑日军.数据挖掘综述[J].科协论坛(下半月),2008(10).
摘要:随着计算机技术的发展及广泛应用,计算机中积累了大量的数据,传统的数据处理技术只能进行简单的数据处理,无法挖掘出更有用的信息,因此数据挖掘技术应用而生。本文主要介绍了数据挖掘中常用的技术。
关键词:数据挖掘;决策树技术;遗传算法;关联规则
作者简介:董欢(1981-
),女,陕西大荔人,西北政法大学经济管理学院计算机与信息管理系教师,讲师,西安电子科技大学在读硕士研究生,研究方向为计算机应用。100··