数据挖掘综述_耿晓中

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘综述
耿晓中,张冬梅
(长春工程学院,吉林长春130012)
分类的主要功能是学会一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的
属性将数据分派到不同的组中。

即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些
组。

这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。

分类应用的实例很多。

例如,我们可以将银行网点分为好、一般和较差三种类型,并以此分析这三种类
型银行网点的各种属性,特别是位置、盈利情况等属性,并决定它们分类的关键属性及相互间关系。

此后就
可以根据这些关键属性对每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。

5.3关联分析数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种
规律性。

这种关联关系有简单关联和时序关联两种。

简单关联,例如:购买面包的顾客中有90%的人同时
购买牛奶。

时序关联,例如:若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可
能性为75%。

它在简单关联中增加了时间属性。

关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。

有时并不知道数据
库中数据的关联是否存在精确的关联函数,,即使知道也是不确定的,因此关联分析生成的规则带有置信度,
置信度级别度量了关联规则的强度。

关联模型的一个典型例子是市场菜篮分析(Marketing Basket Analysis),通过挖掘数据派生关联规则,可
以了解客户的行为。

5.4聚类当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。

聚类
分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。

每一个集合中的数据性质相
近,不同集合之间的数据性质相差较大。

统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。

人工智能中的聚类是
基于概念描述的。

概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。

概念描述分为特
征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。

6数据挖掘研究的现状
国际上第一次关于数据挖掘与知识发现的研讨会于1989年8月在美国底特律召开。

当时仅有数十人参
加,此后发展很快。

1993年IEEE的Knowledge and Data Engineering率先出版了KDD专刊。

1995年提升为每年
举办一次的国际学术大会(International Conference on DataMining&Knowledge Discovery in Databases)。

另外,从
1997年开始,数据挖掘拥有了自己的杂志“Knowledge Discovery and Data Mining”。

目前DM技术在货篮数据(basket data)分析、保险业务、金融风险预测、产品产量和质量分析、分子
生物学、基因工程研究、Internet站点访问模式发现以及信息检索和分类等许多领域得到了成功的应用。

7数据挖掘的主要工具
在DM技术日益发展的同时,许多DM的商业软件工具也逐渐问世。

特别是90年代中期以来,许多软件
开发商开发了名目繁多的DM和KDD工具和软件,DM和KDD成为近年来软件开发市场的热点,已不断出
现成套软件和系统,并开始朝智能化整体解决方案发展。

DM工具主要分为两类,即特定领域的DM工具和通用型的DM工具。

特定领域的DM工具是针对某个
特定领域的问题提供解决方案。

在设计算法时,充分考虑到数据、需求的特殊性,并进行优化。

已开发的特
定领域的DM工具,例如IBM公司的Advanced Scout系统针对NBA的数据,帮助教练优化战术组合;加州理
工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,帮助天文学家发现遥远的类星体;芬兰赫尔
辛基大学计算机科学系开发的TASA,帮助预测网络通信中的警报。

特定领域的DM工具针对性比较强,往
往采用特殊的算法,处理特殊的数据,实现特殊的目的,从而发现知识的可靠程度也较高。

通用型的DM工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。

例如,IBM公
司Almaden研究中心开发的QUEST系统,SGI公司开发的Mineset系统,加拿大Simon Fraser 大学开发的DB-
Miner系统。

通用的DM工具可以实现多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用
需求来选择。

8发展方向及面临的技术挑战
·26·
据的转换。

将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个真正适
合挖掘算法的分析模型是数据挖掘成功的关键。

3.3数据挖掘对所得到的经过转换的数据进行挖掘,除了完善从选择合适的挖掘算法外,其余一切工作
都能自动地完成。

3.4结果分析解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。

3.5知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去。

总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。

4数据挖掘的主要方法
4.1神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错
等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。

典型的神经网络模型主要分3大
类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模
型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以
ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。

4.2遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。

遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

4.3决策树方法决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有
价值的,潜在的信息。

它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

最有影响和最
早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法。

4.4粗集方法粗集理论是一种研究不精确、不确定知识的数学工具。

粗集方法有几个优点:不需要给出
额外信息;简化输入信息的表达空间;算法简单,易于操作。

粗集处理的对象是类似二维关系表的信息表。

目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。

但粗集的数学基础是集合论,难以直接处理连续的属性。

而现实信息表中连续属性是普遍存在的。

因此连续
属性的离散化是制约粗集理论实用化的难点。

4.5覆盖正例排斥反例方法它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。

首先在正例集合
中任选一个种子,到反例集合中逐个比较。

与字段取值构成的选择子相容则舍去,相反则保留。

按此思想循
环所有正例种子,将得到正例的规则(选择子的合取式)。

比较典型的算法有Michalski的AQ11方法、洪家
荣改进的AQ15方法以及他的AE5方法。

4.6统计分析方法在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和
相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计
学原理对数据库中的信息进行分析。

可进行常用统计、回归分析、相关分析、差异分析等。

4.7模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识
别和模糊聚类分
析。

系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。

李德
毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型———云模型,并形成了云理
论。

5数据挖掘的主要任务
数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。

数据
挖掘一般有以下四类主要任务:
5.1数据总结数据总结目的是对数据进行浓缩,给出它的总体综合描述。

通过对数据的总结,数据挖掘
能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总
体把握。

传统的也是最简单的数据总结方法是利用统计学中的方法计算出数据库的各个数据项的总和、平均、方
差、最大值、最小值等基本描述统计量。

或通过利用统计图形工具,对数据制作直方图、饼状图等。

利用OLAP技术实现数据的多维查询也是一种广泛使用的数据总结的方法。

·25·
[摘要]数据挖掘是人们长期对数据库技术进行研究和开发的结果,是当前计算机科学研究的活跃
领域。

本文介绍了数据挖掘的定义、功能以及数据挖掘的过程,论述了数据挖掘的常用技术,介绍了
数据挖掘的应用,最后结合当前新的研究成果,分析了数据挖掘领域的发展趋势。

[关键词]数据挖掘;数据库
[中图分类号]TP311[文献标识码]A[文章编号]1008-178X(2006)03-0024-04
[收稿日期]2006-04-03
[作者简介]耿晓中(1972-),女,河北遵化人,长春工程学院电气与信息学院讲师,硕士,从事计算机应用技术研究。

随着计算机技术的迅猛发展,人类正在步入信息社会。

面对今天浩如烟海的信息,如何帮助人们有效地
收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它
们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。

数据挖掘就是
为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。

1数据挖掘的产生
从进化的角度来看,数据挖掘技术的产生过程实际上反映了数据库技术的演化过程。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,同时,也是信息技术自然演化的结果。

从机器学习到知识工程,从知识工程到专家系统,80年代人们又在新的神经网络理论的指导下重新回到机
器学习,随后又进入到数据库中的知识发现,接着又相辅相成地产生数据挖掘。

在此期间,数据仓库技术的
出现和逐步成熟为数据挖掘技术的繁荣注入了强劲的动力,最近人们又认识到把统计分析方法和数据挖掘有
机地结合将是最好的策略。

因此,数据挖掘是一门交叉学科,其发展是一个螺旋上升的过程。

2数据挖掘的概念
所谓数据挖掘(Data Mining-DM),就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中,
提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

这个定义包括以下四个层次
的含义:(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识
要可接受、可理解、可运用,最好能用自然语言表达发现结果;(4)并不是要求发现放之四海而皆准的知
识,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明,所有发现的知识都是相
对的,是有特定前提和约束条件、面向特定领域的。

3数据挖掘的过程
3.1确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。

挖掘的最后结
构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

3.2数据准备
3.2.1数据的选择。

搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用
的数据。

3.2.2数据的预处理。

研究数据的质量,为进一步的分析作准备,并确定将要进行的挖掘操作的类型。

·24·
数据挖掘是一个新兴的研究领域,许多问题还有待于研究,目前的研究方向包括下列几个方面。

算法效率和可伸缩性。

数据挖掘通常是直接面向海量数据库,因此,数据挖掘系统必须能有效地处理海
量数据,其算法必须是高效率的、可伸缩的。

处理不同类型的数据和数据源。

目前数据挖掘系统处理的数据库大多是关系数据库。

随着数据库应用范
围的日益扩大和规模、功能的日益完善,数据库中将包含大量复杂的数据类型,甚至出现新的数据库模型,
因此,保证数据挖掘系统能有效地处理此类数据库中的数据是至关重要的。

数据挖掘系统的交互性。

数据挖掘中操作者的适当参与能加速数据挖掘过程。

一方面,交互界面为用户
表达要求和策略提供方便;另一方面,交互界面又把生成的结果传递给用户,由于生成的结果可以多种多
样,因此,准确而直观地描述挖掘结果和友好而高效的用户界面一直是研究的重要课题。

Web挖掘。

由于Web上存在大量信息,并且Web在当今社会扮演越来越重要的角色,因此,Web
挖掘
将成为数据挖掘中一个重要和繁荣的子领域。

数据挖掘中的隐私保护与信息安全。

数据挖掘能从不同的角度、不同的抽象层上看待数据,这将潜在地
影响数据的私有性和安全性。

随着计算机网络的日益普及,研究数据挖掘可能导致的非法数据入侵是实际应
用中亟待解决的问题之一。

探索新的应用领域。

早期的数据挖掘主要集中在帮助企业提高竞争能力。

随着数据挖掘的日益普及,它
的应用领域也在不断扩大,由于通用数据挖掘系统在处理特定应用问题时有其局限性,因此,目前的一种趋
势是开发针对特定应用的数据挖掘系统。

数据挖掘语言的标准化。

标准的数据挖掘语言或有关方面的标准化工作将有助于数据挖掘系统的研究和
开发,有利于用户学习和实用数据挖掘系统。

可视化数据挖掘。

可视化数据挖掘是从大量数据中发现知识的有效途经。

系统研究和开发可视化数据挖
掘技术将有助于推进数据挖掘作为数据分析的基本工具。

9结束语
数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展.每
年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。

[参考文献]
[1]海燕,李秀丽.数据挖掘技术浅析[J].水利电力机械,2005,27(1),56-57.
[2]陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2004.
[3]Mehmed Kantardzic.DATAMINING[M].北京:清华大学出版社,2003.
[4]罗可.蔡碧野.数据挖掘及其发展研究[J].计算机工程与应用,2002,14,182-184
[5]薛薇.数据挖掘概述[J].统计与精算,2001,3.
Survey of Data Mining
GENG Xiao-zhong,ZHANG Dong-mei
(Changchun Instiute of Technology,Changchun 130012,China)
Abstract:Data Mining is the result of people developing and doing research about database technology in long term,is an
active area in recent computer science.This essay introduces the concept,function and procedure of DataMining,talk about
the usual technology of dm.introduce application of DataMining.at lastanalyze the future developing tendency in DataMin-
ing area combined with current new research result.
Key words:data mining;database。

相关文档
最新文档