数据挖掘技术及应用综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作者简介:韩少锋,男,1980年生,中北大学在读硕士研究生。研究方向:人工智能技术。

引言

“人类正被信息淹没,却饥渴于知识.”这是1982年

趋势大师JohnNaisbitt的首部著作《大趋势》(Mega-trends)中提到的。

随着数据库技术的迅速发展,如何从含有海量信息的数据库中提取更有价值、更直观的信息和知识?人们结合统计学﹑数据库﹑机器学习﹑神经网络﹑模式识别﹑模糊数学﹑粗糙集理论等技术,提出‘数据挖掘’这一新的数据处理技术来解决这一难题。数据挖掘(DataMining)就是从大量的﹑不完全的﹑有噪声的﹑模糊的﹑随机的数据中,提取隐含在其中的﹑人们事先不知道的﹑但又是潜在的有用的信息和知识的过程。这些数据可以是:结构化的,半结构化的,分布在网络上的异构性数据。数据挖掘在许多领域得到了成功的应用,使数据库技术进入了一个更高级的发展阶段,很多专题会议也把数据挖掘和知识发现列为议题之一。

1数据挖掘技术概述

1.1数据挖掘的概念

数据挖掘的概念有多种描述,最常见的有两种:(1)G.PiatetskyShapior,W.J.Frawley数据挖掘定义为:从数据库的大量数据中揭示出隐含的、先进而未知的、潜在有用信息的频繁过程。(2)数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘的特点有:1)用户需要借助数据挖掘技术从大量的信息中找到感兴趣的信息;2)处理的数据量巨大;3)要求对数据的变化做出及时的响应;4)数据挖掘既要发现潜在的规则,也要管理和维护规则,规则的改变随着新数据的不断更新而更新;5)数据挖掘规则的发现基于统计规律,发现的规则不必适用于全部的数据。

数据挖掘要面对的是巨大的信息来源;通过数据挖

掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识归纳服务。

1.2数据挖掘的简史

从数据库中知识发现(KDD)一词首先出现在1989

年举行的第十一届国际联合人工智能学术会议上。目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会,研究重点也从发现方法转向系统应用。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,研讨空前热烈。

目前,数据挖掘技术在零售业的购物篮分析﹑金融风险预测﹑产品质量分析﹑通讯及医疗服务﹑基因工程研究等许多领域得到了成功的应用。

1.3数据挖掘的对象

数据挖掘的对象包含大量数据信息的各种类型数

据库。如关系数据库,面向对象数据库等,文本数据数据源,多媒体数据库,空间数据库,时态数据库,以及

Internet等类型数据或信息集均可作为数据挖掘的对

象。

1.4数据挖掘的工具

许多软件公司和研究机构,根据商业的实际需要

开发出许多数据挖掘工具。例如:有多种数据操控和转换特点的SASEnterpriseMiner;采用决策树、神经网络和聚类技术综合的数据挖掘工具集-IBMInterlligentMiner;可以提供多种统计分析、

决策树和回归方法,在Teradata数据库管理系统上原地挖掘的Teradata

WarehouseMiner;以及同时具有数据管理和数据概括能力,能够用于多种商业平台的SPSSClementine。以上

主流数据挖掘工具都能提供常用的挖掘过程和挖掘模

数据挖掘技术及应用综述

韩少锋

陈立潮

(中北大学计算机科学与技术系

山西

太原

030051)

【摘要】介绍了数据挖掘技术的背景、概念、流程、数据挖掘算法,并阐述了数据挖掘技术的应用现状。

【关键词】数据挖掘

知识发现

人工智能

数据仓库

【中图分类号】TP311.138

【文献标识码】B

【文章编号】1003-773X(2006)02-0023-02

第2期(总第89期)机械管理开发

2006年4月No.2(SUMNo.89)MECHANICALMANAGEMENTANDDEVELOPMENT

Apr.2006

23・・

第2期(总第89期)机械管理开发2006年4月

式,在实际中均有成功用例。

1.5数据挖掘的方法

数据挖掘的核心技术是人工智能、机器学习、数学统计等,但它并非多种技术的简单结合,而是不可分割的整体,还需其他技术的支持,才能挖掘出令用户满意的结果。具体来说,数据挖掘方法可分以下几类。

(1)人工神经网络方法:是从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型;它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能;可完成分类、聚类、特征挖掘等多种挖掘任务。最大的优点是能精确地对复杂问题进行预测。相应缺点是:人工神经网络虽在预测方面有用,但却难于理解;人工神经网络易于受训练过渡的影响;构造神经网络要对其训练许多遍,需要花费许多时间。

(2)统计方法:统计学为数据挖掘提供了许多判别和回归方法,有:贝叶斯推理,回归分析,方差分析等技术。贝叶斯推理是在知道新信息后修正数据集概率分布的基本工具,处理数据挖掘中分类问题。回归分析用来找到一个输入变量和输出变量关系的最佳模型,或用来描述一个变量的变化趋势和别的变量值的关系的线性回归,有的用来为某些事件发生的概率建模和预测变量集的对数回归。方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响。

(3)决策树方法:是常用的方法,它可用来数据分析,也可用来预测。决策树(decisiontree)用树形结构表示决策集合,进而通过对数据集的分类产生规则。

(4)模糊数学方法:客观事物往往具有某种不确定性。系统的复杂性越高,其精确性越低,模型性越强。在数据挖掘过程中,利用模糊数学方法对实际问题进行模糊评判、模糊决策、模糊识别和模糊聚类,往往能够取得更好效果。

(5)数据挖掘方法还有:粗糙集法,聚类分析,关联规则,遗传算法,以及近年来的数据可视化方法和联机分析处理等。事实上,任何一种挖掘工具往往是根据业务问题选择合适的挖掘方法,每种方法各有其擅长,要视具体问题选定。2数据挖掘的流程

(1)确定数据挖掘目的;(2)数据准备;(3)确定挖掘方法和工具;(4)挖掘;(5)结果分析;(6)知识的运用。

3数据挖掘的应用

随着大量算法的完善、挖掘过程的系统化和规范化、挖掘工具的不断推陈出新,数据挖掘技术已显示了它广泛的应用前景。例如:(1)在医学上用数据挖掘技术在DNA数据的分析研究中,可进行DNA序列间的相似搜索和比较;同时出现基因序列的相关分析;致病基因的发现和遗传数据分析等。(2)在商业上:利用数据挖掘可以进行销售、顾客、产品、时间和地区的多位分析;促销活动的有效性分析;顾客忠诚度的分析;购买推荐分析以及相关商品的参照促销等。(3)在电信业中的电信市场激烈竞争和迅速扩张中,可以利用数据挖掘技术的帮助来理解商业行为,确定电信模式,捕捉盗用行为,更好的利用资源和提高服务质量。4结束语

数据挖掘在研究领域和商业领域中越来越多的应用,已经得到人们的关注,促使这一技术得到迅速发展和完善。当看到它给人们带来利益的同时,也不能忽视存在的问题,例如:数据挖掘方法的效率还有待提高,尤其是超大规模数据集中数据挖掘的效率,以及挖掘结果的无效性等等。目前应予综合考虑的是:采用数据挖掘解决的商业问题的类型,为进行数据挖掘所作的数据准备,数据挖掘的各种算法和理论基础。

参考文献

[1]NaisbittJ.Megatrends:Tennewdirectionstransformingourlives[M].NewYork:WarnerBooks,1980.16-17.

[2]施伯乐,汪卫.数据仓库与数据挖掘研究进展[J].计算机应用与软件,2003(11):10-12.

[3]范明,孟小峰,等.数据挖掘—概念与技术[M].北京:机械工业出版社,2001.

[4]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004.[5]刘兴华.数据挖掘技术及其应用研究[J].辽宁师范大学学报(自然科学版),2002,25(2):101-105.

(收稿日期:2005-11-03)

SurveyofDataMiningTechnologyandApplication

HanShaofengChenLichao

〔Abstract〕Thispaperintroducesthebackground,conceptandprocessofdataminingtechnologyanddataminingalgorithms,andelaboratestheapplicationactualityofdataminingtechnology.

〔Keywords〕DataminingKnowledgediscoveryArtificialintelligenceDatabase

24

・・

相关文档
最新文档