数据挖掘技术研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘技术研究
摘要:数据挖掘技术是数据库技术和新的数据库应用的一个前沿学科,它融合了数据库技术、机器学习和人工智能等多个学科。介绍了数据挖掘技术的定义、任务类型和常用的数据挖掘方法,以及数据挖掘技术的实际应用。
关键词:数据挖掘;应用;任务;规则
0 引言
在计算机技术快速发展的时代,数据库技术与计算机网络也得到了普遍的应用,从而人们利用计算机技术处理数据的能力也显著增强,这就造成了数据的迅速增加与数据分析方法滞后之间的矛盾也越来越明显。人们总是希望通过分析现有的数据,挖掘出海量的数据信息,以便更好地利用这些数据。然而,目前已有的数据分析技术已经无法满足人们对数据进行深层次挖掘的需要,数据处理的效率也很低。数据量的快速增长对数据的存储、管理和分析提出了更高的要求,急需一种新的技术,能够智能化的从大量的数据中提取出有用的信息,于是数据挖掘技术应运而生,并在各行业得到了广泛的应用。
1 数据挖掘技术的定义
数据挖掘(Data Mining)就是从大量的不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种多学科交叉的全新信息技术,随
着计算机网络的发展和普遍使用,数据挖掘成为迫切需要研究的重要
课题。
2 数据挖掘技术的任务
通常数据挖掘技术的任务模式可以分为两类:描述模式和预测模式。描述模式是对数据中存在的规律、规则作出一种描述,或者根据数据间的相似性对数据进行分组,一般不能直接用于预测;预测模
式能够根据已有的数据集,预测某些未知数据项的值。
数据挖掘的任务类型主要有以下6种:①分类模式。分类是按照分析对象的属性、特征,建立不同的组类来描述事物。分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个;②聚类模式。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法;③关联规则。关联规则也称为关联模式,由Rakesh Apwal 等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联可分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求;④概念描述。概念描述就是对所选择的数据给出一个简单明了的描述;提供对于两个或两个以上的数据进行比较的结
果。概念描述可以分为特征性描述和区别性描述两种,特征性表述用来描述某类对象的共同特征,区别性描述用来描述不同类对象之间的区别;⑤自动预测趋势和行为。数据挖掘可以自动地在大量的数据库中检测出预测性信息。预测的目的是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。比如市场预测问题,数据挖掘使利用以前促销的相关数据来寻找未来投资中回报最大的用户,当然也能预测破产以及判定对特定事件最可能做出反应的客户群体;⑥偏差检测。偏差检测即孤立点检测,孤立点检测是数据挖掘中一个重要方面,用来发现“小的模式”(相对于聚类而言),即数据集中与其它数据明显不同的对象。数据集中的数据常会有一些异常记录,所以检测出这些偏差是很有意义的。偏差包括很多潜在的知识,如分类中的反常实例、不符合规则的特例、检测结果与模型预测值的
偏差等。
3 常用的数据挖掘技术
最常用的数据挖掘技术有:①神经网络:指由大量神经元互连而成的网络,具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。利用神经网络可以完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络在实际生活中的应用主要有:电子领域中的集成电路芯片设计、娱乐领域中的动画设计、银行业中的贷款评估器、国防领域中的目标跟踪等领域;②决策树:是用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。决策树是一棵树,树的根节点是整个数据集合空间,每个分节点是对一个
单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类;③遗传算法:是一种新的优化技术,基于生物进化的概念设计了基因组合、交叉、变异和自然选择等过程来达到优化的目的。在应用中,需要把数据挖掘任务表达为一种搜索问题,从而发挥遗传算法的优化搜索能力;④近邻算法:通过K个与之最相近的历史记录的组合来辨别新的记录,有时也称这种技术为K一最近邻方法。这种技术可用作聚类、偏差分析等数据挖掘任务;⑤规则推导:通过统计方法归纳和提取有价值的“If-Then”规则。规则推导技术在数据挖
掘中被广泛使用,例如关联规则的挖掘。
采用上述技术的某些专门的分析工具已经发展了十多年,现在,这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中。
4 数据挖掘的应用
数据挖掘技术在现实生活当中的应用主要体现在以下几个方
面:
(1)在银行业中的应用
处理金融事务通常需要搜集和处理大量的数据,鉴于银行在金融领域的地位、工作性质、业务特点和激烈的市场竞争,使得银行比其它领域对信息化、电子化的需求更为迫切。利用数据挖掘技术可以
帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。
(2)在零售业中的应用
从条形码、编码系统、销售管理系统、客户资料管理及其它业务数据中,可以收集到关于商品销售、客户信息、货存单位及店铺信息等的信息资料。将从各种应用系统中采集的数据,按条件进行分类,放到数据仓库里,并用DM工具对这些数据进行分析,为人们提供了高效的科学决策工具。如对商品进行购物篮分析,分析那些商品顾客最有希望一起购买。如经典实例--沃尔玛的“啤酒和尿布”,就是数
据挖掘透过数据找出事物之间规律的典型。
(3)在电信业中的应用
随着许多国家对电信业的开放和新兴计算与通信技术的发展,电信市场得到了迅速的扩张并越发竞争激烈。因此,有必要利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早地发现盗用,为公司减少损失。
(4)在生物学中的应用
生物信息或基因数据挖掘对人类意义重大。例如,基因的组合千变万化,一个得了某种疾病的人的基因和一个正常人的基因到底差别有多大?能否找出其中不同的地方,并对这些不同之处进行改变,使之成为正常基因?这都需要数据挖掘技术的支持。数据挖掘在生物信息或基因的中的应用和通常的数据挖掘相比,无论是在数据的复杂程度、数据量,还是建立模型的算法,都要复杂得多。在生物学中更