数据挖掘综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘综述

1、产生背景

随着计算机的产生和大量数字化的存储方法的出现,我们借助计算机来收集和分类各种数据资料,但是不同存储结构存放的大量数据集合很快被淹没,便导致了结构化数据库以及DBMS的产生。

但是随着信息时代的到来,信息量远远超过了我们所能处理的范围,从商业交易数据、科学资料到卫星图片、文本报告和军事情报,以及生活中各种信息,这也就是“数据爆炸但知识贫乏”的网络时代,面对巨大的数据资料,出现了新的需求,希望能够更好的利用这些数据,进行更高层次的分析,从这些巨大的数据中提取出对我们有意义的数据,这就是知识发现(KDD,Knowledge Discovery in Databases),数据挖掘应运而生。

2、数据库系统技术的演变

1)20世纪60年代和更早

这个时期是数据收集和数据库创建的过程,原始文件的处理2)20世纪70年代---80年代初期

有层次性数据库、网状数据库、关系数据库系统

3)20世纪80年代中期—现在

高级数据库系统,可以应用在空间、时间的、多媒体的、主动的、流的和传感器的、科学的和工程的。

4)20世纪80年代后期—现在

高级数据分析:数据仓库和数据挖掘

5)20世纪90年代—现在

基于web的数据库,与信息检索和数据信息的集成6)现在---将来

新一代的集成数据域信息系统

3、数据挖掘概念

数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在的有用的,最终可以理解的模式的非平凡过程。数据挖掘,又称为数据库中知识发现(KDD,Knowledge Discovery in Databases),也有人把数据挖掘作为数据库中知识发现过程的一个基本步骤。

数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库等。

4、数据挖掘特点和任务

4.1数据挖掘具有以下几个特点:

1)处理的数据规模十分庞大,达到GB,TB数量级,甚至更大2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴

趣的东西。

3)在一些应用(如商业投资等)中,由于数据变化迅速,因此

要求数据挖掘能快速做出相应反应以即时提供决策支持。4)数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为

有效。因此,利用数据挖掘技术可能会发现大量的规则。5)数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要

随时对其进行更新。

4.2数据挖掘的主要任务

数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。数据挖掘一般有一下四类主要任务

●数据总结

数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。

利用OLPA技术实现数据的多维查询也是一种广泛使用的数据总结的方法。

●分类

分类的主要功能是学会一个分类函数或分类模型,该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。

这样我们就可以利用该模型来分析已有的数据,并预测新数据将属于哪一个组。

●关联分析

数据库中的数据一般都存在关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。简单关联,例如:购买面包的顾客中有90%的人同时购买牛奶。时序关联,例如:若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%。

它在关联中增加了时间属性。

关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,,即使知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。

●聚类

当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。

统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是

基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者

描述某类对象的共同特征,后者描述不同类对象之间的区别。

5、数据挖掘系统分类

如今有很多现有的或者正在开发的数据挖掘系统,其中有些是专门用于给定或局限于有限的数据源的系统,有些相比则更加灵活和全面。根据不同标准可以将数据挖掘系统分类。

(1)根据数据源类型分类。有空间数据、多媒体数据、时间序列数据、文本数据、Web 数据等数据挖掘系统。

(2)根据数据模型分类。基于关系数据库、面向对象数据库、数据仓库、事务数据库的数据挖掘系统。

(3)根据挖掘的知识类型分类,即根据数据挖掘的功能分类,如特征化、比较、关联和相关分析、分类、预测、聚类、孤立点分析、偏差分析。一个综合的数据挖掘系统通常集成多种数据挖掘功能。

(4)根据所用的技术类型分类。这些技术可以根据用户交互程度(例如自动系统、交互探查系统、查询驱动系统)或所用的数据分析方法(例如面向数据库或面向数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络等)描述。复杂的数据挖掘系统通常采用多种数据挖掘技术。

6、数据挖掘步骤

数据库中的数据挖掘是一个多步骤的处理过程,一般分为:

●问题定义,了解相关领域的有关情况,熟悉背景知识,弄清用户

要求.

●数据提取,根据要求从数据库中提取相关的数据.

相关文档
最新文档