数据挖掘概念与技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘概念与技术

•数据挖掘概述

o数据挖掘概念

▪从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息储存库或动态流入系统的数据

▪从数据中挖掘知识、数据中的知识发现(KDD)

o知识发现过程

▪(1)数据清理:消除噪声和删除不一致数据

▪(2)数据集成:多种数据源可以组合在一起

▪(3)数据选择:从数据中提取与分析与任务相关的数据

▪(4)数据变换:通过汇总和聚集操作,把数据变换和统一成适合挖掘的形式

▪(5)数据挖掘:基本步骤,使用智能方法提取数据模式

▪(6)模式评估:根据某种兴趣度量,识别代表知识的真正有趣的模式

▪(7)知识表示:使用可视化和知识表示技术,向用户提供可挖掘的知识

o数据收集和数据库创建(20世纪60年代或更早)原始文件处理

▪数据库管理系统(20世纪70年代-80年代初期)

•高级数据库系统(20世纪80年代中期-现在)

•高级数据分析(20世纪80年代后期-现在)

o数据挖掘的数据类型

▪数据库系统

•组成

o内部相关的数据(数据库)

o管理和存取数据的软件程序

▪定义数据库结构和数据储存,说明和管理并

发、共享或分布式数据访问,面对系统瘫痪和

未授权的访问,确保信息的一致性和安全性•关系数据库是表的汇集,每个表都被赋予一个唯一的名字

•关系表中每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述

•每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)

•通常为关系数据库构建语义数据模型,如实体—联系(ER)数据模型

▪数据仓库

•数据仓库是一个从多个数据源收集信息的信息储存库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数

据清理、数据变换、数据集成、数据装入和定期数据刷新来构

造。

▪事务数据

•一般地,事务数据库的每个记录代表一个事务,如顾客的一次购物,一个航班订票。一个事务包含一个唯一的事务标识号

(TransID),以及一个组成事务的项(如购买的商品)的列

表。事务数据库可能有一些与之相关的附加表,包含事务的其

他信息,如商品描述。

▪其他类型的数据

•时间相关或序列数据(历史记录、时间序列数据)、数据流(视频监控,它们连续播放)、空间数据(地图)、工程设计数

据(建筑数据、集成电路)、超文本和多媒体数据(文本、图

像)、图和网状数据(如社会信息网络)、万维网、特殊语义

(次序、音视频内容、连接性)以及挖掘具有丰富结构和语义

的模式

o数据挖掘功能

▪(1)特征化与区分

•数据特征化:一般地汇总所研究类(目标类)的数据

o基于统计度量和图的简单数据汇总

o OLAP上卷

o面向属性的归纳技术

•数据区分:将目标类与一个或者多个比较类(对比类)进行比较

o通过区分规则进行比较度量

▪(2)频繁模式

•频繁项集

•频繁子序列(序列模式)

•频繁子结构

▪(3)关联和相关性挖掘

•单维关联规则:包含单个谓词的关联规则

•多维关联规则:涉及多个属性或谓词的关联

▪(4)分类与回归

•分类

o概念:找出描述和区分数据类或概念的模型(或函

数),以便能够使用模型预测类标号未知的对象的类标

o方法

▪分类规则(IF-THEN规则)

▪决策树:类似于流程图的树结构、其中每个节

点代表一个属性值上的测试,每个分支代表测

试的一个结果,而树叶代表类或类分布

▪数学公式

▪类似于神经元的处理单元,单元之间加权连接

▪朴素贝叶斯分类、支持向量机、K最邻近分类•回归:用来预测缺失的或难以获得的数值数据值,也包含基于可用数据的分布趋势识别。

•相关分析在分类和回归之前进行,它试图识别分类和回归过程显著相关的属性

▪(5)聚类分析

•概念:对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。对象的簇这样形成,使得相比之下在同一个

簇中的对象具有很高的相似性,而与其他簇中的对象很不相

似。所形成的每个簇都可以看作一个对象类,由它可以导出规

则。聚类也便于分类化形成,即将观测组织成类分层结构,把

类似的事件组织在一起。

▪(6)离群点分析

•概念:找出数据集中与数据的一般行为或模型不一致的数据对象

o统计与数据挖掘

▪统计学研究数据的收集、分析、解释和表示,数据挖掘与统计学有天然的联系。

▪统计模型是一组数学函数、它们用随机变量及其概率分布刻画目标类对象的行为

▪(1)统计模型可以是数据挖掘任务的结果,数据挖掘任务也可以建立在统计模型之上,于是,在大数据集中挖掘模式时,数据挖掘过程可

以使用该模型来帮助识别数据中的噪声和缺失值。

▪(2)统计学研究开发一些数据和统计模型进行预测和预报的工具,对于从数据中挖掘各类模式,以及理解产生和影响这些模式的潜在机

制,统计学是有用的。

▪(3)统计方法也可以用来验证数据挖掘结果,例如:建立分类或预测模型之后,应该使用统计假设检验来验证模型。

▪在数据挖掘中使用统计方法并不简单,如何把统计学方法用于大型数据集是一个巨大的挑战,许多统计学方法都有很高的计算复杂度。

o机器学习

▪概念:计算机如何基于数据学习(或提高他们的性能),主要研究领域是计算机基于数据自动地学习识别复杂的模式,并做出智能的决

断。

▪类型

•监督学习:类似于分类,学习中的监督来自训练数据集中标记的实例

•无监督学习:类似于聚类,输入额实例没有标记

•半监督学习:在学习模型时,使用标记的和未标记的实例

•主动学习:让用户在学习过程中扮演主动角色

▪对于分类和聚类任务,机器学习研究通常关注模型的准确率。除准确率以外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和

可伸缩性,以及处理复杂数据类型的办法,开发新的、非传统的方

法。

o数据挖掘应用领域:商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆和数字政府

o数据挖掘主要问题

▪挖掘方法

•挖掘各种新的知识类型

•挖掘多维空间中的知识

•数据挖掘——跨学科的努力

•提升网络环境下的发现能力

•处理不确定性数据、噪声或不完全数据

•模式评估和模式约束指导的挖掘

▪用户界面

•交互挖掘

相关文档
最新文档