数据挖掘概念与技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘概念与技术
•数据挖掘概述
o数据挖掘概念
▪从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息储存库或动态流入系统的数据
▪从数据中挖掘知识、数据中的知识发现(KDD)
o知识发现过程
▪(1)数据清理:消除噪声和删除不一致数据
▪(2)数据集成:多种数据源可以组合在一起
▪(3)数据选择:从数据中提取与分析与任务相关的数据
▪(4)数据变换:通过汇总和聚集操作,把数据变换和统一成适合挖掘的形式
▪(5)数据挖掘:基本步骤,使用智能方法提取数据模式
▪(6)模式评估:根据某种兴趣度量,识别代表知识的真正有趣的模式
▪(7)知识表示:使用可视化和知识表示技术,向用户提供可挖掘的知识
o数据收集和数据库创建(20世纪60年代或更早)原始文件处理
▪数据库管理系统(20世纪70年代-80年代初期)
•高级数据库系统(20世纪80年代中期-现在)
•高级数据分析(20世纪80年代后期-现在)
o数据挖掘的数据类型
▪数据库系统
•组成
o内部相关的数据(数据库)
o管理和存取数据的软件程序
▪定义数据库结构和数据储存,说明和管理并
发、共享或分布式数据访问,面对系统瘫痪和
未授权的访问,确保信息的一致性和安全性•关系数据库是表的汇集,每个表都被赋予一个唯一的名字
•关系表中每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述
•每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)
•通常为关系数据库构建语义数据模型,如实体—联系(ER)数据模型
▪数据仓库
•数据仓库是一个从多个数据源收集信息的信息储存库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数
据清理、数据变换、数据集成、数据装入和定期数据刷新来构
造。
▪事务数据
•一般地,事务数据库的每个记录代表一个事务,如顾客的一次购物,一个航班订票。一个事务包含一个唯一的事务标识号
(TransID),以及一个组成事务的项(如购买的商品)的列
表。事务数据库可能有一些与之相关的附加表,包含事务的其
他信息,如商品描述。
▪其他类型的数据
•时间相关或序列数据(历史记录、时间序列数据)、数据流(视频监控,它们连续播放)、空间数据(地图)、工程设计数
据(建筑数据、集成电路)、超文本和多媒体数据(文本、图
像)、图和网状数据(如社会信息网络)、万维网、特殊语义
(次序、音视频内容、连接性)以及挖掘具有丰富结构和语义
的模式
o数据挖掘功能
▪(1)特征化与区分
•数据特征化:一般地汇总所研究类(目标类)的数据
o基于统计度量和图的简单数据汇总
o OLAP上卷
o面向属性的归纳技术
•数据区分:将目标类与一个或者多个比较类(对比类)进行比较
o通过区分规则进行比较度量
▪(2)频繁模式
•频繁项集
•频繁子序列(序列模式)
•频繁子结构
▪(3)关联和相关性挖掘
•单维关联规则:包含单个谓词的关联规则
•多维关联规则:涉及多个属性或谓词的关联
▪(4)分类与回归
•分类
o概念:找出描述和区分数据类或概念的模型(或函
数),以便能够使用模型预测类标号未知的对象的类标
点
o方法
▪分类规则(IF-THEN规则)
▪决策树:类似于流程图的树结构、其中每个节
点代表一个属性值上的测试,每个分支代表测
试的一个结果,而树叶代表类或类分布
▪数学公式
▪类似于神经元的处理单元,单元之间加权连接
▪朴素贝叶斯分类、支持向量机、K最邻近分类•回归:用来预测缺失的或难以获得的数值数据值,也包含基于可用数据的分布趋势识别。
•相关分析在分类和回归之前进行,它试图识别分类和回归过程显著相关的属性
▪(5)聚类分析
•概念:对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。对象的簇这样形成,使得相比之下在同一个
簇中的对象具有很高的相似性,而与其他簇中的对象很不相
似。所形成的每个簇都可以看作一个对象类,由它可以导出规
则。聚类也便于分类化形成,即将观测组织成类分层结构,把
类似的事件组织在一起。
▪(6)离群点分析
•概念:找出数据集中与数据的一般行为或模型不一致的数据对象
o统计与数据挖掘
▪统计学研究数据的收集、分析、解释和表示,数据挖掘与统计学有天然的联系。
▪统计模型是一组数学函数、它们用随机变量及其概率分布刻画目标类对象的行为
▪(1)统计模型可以是数据挖掘任务的结果,数据挖掘任务也可以建立在统计模型之上,于是,在大数据集中挖掘模式时,数据挖掘过程可
以使用该模型来帮助识别数据中的噪声和缺失值。
▪(2)统计学研究开发一些数据和统计模型进行预测和预报的工具,对于从数据中挖掘各类模式,以及理解产生和影响这些模式的潜在机
制,统计学是有用的。
▪(3)统计方法也可以用来验证数据挖掘结果,例如:建立分类或预测模型之后,应该使用统计假设检验来验证模型。
▪在数据挖掘中使用统计方法并不简单,如何把统计学方法用于大型数据集是一个巨大的挑战,许多统计学方法都有很高的计算复杂度。
o机器学习
▪概念:计算机如何基于数据学习(或提高他们的性能),主要研究领域是计算机基于数据自动地学习识别复杂的模式,并做出智能的决
断。
▪类型
•监督学习:类似于分类,学习中的监督来自训练数据集中标记的实例
•无监督学习:类似于聚类,输入额实例没有标记
•半监督学习:在学习模型时,使用标记的和未标记的实例
•主动学习:让用户在学习过程中扮演主动角色
▪对于分类和聚类任务,机器学习研究通常关注模型的准确率。除准确率以外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和
可伸缩性,以及处理复杂数据类型的办法,开发新的、非传统的方
法。
o数据挖掘应用领域:商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆和数字政府
o数据挖掘主要问题
▪挖掘方法
•挖掘各种新的知识类型
•挖掘多维空间中的知识
•数据挖掘——跨学科的努力
•提升网络环境下的发现能力
•处理不确定性数据、噪声或不完全数据
•模式评估和模式约束指导的挖掘
▪用户界面
•交互挖掘