数据仓库与数据挖掘PPT第4章 数据挖掘概述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 按挖掘的知识类型分类
按挖掘的知识类型分类主要有关联规则、特征规则、 分类规则、偏差规则、聚集规则、判别式规则及时序规则 等类型。
按知识的抽象层次可分为归纳知识、原始级知识、多 层次知识。
3. 按利用的技术类型分类
按数据挖掘方式分类主要有自发知识挖掘、数据驱动 挖掘、查询驱动挖掘和交互式数据挖掘。
按数据挖掘途径可分为基于归纳的挖掘、基于模式的 挖掘、基于统计和数学理论的挖掘及集成挖掘等。
4. 按挖掘的深度分类
在较浅的层次上,利用现有数据库管理系统的查询及 报表功能,与多维分析、统计分析方法相结合,进行OLAP, 从而得出可供决策参考的统计分析数据。
在深层次上,从数据库中发现前所未知的、隐含的知 识。
4.1.8 数据挖掘的应用
1. 科学研究中的数据挖掘 2. 市场营销的数据挖掘 3. 金融数据分析的数据挖掘 4. 电信业的数据挖掘 5. 产品制造中的数据挖掘 6. Internet应用中的数据挖掘 ……
• 数据挖掘在电信行业的应用:
❶ 如何发现电信客户的特征和分类 ❷如何预测哪些即将流失的客户 ❸ 如何评价客户的贡献价值 ❹如何判断客户的欺诈行为特征 ❺如何发掘我的潜在客户 ❻如何对欠费/坏账进行预测和控制 ❼大客户的消费行为特征是什么,人口统计学特征是什么 ❽如何知道公司未来一段时间收入情况,及某一收入因子对整个收入的影 响指数 ……还有更多
4.1.2 数据挖掘的知识表示
1. 规则
规则知识由前提条件和结论两部分组成,前提条件由字 段(或属性)的取值的合取(与,AND,∧)析取(或,OR, ∨)组合而成,结论为决策字段(或属性)的取值或者类别 组成。
如:if A=a ∧ B=b then C=c,或者A(a) AND B(b) → C(c)。
4. 数据挖掘系统怎样解释与评价模式
一个数据挖掘系统可以挖掘出数以千计的模式,并非 所有的模式都是用户感兴趣的。
因此数据挖掘系统应该提供帮助用户评估模式的功能, 目前常用的手段是通过用户设置兴趣度阈值来选择感兴趣 的模式,没有兴趣度度量,挖掘出来的有用模式很可能会 淹没在用户不感兴趣的模式中。
下面介绍四种兴趣度的客观度量方法,所谓客观的是指 根据模式的结构和统计,用一个阈值来判断某个模式是不是 用户感兴趣的。
2. 决策树
决策树采用树的形式表示知识,叶子结点表示结论属 性的类别,非叶子结点表示条件属性,每个非叶子结点引 出若干条分支线,表示该条件属性的各种取值。
一棵决策树可以转换成若干条规则。
a1
B
b1
b2
D=d1
D=d2
A
a2
a3
D=d3
C
c1
c2
D=d4
D=d5
if A=a1 ∧ B=b1 then D=d1 if A=a1 ∧ B=b2 then D=d2 if A=a2 then D=d3 if A=a3 ∧ C=c1 then D=d4 if A=a3 ∧ C=c2 then D=d5
4.1.7 数据挖掘与数据仓库及OLAP的关系
1. 数据挖掘与数据仓库的关系
融合和互补的关系: 数据仓库中的数据可以作为数据挖掘的数据源 数据挖掘的数据源不一定必须是数据仓库(预处理)
共同之处: 都是从数据库的基础上发展起来的,它们 都是决策支持新技术
2. 数据挖掘与OLAP的关系
相同点: 数据挖掘与OLAP都是数据分析工具。
2. 数据挖掘系统怎样指定目标数据集
指定目标数据集就是说明与数据挖掘任务相关的数据、 用户感兴趣的数据或者要进行挖掘的数据。
3. 数据挖掘系统怎样指定数据挖掘任务
指定数据挖掘任务就是说明用户感兴趣的知识类型或 者要挖掘得到的知识类型。
目前,知识类型包括特征规则、比较规则、分类规则、 关联规则、聚类规则和预测规则等。
3. 知识基
通过数据挖掘原表中的冗余属性和冗余记录,得到对 应的浓缩数据,称为知识基。它是原表的精华,很容易转 换成规则知识。
A BCD
a1
b1 - d1
a1
b2 - d2
a2
--
d3
a3
-
c1
d4
a3
-
c2
d5
if A=a1 ∧ B=b1 then D=d1 if A=a1 ∧ B=b2 then D=d2 if A=a2 then D=d3 if A=a3 ∧ C=c1 then D=d4 if A=a3 ∧ C=c2 then D=d5
buy(computer)→buy(software) 关联规则表示顾客购买计算机和软件之间的关联关 系。 时序分析:与关联分析不同,时序分析产生的时序 序列是一种与时间相关的纵向联系。例如今天银行 调整利率,明天股市的变化。
分类:按照分析对象的属性、特征,建立不同的组类来描 述事物。例如银行部门根据以前的数据将客户分成了不同 的类别,现在就可以根据这些来区分新申请贷款的客户, 以采取相应的贷款方案。
• 归纳必须以演绎为指导.
• 人们在为归纳作准备而搜集经验材料时,必须以一定的理论原则为 指导,才能按照确定的方向,有目的地进行搜集,否则会迷失方向.
• 归纳和演绎相互渗透和转化.
• 思维过程中,归纳和演绎并不是绝对分离的,在同一思维过程中,既 有归纳又有演绎,归纳与演绎相互连结、相互渗透,相互转化
• 在归纳推理时,大脑首先注意到若干不同的事务(思想、 事件、事实)具有共性、共同点,然后将其归类到同一 个组中,并说明其共性。
• 归纳法和演绎法在认识论中的辩证关系:归纳法是由认 识个别到认识一般;演绎法是由认识一般进而认识个别.
• 演绎必须以归纳为基础.
• 人们先运用归纳的方法,将个别事物概括出一般原理,演绎才能从 这一般原理出发.演绎是以归纳所得出的结论为前提的,没有归纳 就没有演绎.
4.2.1 数据挖掘系统的结构
用户界面
模式评估
数据挖掘引擎 数据库或数据仓库
服库
……
其他
4.2.2 数据挖掘系统的设计
1. 数据挖掘系统怎样与数据源系统的集成
不耦合:是指数据挖掘系统不利用数据源系统的任何 功能; 松散耦合:是指利用数据源系统的某些功能。 半紧密耦合:是指将数据挖掘系统连接到数据源系统, 在数据源系统中实现并存储一些基本数据挖掘计算和 中间结果; 紧密耦合:是指数据挖掘系统平滑地集成到数据源系 统,数据挖掘系统作为数据源系统的一个功能组件, 数据挖掘任务根据数据源系统的功能进行优化与实现。
聚类:识别出分析对像内在的规则,按照这些规则把对 象分成若干类。例如将申请人分为高度风险申请者,中 度风险申请者,低度风险申请者。
预测:把握分析对象发展的规律,对未来的趋势做出预 见。例如对未来经济发展的判断。
4.1.4 数据挖掘的发展
数据挖掘一词是在1989年8月于美国底特律市召开的第十 一界国际联合人工智能学术会议上正式形成的。
归纳起来有这样几种观点:
将KDD看成数据挖掘的一个特例;
认为KDD与数据挖掘含义相同。
无论哪种观点都认为数据挖掘是KDD的核心。
4.1.5 数据挖掘的对象
1. 关系数据库 2. 数据仓库 3. 事务数据库 4. 高级数据库 ……
4.1.6 数据挖掘的分类
1. 按数据库类型分类
从关系数据库中发现知识 从面向对象数据库中发现知识 从多媒体数据库中发现知识 从空间数据库中发现知识 从历史数据库中发现知识 从Web数据库中发现知识
不同点:
数据挖掘是挖掘型的,建立在各种数据源的基础上, 重在发现隐藏在数据深层次的对人们有用的模式, 并做出有效的预测性分析。
OLAP是验证型的,OLAP更多地依靠用户输入问题 和假设,建立在多维数据的基础之上 。
• OLAP是决策支持领域的一部分。传统的查询和报表工具是 告诉你数据库中都有什么(what happened),OLAP则更进 一步告诉你下一步会怎么样(What next)、和如果我采取 这样的措施又会怎么样(What if)。用户首先建立一个假 设,然后用OLAP检索数据库来验证这个假设是否正确。
• 数据挖掘是一门跨多个领域的交叉学科,通常与人工智能、模式识别及 计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专 家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
• 其特点为:海量数据寻知识、集成变换度量值、分析模式评效果、图形 界面来展示。
从大量数据中挖掘出有用的知识
1995年开始,每年主办一次KDD(Knowledge Discovery in Database)和DM的国际学术会议,将KDD和DM方面的研究 推向了高潮,从此,“数据挖掘”一词开始流行。在中文文 献中,DM有时还被翻译为数据采掘、数据开采、知识提取、 数据考古等。
数据挖掘常常与KDD混用,关于两者的关系,有许多不 同的看法。
4第4章数据挖掘概述41什么是数据挖掘从技术角度看数据挖掘datamining简称dm是从大量的不完全的有噪声的模糊的随机的实际数据411数据挖掘的定义从大量的不完全的有噪声的模糊的随机的实际数据中提取隐含在其中的人们所不知道的但又是潜在有用的信息和知识的过程
第4章 数据挖掘概述
• 面对山一样高的,
4. 网络权值 神经网络方法得到的知识是一个网络结构和各边的
权值,这组网络权值表示对应的知识。
4.1.3 数据挖掘的主要任务
根据发现知识的不同,可以将数据挖掘的任务归纳为
以下几类:
关联分析:关联是某种事物发生时其他事物会发生 的这样一种联系。例如每天购买啤酒的人也有可能 购买香烟,比重有多大,可以通过关联的支持度和 置信度来描述。关联分析的目的是挖掘隐藏在数据 间的满足一定条件的关联关系,如:
简洁性 确定性 实用性 新颖性
5. 数据挖掘系统怎样利用领域知识
在数据挖掘中,领域知识可以指导数据挖掘过程及模式 的评估。
最多的领域知识是概念分层,利用它可以进行数据概化 和数据归约,提高挖掘效率。领域知识一般由系统用户、领 域专家提供。
6. 数据挖掘系统怎样呈现知识
数据挖掘的结果需要呈现给用户,因此数据挖掘系统 应该提供多种直观、易于理解的知识表示功能。
通常采用图、表等可视化方式将结果提交给用户,有 时还需要提供交互功能,便于用户指导进一步挖掘。
由于数据挖掘功能的复杂性和灵活性,数据挖掘系统通常 采用提供一种数据挖掘查询语言来满足上述要求。
例如,DBMiner系统就提供了一套较完整的类似于SQL的 数据挖掘查询语言DMQL,使用这个语言,用户可以定义数据 挖掘任务和相关数据,又可以与数据挖掘系统交互进行交互式 挖掘。
海一样广的数据, 我们该怎么办?
• 数据挖掘中的5W问题
❶为什么要使用数据挖掘? ❷数据挖掘是什么? ❸谁在使用数据挖掘? ❹数据挖掘有哪些方法? ❺数据挖掘使用在哪些领域?
第4章 数据挖掘概述
4.1 什么是数据挖掘 4.2 数据挖掘系统 4.3 数据挖掘过程 4.4 数据挖掘的未来展望
4.1.1 数据挖掘的定义• 百科中关于数据挖掘的定义如下:• 数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。 • 它是数据库知识发现(英语:Knowledge-Discovery in Databases,简 称:KDD)中的一个步骤。
• 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
• OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推 翻这些假设来最终得到自己的结论。
• 数据挖掘不是用于验证某个假定的模式的正确性,而是在数 据库中自己寻找模型。
• 演绎推理是一种必然性推理,推理的前提是一般,推出的 结论是个别,一般中概括了个别。
• 事物有共性,必然蕴藏着个别,所以“一般”中必然能够推演出 “个别”,而推演出来的结论是否正确,取决于:大前提是否真 确,推理是否合乎逻辑。
• 数据挖掘是一个工具,它不会一直监视着数据库。他仍 然需要了解你的业务,理解你的数据,弄清分析方法。 数据挖掘只是帮助商业人士更深入、更容易的分析数据 -- 他无法告诉你某个模型对你的企业的实际价值。而且 数据挖掘中得到的模型必须要在现实生活中进行验证。
• 数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出 来的结论采取行动之前,你也许要验证一下如果采取这 样的行动会给公司带来什么样的影响,那么OLAP工具能 回答你的这些问题。
从技术角度看,数据挖掘(Data Mining,简称DM)是 从大量的、不完全的、有噪声的、模糊的、随机的实际数据 中,提取隐含在其中的、人们所不知道的、但又是潜在有用 的信息和知识的过程。
从商业应用角度看,数据挖掘是一种崭新的商业信息处 理技术,其主要特点是对商业数据库中的大量业务数据进行 抽取、转化、分析和模式化处理,从中提取辅助商业决策的 关键知识。