数据仓库之概念描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据立方体方法 基于属性的归纳方法
路漫漫其悠远
1.数据立方体方法
利用数据立方体方法进行数据 概化,被分析的数据存放在一个多 维数据库中,通过对多维数据立方 进行上卷或下钻操作,可完成数据 概化和数据细化工作。
路漫漫其悠远
1.数据立方体方法(续)
数据立方体提供了一种有效的数据概化 方法,且构成了描述性数据挖掘中一个重要 功能。但由于OLAP的数据立方实现是将维的 类型限制在简单非数值类型,且将处理限制 在简单数据汇总方面,因此数据立方体并不 能解决概念描述所能解决的一些重要问题。 如:描述中应作用哪些维?概化过程应进行 到哪个抽象层次上?这些问题均是由用户负 责提供答案的。
上海市高安 路1250号
02162381960
3.83
路漫漫其悠远
2.基于属性归纳方法(续)
对已经准备好的数据,如百度文库进行基 于属性归纳?
AOI方法的第二步: 进行数据概化操作,可用两种方法
之一进行:属性删除,属性概化。
路漫漫其悠远
2.基于属性归纳方法(续)
属性删除基于如下规则:
若一个属性有许多不同数值,且(a) 该属性无法进行概化操作(如:没有定 义相应的概念分层),或(b)它的更高 层次概念是用其他属性描述的,则该属 性应当从数据集中删除。
7.1 概念描述基本知识
概念:通常指数据的汇集。 概念描述:是描述式数据挖掘最基本
形式,它以简洁汇总的形式描述给 定数据集,提供数据的有趣的一般 特性。
路漫漫其悠远
7.1 概念描述基本知识(续)
概念描述的组成: 特征化:提供了一个有关数据整体
的简洁清晰描述。(定性描述) 比较:提供了基于多组不同类数据
数据仓库之概念描述
路漫漫其悠远
2020/3/29
第七章 概念描述(续)
路漫漫其悠远
DB中存放大量细节性数据,而用户
通常希望以简洁的描述形式观察汇总的
数据集。这种描述可提供某类数据的概 貌以及与其他数据类的区别。此外,用
户希望方便灵活地以不同的粒度和从不 同的角度描述数据集。这种描述性数据 挖掘称为概念描述,它是数据挖掘的一 个重要部分。
2.基于属性归纳方法(续)
这取决于属性或应用,有的用户愿 意让属性留在较低的抽象层,而另一些 用户愿意将它们概化到较高的抽象层。 控制将属性概化到多高的抽象层通常是
相当主观的。该过程的控制称为属性概 化控制。
路漫漫其悠远
2.基于属性归纳方法(续)
若属性概化得“太高”,则导致过 分概化,产生的规则可能没有多少信息。
路漫漫其悠远
2.基于属性归纳方法
路漫漫其悠远
基本思想:
首先使用RDB查询收集任务相关的 数据;然后通过考察任务相关数据中每 个属性的不同值的个数,进行概化。数
据概化是通过属性删除或属性概化操作
来完成。通过合并相同行并累计它们相 应的个数。这自然就减少了概化后数据 集的大小,所获结果以图表、规则等多 种不同形式提供给用户。
2.基于属性归纳方法(续)
路漫漫其悠远
例1:从一个大学数据库的学生数据中 挖掘出研究生的一般特征。给定的属性 有:姓名、性别、专业、出生地、出生 日期、居住地、电话和GPA(平均等级 分)。
AOI方法的第一步:
利用DB查询语言从大学DB中将学生 数据抽取出来,然后指定一组与挖掘任 务相关的属性集。
路漫漫其悠远
初始工作关系:任务相关数据的集合
姓名 性别 专业 出生地 出生日 居住地
电话 GPA
王东海 男 李哲 男 汪燕 女
CS
合肥市
79.07.26
合肥市金寨 路65号
05513665678
3.67
CS
合肥市
80.12.08
合肥市芜湖 路186号
05513656012
3.70
PH
上海市
80.09.03
若属性概化没有达到“足够高的层 次”,则“亚概化”也同样可能使得到 的规则变得失去意义。
路漫漫其悠远
2.基于属性归纳方法(续)
属性概化基于如下规则:
若一个属性有许多不同数值,且该 属性存在一组概化操作,则可以选择一 个概化操作对该属性进行处理。
属性删除和属性概化两个规则都表
明,如果某属性有大量的不同值,应当 进行进一步概化。这就提出一个问题:
多大才算“属性具有大量不同值”?
路漫漫其悠远
的对比概念描述。(对比定性描述)
路漫漫其悠远
7.1 概念描述基本知识(续)
路漫漫其悠远
概念描述与数据概化密切相关。给
定存放在DB中的大量数据,能够以简洁 的形式在更一般的抽象层描述数据是很 有用的。允许数据集在多个抽象层概化, 便于考察数据的一般行为。
这种多维,多层数据概化类似于DW 中的多维数据分析。而概念描述类似于
路漫漫其悠远
如:出生地维由属性城市、省和国 家定义。在这些属性中,用户或许只考
虑了城市属性。为了对出生地进行概化 处理,就必须将出生地概化所涉及到的 其它属性包含进来。换句话说,系统自 动地包括省和国家作为相关属性,使得 城市可以在归纳过程中概化到较高的概 念层。
2.基于属性归纳方法(续)
另一方面,用户可能引进过多的属 性,如:指定所有的属性,这样大学DB 的所有属性都将包含在分析中,而有些 属性对有趣的描述是没有用的。
块的基础:多层特征化和比较。
路漫漫其悠远
第七章 概念描述
7.1 概念描述基本知识 7.2 数据概化与基于汇总的特征化 7.3 解析特征化—属性相关分析 7.4 挖掘概念比较—区分不同的类
路漫漫其悠远
7.2 数据概化与基于汇总的 特征化
数据概化是一个分析过程,它 将DB中与任务相关的大数据集从较 低的概念层抽象到较高的概念层。 对大量数据进行有效灵活的概化方 法主要有两种:
2.基于属性归纳方法(续)
路漫漫其悠远
由于数据挖掘查询通常只涉及DB的 一部分,选择相关的数据集不仅使得挖 掘更有效,而且与在整个DB挖掘相比, 能产生更有意义的规则。
对用户而言,指定挖掘的属性可能 比较困难。有时,用户只能选择少量他 感到可能重要的属性,而遗漏在描述中 可能起作用的其他属性。
2.基于属性归纳方法(续)
DW的OLAP。
7.1 概念描述基本知识(续)
大型数据库的概念描述和数据 仓库的OLAP有何差别?
概念描述可处理复杂的数据类型和 聚集。
概念描述是自动处理数据挖掘过程。
路漫漫其悠远
7.1 概念描述基本知识(续)
概念描述的方法包括多层概化、 汇总、特征化和比较。这些方法形
成实现数据挖掘的两个主要功能模
路漫漫其悠远
1.数据立方体方法
利用数据立方体方法进行数据 概化,被分析的数据存放在一个多 维数据库中,通过对多维数据立方 进行上卷或下钻操作,可完成数据 概化和数据细化工作。
路漫漫其悠远
1.数据立方体方法(续)
数据立方体提供了一种有效的数据概化 方法,且构成了描述性数据挖掘中一个重要 功能。但由于OLAP的数据立方实现是将维的 类型限制在简单非数值类型,且将处理限制 在简单数据汇总方面,因此数据立方体并不 能解决概念描述所能解决的一些重要问题。 如:描述中应作用哪些维?概化过程应进行 到哪个抽象层次上?这些问题均是由用户负 责提供答案的。
上海市高安 路1250号
02162381960
3.83
路漫漫其悠远
2.基于属性归纳方法(续)
对已经准备好的数据,如百度文库进行基 于属性归纳?
AOI方法的第二步: 进行数据概化操作,可用两种方法
之一进行:属性删除,属性概化。
路漫漫其悠远
2.基于属性归纳方法(续)
属性删除基于如下规则:
若一个属性有许多不同数值,且(a) 该属性无法进行概化操作(如:没有定 义相应的概念分层),或(b)它的更高 层次概念是用其他属性描述的,则该属 性应当从数据集中删除。
7.1 概念描述基本知识
概念:通常指数据的汇集。 概念描述:是描述式数据挖掘最基本
形式,它以简洁汇总的形式描述给 定数据集,提供数据的有趣的一般 特性。
路漫漫其悠远
7.1 概念描述基本知识(续)
概念描述的组成: 特征化:提供了一个有关数据整体
的简洁清晰描述。(定性描述) 比较:提供了基于多组不同类数据
数据仓库之概念描述
路漫漫其悠远
2020/3/29
第七章 概念描述(续)
路漫漫其悠远
DB中存放大量细节性数据,而用户
通常希望以简洁的描述形式观察汇总的
数据集。这种描述可提供某类数据的概 貌以及与其他数据类的区别。此外,用
户希望方便灵活地以不同的粒度和从不 同的角度描述数据集。这种描述性数据 挖掘称为概念描述,它是数据挖掘的一 个重要部分。
2.基于属性归纳方法(续)
这取决于属性或应用,有的用户愿 意让属性留在较低的抽象层,而另一些 用户愿意将它们概化到较高的抽象层。 控制将属性概化到多高的抽象层通常是
相当主观的。该过程的控制称为属性概 化控制。
路漫漫其悠远
2.基于属性归纳方法(续)
若属性概化得“太高”,则导致过 分概化,产生的规则可能没有多少信息。
路漫漫其悠远
2.基于属性归纳方法
路漫漫其悠远
基本思想:
首先使用RDB查询收集任务相关的 数据;然后通过考察任务相关数据中每 个属性的不同值的个数,进行概化。数
据概化是通过属性删除或属性概化操作
来完成。通过合并相同行并累计它们相 应的个数。这自然就减少了概化后数据 集的大小,所获结果以图表、规则等多 种不同形式提供给用户。
2.基于属性归纳方法(续)
路漫漫其悠远
例1:从一个大学数据库的学生数据中 挖掘出研究生的一般特征。给定的属性 有:姓名、性别、专业、出生地、出生 日期、居住地、电话和GPA(平均等级 分)。
AOI方法的第一步:
利用DB查询语言从大学DB中将学生 数据抽取出来,然后指定一组与挖掘任 务相关的属性集。
路漫漫其悠远
初始工作关系:任务相关数据的集合
姓名 性别 专业 出生地 出生日 居住地
电话 GPA
王东海 男 李哲 男 汪燕 女
CS
合肥市
79.07.26
合肥市金寨 路65号
05513665678
3.67
CS
合肥市
80.12.08
合肥市芜湖 路186号
05513656012
3.70
PH
上海市
80.09.03
若属性概化没有达到“足够高的层 次”,则“亚概化”也同样可能使得到 的规则变得失去意义。
路漫漫其悠远
2.基于属性归纳方法(续)
属性概化基于如下规则:
若一个属性有许多不同数值,且该 属性存在一组概化操作,则可以选择一 个概化操作对该属性进行处理。
属性删除和属性概化两个规则都表
明,如果某属性有大量的不同值,应当 进行进一步概化。这就提出一个问题:
多大才算“属性具有大量不同值”?
路漫漫其悠远
的对比概念描述。(对比定性描述)
路漫漫其悠远
7.1 概念描述基本知识(续)
路漫漫其悠远
概念描述与数据概化密切相关。给
定存放在DB中的大量数据,能够以简洁 的形式在更一般的抽象层描述数据是很 有用的。允许数据集在多个抽象层概化, 便于考察数据的一般行为。
这种多维,多层数据概化类似于DW 中的多维数据分析。而概念描述类似于
路漫漫其悠远
如:出生地维由属性城市、省和国 家定义。在这些属性中,用户或许只考
虑了城市属性。为了对出生地进行概化 处理,就必须将出生地概化所涉及到的 其它属性包含进来。换句话说,系统自 动地包括省和国家作为相关属性,使得 城市可以在归纳过程中概化到较高的概 念层。
2.基于属性归纳方法(续)
另一方面,用户可能引进过多的属 性,如:指定所有的属性,这样大学DB 的所有属性都将包含在分析中,而有些 属性对有趣的描述是没有用的。
块的基础:多层特征化和比较。
路漫漫其悠远
第七章 概念描述
7.1 概念描述基本知识 7.2 数据概化与基于汇总的特征化 7.3 解析特征化—属性相关分析 7.4 挖掘概念比较—区分不同的类
路漫漫其悠远
7.2 数据概化与基于汇总的 特征化
数据概化是一个分析过程,它 将DB中与任务相关的大数据集从较 低的概念层抽象到较高的概念层。 对大量数据进行有效灵活的概化方 法主要有两种:
2.基于属性归纳方法(续)
路漫漫其悠远
由于数据挖掘查询通常只涉及DB的 一部分,选择相关的数据集不仅使得挖 掘更有效,而且与在整个DB挖掘相比, 能产生更有意义的规则。
对用户而言,指定挖掘的属性可能 比较困难。有时,用户只能选择少量他 感到可能重要的属性,而遗漏在描述中 可能起作用的其他属性。
2.基于属性归纳方法(续)
DW的OLAP。
7.1 概念描述基本知识(续)
大型数据库的概念描述和数据 仓库的OLAP有何差别?
概念描述可处理复杂的数据类型和 聚集。
概念描述是自动处理数据挖掘过程。
路漫漫其悠远
7.1 概念描述基本知识(续)
概念描述的方法包括多层概化、 汇总、特征化和比较。这些方法形
成实现数据挖掘的两个主要功能模