数据仓库之概念描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据立方体方法 基于属性的归纳方法
路漫漫其悠远
1.数据立方体方法
利用数据立方体方法进行数据 概化,被分析的数据存放在一个多 维数据库中,通过对多维数据立方 进行上卷或下钻操作,可完成数据 概化和数据细化工作。
路漫漫其悠远
1.数据立方体方法(续)
数据立方体提供了一种有效的数据概化 方法,且构成了描述性数据挖掘中一个重要 功能。但由于OLAP的数据立方实现是将维的 类型限制在简单非数值类型,且将处理限制 在简单数据汇总方面,因此数据立方体并不 能解决概念描述所能解决的一些重要问题。 如:描述中应作用哪些维?概化过程应进行 到哪个抽象层次上?这些问题均是由用户负 责提供答案的。
上海市高安 路1250号
02162381960
3.83
路漫漫其悠远
2.基于属性归纳方法(续)
对已经准备好的数据,如百度文库进行基 于属性归纳?
AOI方法的第二步: 进行数据概化操作,可用两种方法
之一进行:属性删除,属性概化。
路漫漫其悠远
2.基于属性归纳方法(续)
属性删除基于如下规则:
若一个属性有许多不同数值,且(a) 该属性无法进行概化操作(如:没有定 义相应的概念分层),或(b)它的更高 层次概念是用其他属性描述的,则该属 性应当从数据集中删除。
7.1 概念描述基本知识
概念:通常指数据的汇集。 概念描述:是描述式数据挖掘最基本
形式,它以简洁汇总的形式描述给 定数据集,提供数据的有趣的一般 特性。
路漫漫其悠远
7.1 概念描述基本知识(续)
概念描述的组成: 特征化:提供了一个有关数据整体
的简洁清晰描述。(定性描述) 比较:提供了基于多组不同类数据
数据仓库之概念描述
路漫漫其悠远
2020/3/29
第七章 概念描述(续)
路漫漫其悠远
DB中存放大量细节性数据,而用户
通常希望以简洁的描述形式观察汇总的
数据集。这种描述可提供某类数据的概 貌以及与其他数据类的区别。此外,用
户希望方便灵活地以不同的粒度和从不 同的角度描述数据集。这种描述性数据 挖掘称为概念描述,它是数据挖掘的一 个重要部分。
2.基于属性归纳方法(续)
这取决于属性或应用,有的用户愿 意让属性留在较低的抽象层,而另一些 用户愿意将它们概化到较高的抽象层。 控制将属性概化到多高的抽象层通常是
相当主观的。该过程的控制称为属性概 化控制。
路漫漫其悠远
2.基于属性归纳方法(续)
若属性概化得“太高”,则导致过 分概化,产生的规则可能没有多少信息。
路漫漫其悠远
2.基于属性归纳方法
路漫漫其悠远
基本思想:
首先使用RDB查询收集任务相关的 数据;然后通过考察任务相关数据中每 个属性的不同值的个数,进行概化。数
据概化是通过属性删除或属性概化操作
来完成。通过合并相同行并累计它们相 应的个数。这自然就减少了概化后数据 集的大小,所获结果以图表、规则等多 种不同形式提供给用户。
2.基于属性归纳方法(续)
路漫漫其悠远
例1:从一个大学数据库的学生数据中 挖掘出研究生的一般特征。给定的属性 有:姓名、性别、专业、出生地、出生 日期、居住地、电话和GPA(平均等级 分)。
AOI方法的第一步:
利用DB查询语言从大学DB中将学生 数据抽取出来,然后指定一组与挖掘任 务相关的属性集。
路漫漫其悠远
初始工作关系:任务相关数据的集合
姓名 性别 专业 出生地 出生日 居住地
电话 GPA
王东海 男 李哲 男 汪燕 女
CS
合肥市
79.07.26
合肥市金寨 路65号
05513665678
3.67
CS
合肥市
80.12.08
合肥市芜湖 路186号
05513656012
3.70
PH
上海市
80.09.03
若属性概化没有达到“足够高的层 次”,则“亚概化”也同样可能使得到 的规则变得失去意义。
路漫漫其悠远
2.基于属性归纳方法(续)
属性概化基于如下规则:
若一个属性有许多不同数值,且该 属性存在一组概化操作,则可以选择一 个概化操作对该属性进行处理。
属性删除和属性概化两个规则都表
明,如果某属性有大量的不同值,应当 进行进一步概化。这就提出一个问题:
多大才算“属性具有大量不同值”?
路漫漫其悠远
的对比概念描述。(对比定性描述)
路漫漫其悠远
7.1 概念描述基本知识(续)
路漫漫其悠远
概念描述与数据概化密切相关。给
定存放在DB中的大量数据,能够以简洁 的形式在更一般的抽象层描述数据是很 有用的。允许数据集在多个抽象层概化, 便于考察数据的一般行为。
这种多维,多层数据概化类似于DW 中的多维数据分析。而概念描述类似于
路漫漫其悠远
如:出生地维由属性城市、省和国 家定义。在这些属性中,用户或许只考
虑了城市属性。为了对出生地进行概化 处理,就必须将出生地概化所涉及到的 其它属性包含进来。换句话说,系统自 动地包括省和国家作为相关属性,使得 城市可以在归纳过程中概化到较高的概 念层。
2.基于属性归纳方法(续)
另一方面,用户可能引进过多的属 性,如:指定所有的属性,这样大学DB 的所有属性都将包含在分析中,而有些 属性对有趣的描述是没有用的。
块的基础:多层特征化和比较。
路漫漫其悠远
第七章 概念描述
7.1 概念描述基本知识 7.2 数据概化与基于汇总的特征化 7.3 解析特征化—属性相关分析 7.4 挖掘概念比较—区分不同的类
路漫漫其悠远
7.2 数据概化与基于汇总的 特征化
数据概化是一个分析过程,它 将DB中与任务相关的大数据集从较 低的概念层抽象到较高的概念层。 对大量数据进行有效灵活的概化方 法主要有两种:
2.基于属性归纳方法(续)
路漫漫其悠远
由于数据挖掘查询通常只涉及DB的 一部分,选择相关的数据集不仅使得挖 掘更有效,而且与在整个DB挖掘相比, 能产生更有意义的规则。
对用户而言,指定挖掘的属性可能 比较困难。有时,用户只能选择少量他 感到可能重要的属性,而遗漏在描述中 可能起作用的其他属性。
2.基于属性归纳方法(续)
DW的OLAP。
7.1 概念描述基本知识(续)
大型数据库的概念描述和数据 仓库的OLAP有何差别?
概念描述可处理复杂的数据类型和 聚集。
概念描述是自动处理数据挖掘过程。
路漫漫其悠远
7.1 概念描述基本知识(续)
概念描述的方法包括多层概化、 汇总、特征化和比较。这些方法形
成实现数据挖掘的两个主要功能模
相关文档
最新文档