第8章 数据泛化讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
City
Phone # GPA 687-4598 3.67
253-9106 3.70
420-5232 3.83
…
…
Removed Excl, VG,..
主概化关系
Gender
概化关系临界值控制:
为概化关系设置一个临界值,确定概化后的关系中, 不同元组的个数的最大值。(通常为10到30,应该允许在 实际应用中进行调整)
两种技术的顺序使用:
使用属性概化临界值控制来概化每个属性,然后使用
关系临界值控制进一步压缩概化的关系。
三、面向属性的归纳——示例
挖掘Big-University数据库中研究生的一般特征
概化(广义)关系临界值控制:如果概化关系中不同元 组的个数超过概化(广义)关系临界值,则应当进一步
概化。
1、数据聚焦
目的是获得跟任务相关的数据集,包括属性或维,在DMQL中 他们由in relevance to子句表示。
示例
获取Big-University数据库中研究生的数据 use Big_University_DB
City
687-4598 3.67 253-9106 3.70
420-5232 3.83
…
…
Removed Excl, VG,..
2、数据概化
name: 要被删除的属性,为什么? gender:保留该属性,不概化 major:根据概念分层向上攀升{文,理,工…} birth_place:根据概念分层location向上攀升 birth_date:概化为age,再概化为age_range residence:根据概念分层location向上攀升 phone#:删除属性 gpa:根据GPA的分级作为概念分层
1、初始工作关系
Name Gender Major Birth-Place Birth_date Residence Phone # GPA
Jim Woodman Scott Lachance
Laura Lee …
Removed
M
M
F …
Retained
CS Vancouver,BC, 8-12-76 Canada
3、得到概化关系
Name
Jim
初始工作
Woodman Scott
关系
Lachance
Laura Lee …
Removed
Gender M
M
F …
Retained
Major Birth-Place Birth_date
CS
CS
Physics …
Vancouver,BC, Canada Montreal, Que, Canada
Seattle, WA, USA …
8-12-76
28-7-75
25-8-70 …
Sci,Eng, Country
Bus
Age range
Residence
3511 Main St., Richmond 3wk.baidu.com5 1st Ave., Richmond
125 Austin Ave., Burnaby …
一、什么是数据泛化?
数据库中的数据和对象通常包含原始概念层的细节信息 ,数据泛化就是将数据库中数据集从较低的概念层抽象 到较高的概念层的过程。
用较高层次的概念来代替较低层次的概念 例如:用老、中、青分别代替(20-35,36-50,51-70
)的年龄区间值。
用省代替地市级的概念等
面向属性的归纳的基本步骤
属性概化的使用规则:如果初始工作关系中的某个属 性具有大量不同值,且该属性上存在概化操作符,则 使用该概化操作符对该属性进行数据概化操作。 什么 是“具有大量的不同值”? 要将属性概化到多高的抽 象层?
属性概化控制的两种常用方法: 属性概化临界值控制:对所有属性设置一个概化临 界值或者是对每个属性都分别设置一个临界值(一 般为2到8)
数据仓库与数据挖掘
第8章 数据泛化
2019/6/7
1
目录
7.1面向属性的归纳 7.2 挖掘类比较:区分不同的类 7.3 数据立方体中的数据分析探查方法
2
数据挖掘的分类
描述性挖掘:以简洁概要的方式描述
数据挖掘
数据,并提供数据的有意义的一般性质。
预测性数据挖掘:通过分析数据建立 描述性挖掘 一个或一组模型,并试图预测新数据集
CS Montreal, Que, 28-7-75 Canada
Physics Seattle, WA, USA 25-8-70
……
…
Sci,Eng, Country
Bus
Age range
3511 Main St., Richmond 345 1st Ave., Richmond
125 Austin Ave., Burnaby …
Select name, gender, major, birth_place, birth_date,
residence, phone#, gpa
from student To Science_Students where status in “graduate”
数据聚焦时可能存在的问题:
用户在指定相关的数据集方面存在困难,遗漏在描述中可能起作用 的属性 用户可能引进太多的属性
1、数据聚焦,获得初始数据关系 2、进行面向属性的归纳
基本操作是数据概化,对有大量不同值的属性,进行以下 操作: 属性删除 属性概化
属性概化控制:控制概化过程,确定有多少不同的值才算 是有大量不同值的属性
属性概化临界值控制:如果一个属性的不同值个数大于
属性概化临界值,则应当进一步删除或者概化该属性。
的行为。
概念描述
概念描述(泛化):为数据的特征化和比较 (泛化)
产生描述(当所描述的概念所指的是一类对
象时,也称为类描述)
特征化
特征化:提供给定数据集的简洁汇总。例如按 专业的成绩分布表
预测性挖掘 比较
区分:提供两个或多个数据集的比较描述。如 男生与女生的对比。
7.1面向属性的归纳
是一种数据泛化方法,可以从大量数据中找出其中 的一般性规律
2、数据概化
属性删除的适用规则:对初始工作关系中具有大量不同值 的属性,符合以下情况,应使用属性删除: 在此属性上没有概化操作符(比如该属性没有定义相关 的概念分层) 该属性的较高层概念用其他属性表示 如: name: 要被删除的属性,为什么? phone#:要被删除的属性
属性概化控制
Phone # GPA 687-4598 3.67
253-9106 3.70
420-5232 3.83
…
…
Removed Excl, VG,..
主概化关系
Gender
概化关系临界值控制:
为概化关系设置一个临界值,确定概化后的关系中, 不同元组的个数的最大值。(通常为10到30,应该允许在 实际应用中进行调整)
两种技术的顺序使用:
使用属性概化临界值控制来概化每个属性,然后使用
关系临界值控制进一步压缩概化的关系。
三、面向属性的归纳——示例
挖掘Big-University数据库中研究生的一般特征
概化(广义)关系临界值控制:如果概化关系中不同元 组的个数超过概化(广义)关系临界值,则应当进一步
概化。
1、数据聚焦
目的是获得跟任务相关的数据集,包括属性或维,在DMQL中 他们由in relevance to子句表示。
示例
获取Big-University数据库中研究生的数据 use Big_University_DB
City
687-4598 3.67 253-9106 3.70
420-5232 3.83
…
…
Removed Excl, VG,..
2、数据概化
name: 要被删除的属性,为什么? gender:保留该属性,不概化 major:根据概念分层向上攀升{文,理,工…} birth_place:根据概念分层location向上攀升 birth_date:概化为age,再概化为age_range residence:根据概念分层location向上攀升 phone#:删除属性 gpa:根据GPA的分级作为概念分层
1、初始工作关系
Name Gender Major Birth-Place Birth_date Residence Phone # GPA
Jim Woodman Scott Lachance
Laura Lee …
Removed
M
M
F …
Retained
CS Vancouver,BC, 8-12-76 Canada
3、得到概化关系
Name
Jim
初始工作
Woodman Scott
关系
Lachance
Laura Lee …
Removed
Gender M
M
F …
Retained
Major Birth-Place Birth_date
CS
CS
Physics …
Vancouver,BC, Canada Montreal, Que, Canada
Seattle, WA, USA …
8-12-76
28-7-75
25-8-70 …
Sci,Eng, Country
Bus
Age range
Residence
3511 Main St., Richmond 3wk.baidu.com5 1st Ave., Richmond
125 Austin Ave., Burnaby …
一、什么是数据泛化?
数据库中的数据和对象通常包含原始概念层的细节信息 ,数据泛化就是将数据库中数据集从较低的概念层抽象 到较高的概念层的过程。
用较高层次的概念来代替较低层次的概念 例如:用老、中、青分别代替(20-35,36-50,51-70
)的年龄区间值。
用省代替地市级的概念等
面向属性的归纳的基本步骤
属性概化的使用规则:如果初始工作关系中的某个属 性具有大量不同值,且该属性上存在概化操作符,则 使用该概化操作符对该属性进行数据概化操作。 什么 是“具有大量的不同值”? 要将属性概化到多高的抽 象层?
属性概化控制的两种常用方法: 属性概化临界值控制:对所有属性设置一个概化临 界值或者是对每个属性都分别设置一个临界值(一 般为2到8)
数据仓库与数据挖掘
第8章 数据泛化
2019/6/7
1
目录
7.1面向属性的归纳 7.2 挖掘类比较:区分不同的类 7.3 数据立方体中的数据分析探查方法
2
数据挖掘的分类
描述性挖掘:以简洁概要的方式描述
数据挖掘
数据,并提供数据的有意义的一般性质。
预测性数据挖掘:通过分析数据建立 描述性挖掘 一个或一组模型,并试图预测新数据集
CS Montreal, Que, 28-7-75 Canada
Physics Seattle, WA, USA 25-8-70
……
…
Sci,Eng, Country
Bus
Age range
3511 Main St., Richmond 345 1st Ave., Richmond
125 Austin Ave., Burnaby …
Select name, gender, major, birth_place, birth_date,
residence, phone#, gpa
from student To Science_Students where status in “graduate”
数据聚焦时可能存在的问题:
用户在指定相关的数据集方面存在困难,遗漏在描述中可能起作用 的属性 用户可能引进太多的属性
1、数据聚焦,获得初始数据关系 2、进行面向属性的归纳
基本操作是数据概化,对有大量不同值的属性,进行以下 操作: 属性删除 属性概化
属性概化控制:控制概化过程,确定有多少不同的值才算 是有大量不同值的属性
属性概化临界值控制:如果一个属性的不同值个数大于
属性概化临界值,则应当进一步删除或者概化该属性。
的行为。
概念描述
概念描述(泛化):为数据的特征化和比较 (泛化)
产生描述(当所描述的概念所指的是一类对
象时,也称为类描述)
特征化
特征化:提供给定数据集的简洁汇总。例如按 专业的成绩分布表
预测性挖掘 比较
区分:提供两个或多个数据集的比较描述。如 男生与女生的对比。
7.1面向属性的归纳
是一种数据泛化方法,可以从大量数据中找出其中 的一般性规律
2、数据概化
属性删除的适用规则:对初始工作关系中具有大量不同值 的属性,符合以下情况,应使用属性删除: 在此属性上没有概化操作符(比如该属性没有定义相关 的概念分层) 该属性的较高层概念用其他属性表示 如: name: 要被删除的属性,为什么? phone#:要被删除的属性
属性概化控制