第5章概念描述特征化与比较
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Laura Lee …
Removed
M
M
F …
Retained
CS
ຫໍສະໝຸດ BaiduCS
Physics …
Vancouver,BC, Canada Montreal, Que, Canada
Seattle, WA, USA …
8-12-76
28-7-75
25-8-70 …
Sci,Eng, Country
Bus
Age range
Gender
M F …
Major
Science Science
…
Birth_region
Canada Foreign
…
Age_range
20-25 25-30
…
Residence
Richmond Burnaby
…
GPA
Very-good Excellent
…
Count
16 22 …
Birth_Region Canada
Gender
M
16
F
10
Total
26
Foreign
14 22 36
Total
30 32 62
导出概化的表示
交叉表:
直接将数据立方体结构影射到交叉表 条形图,饼图,曲线
量化特征规则:
将概化结果影射成量化特征规则
grad(x) male(x) birth_ region(x) "Canada"[t:53%]birth_ region(x) " foreign"[t:47%].
j 1
s
A上该划分的获得的信息增益定义为
Gain(A) I(s1,s 2,...,sm) E(A)
解析特征化:一个例子
gender
M F M F M F
major
Science Science Engineering Science Science Engineering
birth_country
from student where status in {“Msc”, “MBA”, “PhD” }
类描述:一个例子
Name
Gender Major Birth-Place Birth_date Residence
Phone # GPA
Initial Relation
Jim Woodman Scott Lachance
表达---概化关系
交叉表
属性相关分析
为什么?
哪些维要包含进来? 概化到哪个层次? 自动化和交互性 减少属性,提供容易理解的模式
什么?
对预处理数据的统计方法 适当和维与层次关联 概化分析和比较分析
属性相关分析
如何分析?
收集数据 概化分析 相关性分析
选择最相关的维和层次
birth_date, residence, phone#, gpa from student where status in “graduate”
对应 SQL 语句:
Select name, gender, major, birth_place, birth_date, residence, phone#, gpa
Canada Foreign Foreign Foreign Canada Canada
age_range gpa
20-25 Very_good 25-30 Excellent 25-30 Excellent 25-30 Excellent 20-25 Excellent 20-25 Excellent
面向属性归纳的类描述
在选择的维和层次上
OLAP 操作(如上钻,下卷)
熵与信息增益
S 包含 si 个 Ci 类样本 i = {1, …, m}
m
I( s1,s2,...,s m )
si log 2 si
i1 s
s
值为{a1,a2,…,av},属性为A的熵
E(A) v s1 j ... smjI( s1 j,..., smj )
3511 Main St., Richmond 345 1st Ave., Richmond
125 Austin Ave., Burnaby …
City
687-4598 3.67 253-9106 3.70
420-5232 3.83
…
…
Removed Excl, VG,..
Prime Generalized Relation
1989年首次提出 基本思想
使用关系数据库查询收集相关的数据 考察数据每个属性的不同值的个数,进行概化 概化可以通过属性删除,或者属性概化进行 与用户交互.
例子
DMQL: 描述了大学数据库毕业学生的情况
use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place,
对比类关系:未毕业学生 (=130)
解析特征化:一个例子
count
16 22 18 25 21 18
Candidate relation for Target class: Graduate students (=120)
gender major
birth_country
M Science Foreign
F
Business Canada
M Business Canada
F
Science Canada
M Engineering Foreign
F
Engineering Canada
age_range gpa
<20
Very_good
<20
Fair
<20
Fair
20-25 Fair
20-25 Very_good
<20
Excellent
count
18 20 22 24 22 24
概念描述:
能处理复杂数据类型的属性和它们的聚集 更加自动运行
OLAP:
简单的数据分析模型 用户控制运行
数据概化和基于汇总的特征化
数据概化
是一个将大的任务相关的数据集从较低的概念层抽象到 较高的概念层
1 2 3 4
5
方法: 数据立方体方法 面向属性的归纳方法
概念上的层次
面向属性归纳
第五章 概念描述:特征化与比较
什么是概念描述? 数据概化和基于汇总的特征化 解析特征化:属性相关分析 挖掘类比较:区分不同的类 在大型数据库中挖掘描述统计度量 讨论 小结
什么是概念描述?
概念描述 :
特征化: 提供给定数据的简洁汇总
比较: 提供两个或多个数据汇集的比较描述
概念描述与OLAP的比较
Removed
M
M
F …
Retained
CS
ຫໍສະໝຸດ BaiduCS
Physics …
Vancouver,BC, Canada Montreal, Que, Canada
Seattle, WA, USA …
8-12-76
28-7-75
25-8-70 …
Sci,Eng, Country
Bus
Age range
Gender
M F …
Major
Science Science
…
Birth_region
Canada Foreign
…
Age_range
20-25 25-30
…
Residence
Richmond Burnaby
…
GPA
Very-good Excellent
…
Count
16 22 …
Birth_Region Canada
Gender
M
16
F
10
Total
26
Foreign
14 22 36
Total
30 32 62
导出概化的表示
交叉表:
直接将数据立方体结构影射到交叉表 条形图,饼图,曲线
量化特征规则:
将概化结果影射成量化特征规则
grad(x) male(x) birth_ region(x) "Canada"[t:53%]birth_ region(x) " foreign"[t:47%].
j 1
s
A上该划分的获得的信息增益定义为
Gain(A) I(s1,s 2,...,sm) E(A)
解析特征化:一个例子
gender
M F M F M F
major
Science Science Engineering Science Science Engineering
birth_country
from student where status in {“Msc”, “MBA”, “PhD” }
类描述:一个例子
Name
Gender Major Birth-Place Birth_date Residence
Phone # GPA
Initial Relation
Jim Woodman Scott Lachance
表达---概化关系
交叉表
属性相关分析
为什么?
哪些维要包含进来? 概化到哪个层次? 自动化和交互性 减少属性,提供容易理解的模式
什么?
对预处理数据的统计方法 适当和维与层次关联 概化分析和比较分析
属性相关分析
如何分析?
收集数据 概化分析 相关性分析
选择最相关的维和层次
birth_date, residence, phone#, gpa from student where status in “graduate”
对应 SQL 语句:
Select name, gender, major, birth_place, birth_date, residence, phone#, gpa
Canada Foreign Foreign Foreign Canada Canada
age_range gpa
20-25 Very_good 25-30 Excellent 25-30 Excellent 25-30 Excellent 20-25 Excellent 20-25 Excellent
面向属性归纳的类描述
在选择的维和层次上
OLAP 操作(如上钻,下卷)
熵与信息增益
S 包含 si 个 Ci 类样本 i = {1, …, m}
m
I( s1,s2,...,s m )
si log 2 si
i1 s
s
值为{a1,a2,…,av},属性为A的熵
E(A) v s1 j ... smjI( s1 j,..., smj )
3511 Main St., Richmond 345 1st Ave., Richmond
125 Austin Ave., Burnaby …
City
687-4598 3.67 253-9106 3.70
420-5232 3.83
…
…
Removed Excl, VG,..
Prime Generalized Relation
1989年首次提出 基本思想
使用关系数据库查询收集相关的数据 考察数据每个属性的不同值的个数,进行概化 概化可以通过属性删除,或者属性概化进行 与用户交互.
例子
DMQL: 描述了大学数据库毕业学生的情况
use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place,
对比类关系:未毕业学生 (=130)
解析特征化:一个例子
count
16 22 18 25 21 18
Candidate relation for Target class: Graduate students (=120)
gender major
birth_country
M Science Foreign
F
Business Canada
M Business Canada
F
Science Canada
M Engineering Foreign
F
Engineering Canada
age_range gpa
<20
Very_good
<20
Fair
<20
Fair
20-25 Fair
20-25 Very_good
<20
Excellent
count
18 20 22 24 22 24
概念描述:
能处理复杂数据类型的属性和它们的聚集 更加自动运行
OLAP:
简单的数据分析模型 用户控制运行
数据概化和基于汇总的特征化
数据概化
是一个将大的任务相关的数据集从较低的概念层抽象到 较高的概念层
1 2 3 4
5
方法: 数据立方体方法 面向属性的归纳方法
概念上的层次
面向属性归纳
第五章 概念描述:特征化与比较
什么是概念描述? 数据概化和基于汇总的特征化 解析特征化:属性相关分析 挖掘类比较:区分不同的类 在大型数据库中挖掘描述统计度量 讨论 小结
什么是概念描述?
概念描述 :
特征化: 提供给定数据的简洁汇总
比较: 提供两个或多个数据汇集的比较描述
概念描述与OLAP的比较