粗糙集理论ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X U
©
第11章
粗糙集理论: 18
例11-1 设论域 U={e1,e2 ,e3 ,e4 ,e5 ,e6 ,e7 ,e8} ,U上的一族等价关系 R={R1,R2},R1和R2是两个等价关系。根据这两个等价关系可 以将论域U进行划分: U/R1 ={{e1 ,e2 ,e3 ,e4},{e5 ,e6 ,e7 ,e8}}和 U/R 2 ={{e1,e2},{e3 ,e4},{e5 ,e6 ,e7 ,e8}} 。 U/R1中的 {e1,e2 ,e3 ,e4} ,代表 [e1 ]R 的等价类。 论域U被R划分的基本等价类为: U/R ={{e1,e2},{e3 ,e4},{e5},{e6 ,e7 ,e8}} 集合 X={e2 ,e3 ,e6 ,e7 ,e8} 是U上的一个子集。则X无法用基本等价 类U/R的并集精确表示,所以X是U上的一个粗糙集合。故有: X的下近似集为: Pos(X)=R(X)={e ,e ,e } ; X的上近似集为: R(X)={e1,e2 ,e3,e4 ,e5 ,e6 ,e7 ,e8} ; X的负区域: NEGR (X)={e5} 。
©
第11章
粗糙集理论: 6
粗糙集的研究对象是由一个多值属性(特征、症状、 特性等)集合描述的一个对象(观察、病历等)集合, 对于每个对象及其属性都有一个值作为其描述符号, 对象、属性和描述符是表达决策问题的3个基本要 素。
©
第11章
粗糙集理论: 7
粗糙集理论逐渐应用于数据挖掘领域中,并在对大 型数据库中不完整数据进行分析和学习方面取得了 显著的成果,使得粗糙集理论及数据挖掘的研究成 为热点领域。最近几年,粗糙集理论越来越受到众 多研究人员的重视,它的应用研究得到了很大的发 展。
©
第11章
粗糙集理论: 15
11.1.3 上、下近似集
给定论域U,一族等价关系R将U划分为互不相交的 基本等价类U/R。令 XgU为R上的一个等价关系。 当能表达成某些基本等价类的并集时,称为可定义 的;否则称为不可定义的。R可定义集能在这个知 识库中被精确地定义,所以又称为R精确集。 R不可定义集不能在这个知识库中被精确定义,只 能通过集合逼近的方式来刻画,因此也称为R粗糙 集 (Roughset)。
定义11-6 设集合
,R是一个等价关系,称 RX={ x |x U |,且[x]R X } 为集合X的R下近似集; 称 RX={ x |x U |,且[x]R X} 为集合X的R上近似集; 称集合 BNR ( X ) RX RX 为X的R边界域; 称 POSR (X)=RX 为X的R正域; 称 NEGR (X)=U-RX 为X的R负域。
©
第11章
粗糙集理论: 9
集合上的等价关系和集合上的划分是一一对应,相 互唯一决定的。从数学意义上讲,集合上的等价关 系和集合的划分是等价的概念,即划分就是分类。
©
第11章
粗糙集理论: 10
定义11-1 设U 讨论的对象组成的有限集合,称为 论域(Universe),对于论域中由等价关系划分出来 的任意子集,都可以称为论域U中的一个概念 (concept)或范畴(category)。为规范起见,认为 空集必也是一个概念。论域U中的任意概念族称为 关于论域的抽象知识,它代表了对论域中个体的分 类,简称为知识。 定义11-2 K=(U,R)其中K为知识库,U为全体对象 的集合称为论域,R为论域U上的等价关系(等价关 系与分类的概念等同),它是一种属性或多种属性 的集合。可以根据不同的R对U进行不同形式的分类。 知识库也被称作近似空间。
©
第11章
粗糙集理论: 14
定义11-5 设U是一个论域,R是U上的等价关系, U/R表示U上由R导出的所有等价类。 [ x]R 表示包含元素x∈U的R等价类。一个知识库就是 一个关系系统K ={U ,P},其中U是论域,P是U上的 一个等价类簇。如果 Q P 且 Q ,则 Q (Q的 所有等价类的交也是一个等价关系),称Q为不可分 辨关系,记作IND(Q)。
©
第11章
粗糙集理论: 21
例11-2:表11.1是一个轿车信息决策表,条件属性 集为{e1,e2,e3,e4}分别代表价格、油耗、速度和安 全性,决策属性为d,表示质量。
©
第11章
粗糙集理论: 22
表11.1 轿车信息决策表
车型U
e1
e2
e3
e4
d
1
2 3 4 5
高
低 中
低
高 中
快
中 慢
好
1
6
7
8
©来自百度文库
第11章
粗糙集理论: 19
11.2知识表达
知识表达在智能数据处理中占有十分重要的地位。 在智能系统中,经常会碰到要处理的对象可能是用 语言方式表达,也可能使用数据表达;可能是精确 的数据,可能会有一些缺省的信息或者相互矛盾的 信息。 为了处理这些数据,我们需要进行知识的表达,即 知识表达系统。决策表是特殊的知识表达系统。
©
第11章
粗糙集理论: 25
定义11-9 若决策表T 中任意的dx≠dy,由dx | C = dy | C ,可得dx| D = dy| D ,则称决策规则dx 是一致的,否则,称决策规则dx 是不一致的。如果T 中每条决策规则都是一致的,则称决策表T 是一致的, 否则称决策表T是不一致的。 定义11-10 设T = ( U , P, C , D) 是决策表,如 果去掉条件属性Pi,得到的表T1 = ( U , P -{Pi} , C - {Pi} , D) 与表T 相比,有PosC ( D) = Pos ( D),则称属性Pi是关于D可省的,否则称属性Pi 是 关于D 不可省的, PosB (D) = Y U/IND(D)B(Y) 是D 关于B 的正区域,其中B (Y) = { X U/IND(B) : X Y} 。
©
第11章
粗糙集理论: 8
11.1.1 知识和知识库
知识是人类通过实践对客观世界的运动规律的 认识,是人类实践经验的总结和提炼,具有抽象和 普遍的特性。 从认知科学的观点来看,知识来源于人类对客 观事物的分类能力,概念是事物类别的描述或者符 号,知识则是概念之间的关系和联系。任何一个物 种都是由一些知识来描述与分类的,利用物种的不 同属性知识描述来产生对物种的不同分类。
©
第11章
粗糙集理论: 13
定义11-4 设R是非空集合U上的二元系,如果它 是自反的、对称的和可传递的,则称R为U上的等 (x,y) 价关系。若, R 则称x与y有关系,记 为 xRy ;若 (x,y) R ,则称x与y没有关系,记 _ 为x R y 。等价关系的一个重要特点是用它可以构 成U的一个划分。划分即是分类,将研究对象分成 不同的类,这些类之间互不相交,且每一对象均 包含在某一类中。
粗糙集理论: 12
©
第11章
11.1.2 不可分辨关系
在粗糙集理论中,“知识”被认为是一种分类的能 力。不可分辨关系的概念是粗糙集理论的基石,它 揭示出论域知识的颗粒状结构。假定关于论域的某 种知识,并使用属性和属性值来描述论域中的对象, 如果两个对象(或对象集合)具有相同的属性和属性 值,则它们之间具有不可分辨关系。
©
第11章
粗糙集理论: 20
11.2.1 知识表达系统
定义11-7 一个知识表达系统S可以定义为,其中U 为对象的集合,称为论域;=R为属性集合;子集C 和D分别称为条件属性和决策属性; 为属性值的集 合;表示了属性的属性值范围;是一个信息函数, 它指定了U中每一对象x的属性值。 知识表达系统的数据以关系表的形式表示,关系表 的行对应要研究的对象,列对应对象的属性,对象 的信息是通过指定对象的各属性值来表达。
©
第11章
粗糙集理论: 27
11.2.3 属性约简、核集的求取
所谓属性约简,就是在保持知识库分类能力不变的 条件下,删除其中不相关或不重要的属性。 一个属性集合可能有多个约简。 属性约简的目标就是要从条件属性集合中发现部分 必要的条件属性,使得根据这部分条件属性形成的 相对于决策属性的分类和所有条件属性所形成的相 对于决策属性的分类一致,即和所有条件属性相对 于决策属性D有相同的分类能力。
差 一般
高
低 低
中
低
高
高
慢
中
一般
差
中
低
6
第11章
高
低
快
好
高
粗糙集理论: 23
©
11.2.2 决策表
决策表包含了某一领域的大量数据,是领域的样本 数据库。它记录了大量样本的属性值和决策情况, 是领域知识的载体。 知识获取的目的就是要通过分析这个实例库来得到 该领域中有用的、规律性知识。决策表在决策应用 中有十分重要的地位,可用于表达绝大多数决策问 题。对于决策表,最重要的是决策规则的生成。
粗糙集方法仅利用数据本身提供的信息,无须任何 先验知识。
©
第11章
粗糙集理论: 5
粗糙集是一个强大的数据分析工具,它能表达和处 理不完备信息;能在保留关键信息的前提下对数据 进行化简并求得知识的最小表达式;能识别并评估 数据之间的依赖关系,揭示出概念的简单模式;能 从经验数据中获取易于证实的规则知识。
©
第11章
粗糙集理论: 3
粗糙集在机器学习、决策支持系统、机器发现、归 纳推理、数据库中的知识发现、模式识别等领域都 得到了广泛的应用。
©
第11章
粗糙集理论: 4
11.1粗糙集基本概念
粗糙集应用于数据挖掘领域,能提高对大型数据库 中的不完整数据进行分析和学习的能力,具有广泛 的应用前景和实用价值。
粗糙集理论: 11
©
第11章
定义11-3 K=(U,P)和M=(U,Q)是两个知识库,若 IND(P)=IND(Q),则称K和M(或Q和P)是等价的, 记作 P Q (或者) K M。因此,当K和M是同样的基本 范畴集时,知识库K和M中的知识都能使我们确切地 表达关于论域的完全相同的事实。这个概念意味着 可以用不同的属性集对对象进行描述,以表达关于 论域的完全相同的事实。 对于两个知识库K=(U,P)和M=(U,Q),当 IND(P) IND(Q) 时,称知识库P比知识库Q更精细,或者说Q比P更粗 糙。当P比Q更精细时,我们称P为Q的特化,Q为P的 推广。由以上可知,推广是将某些范畴组合在一起, 而特化则是将范畴分割成更小的单元。
©
第11章
粗糙集理论: 16
两个精确集, 即粗糙集的上近似集 (UpperApproximation)和下 近似集 (LowerApproximation)来近似地定义粗糙 集。 粗糙集理论引入上近似和下近似等概念来刻画知识 的不确定性和模糊性。
©
第11章
粗糙集理论: 17
粗糙集理论: 26
©
第11章
定义11-11 如果决策表中每个条件属性都是关于D 不可省的,则称条件属性集C 是关于D独立的,否则 称C 是关于D 依赖的。 定义11-12 决策表T = ( U ,P , C , D) 中条件 属性集C 的一个子集B 是关于D 独立的,并且PosB ( D) = PosC ( D) ,则称B 是C 的一个D约简。
数据挖掘原理与SPSS Clementine应用宝典
元昌安 主编 邓 松 李文敬
刘海涛
编著
电子工业出版社
©
第11章
粗糙集理论: 1
第11章 粗糙集理论
本章包括:
粗糙集的基本概念 知识表达 粗糙集在数据预处理中的应用
©
第11章
粗糙集理论: 2
粗糙集理论是由波兰华沙理工大学Pawlak教 授于20世纪80年代初提出的一种研究不完整、 不确定知识和数据的表达、学习、归纳的理 论方法,它是一种刻画不完整性和不确定性 的数学工具,能有效地分析不精确、不一致 (inconslsteni)、不完整(incomPlete)等各 种不完备的信息,还可以对数据进行分析和 推理,从中发现隐含的知识,揭示潜在的规 律。
©
第11章
粗糙集理论: 24
定义11-8 设U={U1,U2,U3,…,Un } 是一个论 域 ,U (i=1,2,…,n)是研究对象。 P是属性集, P = C + D , C 为条件属性集, D 为决策属性集,T = ( U , P , C , D) 是决策表。决策表中每一行就是 一条决策规则: dx| C ->dx | D , dx | B 表示个 体x关于属性集B 的值。
©
第11章
粗糙集理论: 18
例11-1 设论域 U={e1,e2 ,e3 ,e4 ,e5 ,e6 ,e7 ,e8} ,U上的一族等价关系 R={R1,R2},R1和R2是两个等价关系。根据这两个等价关系可 以将论域U进行划分: U/R1 ={{e1 ,e2 ,e3 ,e4},{e5 ,e6 ,e7 ,e8}}和 U/R 2 ={{e1,e2},{e3 ,e4},{e5 ,e6 ,e7 ,e8}} 。 U/R1中的 {e1,e2 ,e3 ,e4} ,代表 [e1 ]R 的等价类。 论域U被R划分的基本等价类为: U/R ={{e1,e2},{e3 ,e4},{e5},{e6 ,e7 ,e8}} 集合 X={e2 ,e3 ,e6 ,e7 ,e8} 是U上的一个子集。则X无法用基本等价 类U/R的并集精确表示,所以X是U上的一个粗糙集合。故有: X的下近似集为: Pos(X)=R(X)={e ,e ,e } ; X的上近似集为: R(X)={e1,e2 ,e3,e4 ,e5 ,e6 ,e7 ,e8} ; X的负区域: NEGR (X)={e5} 。
©
第11章
粗糙集理论: 6
粗糙集的研究对象是由一个多值属性(特征、症状、 特性等)集合描述的一个对象(观察、病历等)集合, 对于每个对象及其属性都有一个值作为其描述符号, 对象、属性和描述符是表达决策问题的3个基本要 素。
©
第11章
粗糙集理论: 7
粗糙集理论逐渐应用于数据挖掘领域中,并在对大 型数据库中不完整数据进行分析和学习方面取得了 显著的成果,使得粗糙集理论及数据挖掘的研究成 为热点领域。最近几年,粗糙集理论越来越受到众 多研究人员的重视,它的应用研究得到了很大的发 展。
©
第11章
粗糙集理论: 15
11.1.3 上、下近似集
给定论域U,一族等价关系R将U划分为互不相交的 基本等价类U/R。令 XgU为R上的一个等价关系。 当能表达成某些基本等价类的并集时,称为可定义 的;否则称为不可定义的。R可定义集能在这个知 识库中被精确地定义,所以又称为R精确集。 R不可定义集不能在这个知识库中被精确定义,只 能通过集合逼近的方式来刻画,因此也称为R粗糙 集 (Roughset)。
定义11-6 设集合
,R是一个等价关系,称 RX={ x |x U |,且[x]R X } 为集合X的R下近似集; 称 RX={ x |x U |,且[x]R X} 为集合X的R上近似集; 称集合 BNR ( X ) RX RX 为X的R边界域; 称 POSR (X)=RX 为X的R正域; 称 NEGR (X)=U-RX 为X的R负域。
©
第11章
粗糙集理论: 9
集合上的等价关系和集合上的划分是一一对应,相 互唯一决定的。从数学意义上讲,集合上的等价关 系和集合的划分是等价的概念,即划分就是分类。
©
第11章
粗糙集理论: 10
定义11-1 设U 讨论的对象组成的有限集合,称为 论域(Universe),对于论域中由等价关系划分出来 的任意子集,都可以称为论域U中的一个概念 (concept)或范畴(category)。为规范起见,认为 空集必也是一个概念。论域U中的任意概念族称为 关于论域的抽象知识,它代表了对论域中个体的分 类,简称为知识。 定义11-2 K=(U,R)其中K为知识库,U为全体对象 的集合称为论域,R为论域U上的等价关系(等价关 系与分类的概念等同),它是一种属性或多种属性 的集合。可以根据不同的R对U进行不同形式的分类。 知识库也被称作近似空间。
©
第11章
粗糙集理论: 14
定义11-5 设U是一个论域,R是U上的等价关系, U/R表示U上由R导出的所有等价类。 [ x]R 表示包含元素x∈U的R等价类。一个知识库就是 一个关系系统K ={U ,P},其中U是论域,P是U上的 一个等价类簇。如果 Q P 且 Q ,则 Q (Q的 所有等价类的交也是一个等价关系),称Q为不可分 辨关系,记作IND(Q)。
©
第11章
粗糙集理论: 21
例11-2:表11.1是一个轿车信息决策表,条件属性 集为{e1,e2,e3,e4}分别代表价格、油耗、速度和安 全性,决策属性为d,表示质量。
©
第11章
粗糙集理论: 22
表11.1 轿车信息决策表
车型U
e1
e2
e3
e4
d
1
2 3 4 5
高
低 中
低
高 中
快
中 慢
好
1
6
7
8
©来自百度文库
第11章
粗糙集理论: 19
11.2知识表达
知识表达在智能数据处理中占有十分重要的地位。 在智能系统中,经常会碰到要处理的对象可能是用 语言方式表达,也可能使用数据表达;可能是精确 的数据,可能会有一些缺省的信息或者相互矛盾的 信息。 为了处理这些数据,我们需要进行知识的表达,即 知识表达系统。决策表是特殊的知识表达系统。
©
第11章
粗糙集理论: 25
定义11-9 若决策表T 中任意的dx≠dy,由dx | C = dy | C ,可得dx| D = dy| D ,则称决策规则dx 是一致的,否则,称决策规则dx 是不一致的。如果T 中每条决策规则都是一致的,则称决策表T 是一致的, 否则称决策表T是不一致的。 定义11-10 设T = ( U , P, C , D) 是决策表,如 果去掉条件属性Pi,得到的表T1 = ( U , P -{Pi} , C - {Pi} , D) 与表T 相比,有PosC ( D) = Pos ( D),则称属性Pi是关于D可省的,否则称属性Pi 是 关于D 不可省的, PosB (D) = Y U/IND(D)B(Y) 是D 关于B 的正区域,其中B (Y) = { X U/IND(B) : X Y} 。
©
第11章
粗糙集理论: 8
11.1.1 知识和知识库
知识是人类通过实践对客观世界的运动规律的 认识,是人类实践经验的总结和提炼,具有抽象和 普遍的特性。 从认知科学的观点来看,知识来源于人类对客 观事物的分类能力,概念是事物类别的描述或者符 号,知识则是概念之间的关系和联系。任何一个物 种都是由一些知识来描述与分类的,利用物种的不 同属性知识描述来产生对物种的不同分类。
©
第11章
粗糙集理论: 13
定义11-4 设R是非空集合U上的二元系,如果它 是自反的、对称的和可传递的,则称R为U上的等 (x,y) 价关系。若, R 则称x与y有关系,记 为 xRy ;若 (x,y) R ,则称x与y没有关系,记 _ 为x R y 。等价关系的一个重要特点是用它可以构 成U的一个划分。划分即是分类,将研究对象分成 不同的类,这些类之间互不相交,且每一对象均 包含在某一类中。
粗糙集理论: 12
©
第11章
11.1.2 不可分辨关系
在粗糙集理论中,“知识”被认为是一种分类的能 力。不可分辨关系的概念是粗糙集理论的基石,它 揭示出论域知识的颗粒状结构。假定关于论域的某 种知识,并使用属性和属性值来描述论域中的对象, 如果两个对象(或对象集合)具有相同的属性和属性 值,则它们之间具有不可分辨关系。
©
第11章
粗糙集理论: 20
11.2.1 知识表达系统
定义11-7 一个知识表达系统S可以定义为,其中U 为对象的集合,称为论域;=R为属性集合;子集C 和D分别称为条件属性和决策属性; 为属性值的集 合;表示了属性的属性值范围;是一个信息函数, 它指定了U中每一对象x的属性值。 知识表达系统的数据以关系表的形式表示,关系表 的行对应要研究的对象,列对应对象的属性,对象 的信息是通过指定对象的各属性值来表达。
©
第11章
粗糙集理论: 27
11.2.3 属性约简、核集的求取
所谓属性约简,就是在保持知识库分类能力不变的 条件下,删除其中不相关或不重要的属性。 一个属性集合可能有多个约简。 属性约简的目标就是要从条件属性集合中发现部分 必要的条件属性,使得根据这部分条件属性形成的 相对于决策属性的分类和所有条件属性所形成的相 对于决策属性的分类一致,即和所有条件属性相对 于决策属性D有相同的分类能力。
差 一般
高
低 低
中
低
高
高
慢
中
一般
差
中
低
6
第11章
高
低
快
好
高
粗糙集理论: 23
©
11.2.2 决策表
决策表包含了某一领域的大量数据,是领域的样本 数据库。它记录了大量样本的属性值和决策情况, 是领域知识的载体。 知识获取的目的就是要通过分析这个实例库来得到 该领域中有用的、规律性知识。决策表在决策应用 中有十分重要的地位,可用于表达绝大多数决策问 题。对于决策表,最重要的是决策规则的生成。
粗糙集方法仅利用数据本身提供的信息,无须任何 先验知识。
©
第11章
粗糙集理论: 5
粗糙集是一个强大的数据分析工具,它能表达和处 理不完备信息;能在保留关键信息的前提下对数据 进行化简并求得知识的最小表达式;能识别并评估 数据之间的依赖关系,揭示出概念的简单模式;能 从经验数据中获取易于证实的规则知识。
©
第11章
粗糙集理论: 3
粗糙集在机器学习、决策支持系统、机器发现、归 纳推理、数据库中的知识发现、模式识别等领域都 得到了广泛的应用。
©
第11章
粗糙集理论: 4
11.1粗糙集基本概念
粗糙集应用于数据挖掘领域,能提高对大型数据库 中的不完整数据进行分析和学习的能力,具有广泛 的应用前景和实用价值。
粗糙集理论: 11
©
第11章
定义11-3 K=(U,P)和M=(U,Q)是两个知识库,若 IND(P)=IND(Q),则称K和M(或Q和P)是等价的, 记作 P Q (或者) K M。因此,当K和M是同样的基本 范畴集时,知识库K和M中的知识都能使我们确切地 表达关于论域的完全相同的事实。这个概念意味着 可以用不同的属性集对对象进行描述,以表达关于 论域的完全相同的事实。 对于两个知识库K=(U,P)和M=(U,Q),当 IND(P) IND(Q) 时,称知识库P比知识库Q更精细,或者说Q比P更粗 糙。当P比Q更精细时,我们称P为Q的特化,Q为P的 推广。由以上可知,推广是将某些范畴组合在一起, 而特化则是将范畴分割成更小的单元。
©
第11章
粗糙集理论: 16
两个精确集, 即粗糙集的上近似集 (UpperApproximation)和下 近似集 (LowerApproximation)来近似地定义粗糙 集。 粗糙集理论引入上近似和下近似等概念来刻画知识 的不确定性和模糊性。
©
第11章
粗糙集理论: 17
粗糙集理论: 26
©
第11章
定义11-11 如果决策表中每个条件属性都是关于D 不可省的,则称条件属性集C 是关于D独立的,否则 称C 是关于D 依赖的。 定义11-12 决策表T = ( U ,P , C , D) 中条件 属性集C 的一个子集B 是关于D 独立的,并且PosB ( D) = PosC ( D) ,则称B 是C 的一个D约简。
数据挖掘原理与SPSS Clementine应用宝典
元昌安 主编 邓 松 李文敬
刘海涛
编著
电子工业出版社
©
第11章
粗糙集理论: 1
第11章 粗糙集理论
本章包括:
粗糙集的基本概念 知识表达 粗糙集在数据预处理中的应用
©
第11章
粗糙集理论: 2
粗糙集理论是由波兰华沙理工大学Pawlak教 授于20世纪80年代初提出的一种研究不完整、 不确定知识和数据的表达、学习、归纳的理 论方法,它是一种刻画不完整性和不确定性 的数学工具,能有效地分析不精确、不一致 (inconslsteni)、不完整(incomPlete)等各 种不完备的信息,还可以对数据进行分析和 推理,从中发现隐含的知识,揭示潜在的规 律。
©
第11章
粗糙集理论: 24
定义11-8 设U={U1,U2,U3,…,Un } 是一个论 域 ,U (i=1,2,…,n)是研究对象。 P是属性集, P = C + D , C 为条件属性集, D 为决策属性集,T = ( U , P , C , D) 是决策表。决策表中每一行就是 一条决策规则: dx| C ->dx | D , dx | B 表示个 体x关于属性集B 的值。