4粗糙集与数据约简

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
R X
Card R X 1 0.25 Card R X 4
体温r3 正常 高 很高 正常 高 很高 决策属 性D 流感 否 是 是 否 否 是


4.2.1、粗糙集的基本概念
例:右表是考生情况调查表,其中U为被调查对象,即论 域;R为高考成绩(A-优,B-良,C-中,D-差);X为 升学情况(+为上,/为未上)。 根据高考成绩和升学情况进行分类时: 按成绩:U/R={{1,6},{2},{3,5},{4}}={Y1,Y2,Y3,Y4} 按升学:U/X={{2,3,5,6},{1,4}}={X1,X2} 分别计算出下近似集、上近似集、边界域和近似精度: R-(X1)=Y2∪Y3={2,3,5} R-(X2)=Y4={4} R-(X1)=Y2∪Y3∪Y1 ={2,3,5,6,1} R-(X2)=Y1∪Y4={4,6,1} Bnd(X1)=Y1={1,6} Bnd(X2)=Y1={1,6}
4.1、不确定性理论
经典集合、模糊集合、粗糙集的关系
经典集合认为一个集合完全有其元素所决定,一个元素要么属于这个集合, 要么不属于这个集合。其隶属函数μ X(x)∊{0,1}是二值逻辑。 模糊集合认为事物具有中介过渡性质,而非突然改变,集合中每一个元素 的隶属函数μ X(x)∊[0,1],即在闭区间[0,1]可以任意取值,隶属函数可以 是连续光滑的,因此模糊集合对不确定信息的刻划是精细而充分的。但隶 属函数不可计算,凭人的主观经验给定。 粗糙集合把用于分类的知识引入集合。一个元素x是否属于集合X,需要根 据现有知识来判定,可分为三个情况:①x肯定不属于X;②x肯定属于X; ③x可能属于也可能不属于X。到达属于哪种情况依赖于我们所掌握的关于 论域的知识。粗糙集的隶属函数为阶梯 状,对不确定性信息的描述是粗糙的, 1.0 但粗糙隶属函数是可计算的。粗糙集主 0.8 0.6 要用于对信息系统进行约简和分类。
4.2 粗糙集的基本理论与方法
1
粗糙集的基本概念
2
粗糙集的基本思想
3
粗糙集的基本特点
4.2.2、粗糙集的基本思想
RS的基本思想
RS认为知识就是将论域中的对象进行分类的能力。对对象的认知程度取决 于所拥有的知识的多少,知识越多,则分类能力越强。知识越少,则对象 间的区分越模糊。 在没有掌握所有关于对象域的知识的情况下,为了刻画模糊性,RS使用了 一对称为下近似与上近似的精确概念来表示每个不精确概念,即使用一对 逼近来描述对象域上的集合。下近似和上近似的差是一个边界集合,它包 含了所有不能确切判定是否属于给定类的对象。这种处理可以定义近似的 精确度,能够很好的近似分类,得到可以接受质量的分类。 在RS中,论域中的对象可用多种知识来描述(通常描述为属性)。当两个不 同的对象由相同的属性来描述时,这两个对象在系统中被归于同一类,它 们的关系称之为不可分辨关系或等价关系。不可分辨关系是RS理论的基石, 它反映了论域知识的颗粒性。 影响分类能力的属性很多,不同的属性重要程度不同,其中某些属性起决 定性作用;属性的取值不同对分类能力也会产生影响。RS理论提出知识的 约简方法、在保留基本知识、对对象的分类能力不变的基础上,消除重复、 冗余属性和属性值,实现了对知识的压缩和再提炼。
随机性:因为事物的因果关系不确定,从而导致事件发生的结果不确定性。 用概率来度量。概率表示事件发生可能性的大小。概率论的运用是从随机 性中去把握广义的因果律——概率规律。 模糊性:因为事件在质上没有明确的含义,在量上没有明确的界限,导致 事件呈现“亦此亦彼”的性态,是事物类属的不确定性,用隶属度来度量。 隶属度表示事物多大程度属于某个分类。模糊集合论的运用从模糊性中去 确立广义的排中律——隶属规律。 粗糙性:因为描述事件的知识(或信息)不充分、不完全,导致事件间的 不可分辨性。粗糙集把那些不可分辨的事件都归属一个边界域。因此,粗 糙集中的不确定性是基于一种边界的概念,当边界域为一空集时,则问题 变为确定性的。
4.2.1、粗糙集的基本概念
知识表达系统
一个知识表达系统或信息系统S可以表示为有序四元组 S={U,R,V,f} 其中,U={x1,x2,…,xn}为论域,它是全体样本的集合; R=C∪D 为属性集合,其中子集C是条件属性集,反映对象的特征,D为决策 属性集,反映对象的类别; V Vr 为属性值的集合,V 表示属性r的取值范围; r rR f:U×R→V 为一个信息函数,用于确定U中每一个对象x的属性值,即任一 xi∊U,r∊R,则f(xi,r)=Vr
4.2.1、粗糙集的基本概念
基本集合
由论域中相互不可分辨的对象组成的集合称之为基本集合,它是组成论域 知识的颗粒。 决策属 属性 条件属性C 性D 例如:考虑条件属性:头疼和 对象 头疼r1 肌肉疼r2 体温r3 流感 肌肉疼。对于x1,x2,x3这三个 x1 是 是 正常 否 对象是不可分辨的。x4,x6在这 x2 是 是 高 是 两个属性上也是不可分辨的。 x3 是 是 很高 是 由此构成的不可分辨集{x1,x2, x4 否 是 正常 否 x3},{x4,x6},{x5}被称为基本 x5 否 否 高 否 x6 否 是 很高 是 集合。 设论域U为有限集,R是U的等价关系簇,则K={U,R}称为知识库,知识库的 知识粒度由不可分辨关系Ind(R)的等价类反映。
属性 对象 x1 x2 x3 x4 x5 x6 头疼r1 是 是 是 否 否 否 条件属性C 肌肉疼r2 是 是 是 是 否 是 体温r3 正常 高 很高 正常 高 很高 决策属性D 流感 否 是 是 否 否 是
4.2.1、粗糙集的基本概念
不可分辨关系
在粗糙集中,论域U中的对象可用多种信息(知识)来描述。当两个不同 的对象由相同的属性来描述时,这两个对象在该系统中被归于同一类,它 们的关系称之为不可分辨关系 。 即对于任一属性子集 B⊆R,如果对象 xi,xj∊U,∀r∊B,当且仅当f(xi,r)=f(xj,r)时,xi和xj是不可分辨的,简记 为Ind(B)。不可分辨关系称为等价关系。 例如:只用黑白两种颜色把空间中的一些物体划分成两类:{黑色物体}、 {白色物体},那么同为黑色的物体就是不可分辨的,因为描述它们特征属 性的信息是相同的,都是黑色。如果引入方、圆的属性,可将物体进一步 划分为4类:{黑色方物体}、{黑色圆物体}、{白色方物体}、{白色圆物 体}。这时,如果有两个同为黑色方物体,则它们还是不可分辨的。 不可分辨关系这一概念在RS中十分重要,它反映了我们对世界观察的不精 确性。 另一方面,不可分辨关系反映了论域知识的颗粒性。知识库中的知识越多, 知识的颗粒度就越小,随着新知识不断加入到知识库中,粒度会不断减小, 直致将每个对象区分开来。但知识库中的知识粒度越小,则导致信息量增 大,存储知识库的费用越高。
4.2.1、粗糙集的基本概念
下近似集和上近似集
下近似集:根据现有知识R,判断U中所有肯定属于集合X的对象所组成的 集合,即 R-(X)={x∊U,[x]R ⊆X} 其中, [x]R 表示等价关系R下包含元素x的等价类。 上近似集:根据现有知识R,判断U中一定属于和可能属于集合X的对象所 组成的集合,即 R-(X)={x∊U,[x]R ∩X≠φ } 其中, [x]R 表示等价关系R下包含元素x的等价类。 给定知识表达系统S={U,R,V,f},对于每个样本子集X ⊆U和等价关系R,所 有包含于X的基本集的并(逻辑和)为R-(X);所有与X的交(逻辑积)不为空 集的基本集的并为R-(X)。
4.2.1、粗糙集的基本概念
粗糙度(近似精确度)
对于知识R(即属性子集),样本子集X的不确定程度可以用粗糙度α R(X) 来表示为
R X
Card R X Card R X


α R(X)亦称近似精确度,式中Card表示集合的基数(集合中元素的个数)。 0≤α R(X)≤1, 如 果 α R(X)=1, 则 称 集 合 X 相 对 于 R 是 确 定 的 , 如 果 α R(X)<1则称集合X相对于R是粗糙的,α R(X)可认为是在等价关系R下逼近 集合X的精度。
智能信息处理技术
华北电力大学
第4章 粗糙集与数据约简
1
2
不确定性理论
粗糙集的基本理论与方法
3
4 5 6
知识的约简
决策表的约简
粗糙集数据约简的具体实现与应用
粗糙集的研究现状与展望
4.1、不确定性理论
自然界和人类的社会活动的各种现象:确定性现象和不确定性现象。 确定性现象:在一定条件下必然会出现的现象。 不确定性的分类:
U 1 2 3 4 5 6 R C B A D A C X / + + / + +
α R(X1)=Card(R-(X1))/Card(R-(X1))=3/5 α R(X2)=Card(R-(X2))/Card(R-(X2))=1/3
根据 R-(X1) R-(X2) R-(X1) if R 高考成绩(A,B) 高考成绩(D) 高考成绩(A,B,C) Then X 一定(+)能上 一定(/)不能上 可能(+)能上 根据 R-(X2) Bnd(X1) Bnd(X2) if R 高考成绩(C,D) 高考成绩(C) 高考成绩(C) Then X 可能(/)不能上 可能(+)也可能(/) 可能(+)也可能(/)
4.2.1、粗糙集的基本概念
正域、负域和边界域
正域:Pos(X)=R-(X),即根据知识R,U中能完全确定地归入集合X的元素的 集合。 负域:Neg(X)=U-R-(X),即根据知识R,U中不能确定一定属于集合X的元素 的集,它们是属于X的补集。 边界域:Bnd(X)= R-(X) - R-(X) ,边界域是某种意义上论域的不确定域, 根据知识R,U中既不是肯定归入集合X,又不能肯定归入集合~X,的元素 构成的集合。 边界域为集合X的上近似与下近似之差,如果Bnd(X)是空集,则称集合X关 于R是清晰的;反之,如果Bnd(X)不是空集,则称集合X为关于R的粗糙集。 因此,粗糙集中的“粗糙”(不确定性)主要体现在边界域的存在。集合 X的边界域越大,其确定性程度就越小。
知识与分类
在粗糙集理论中,知识被认为是一种分类能力。人们的行为基本是分辨现 实的或抽象的对象的能力。 假定我们起初对论域内的对象(或称元素、样本、个体)已具有必要的信 息或知识,通过这些知识能够将其划分到不同的类别。若我们对两个对象 具有相同的信息,则它们是不可区分的,即根据已有的信息不能将其划分 开。 粗糙集理论的核心是等价关系,通常用等价关系替代分类,根据这个等价 关系划分样本集合为等价类。 从知识库的观点看,每个等价类被称为一个概念,即一条知识(规则)。 即,每个等价类唯一地表示了一个概念,属于一个等价类的不同对象对该 概念是不可区分的。
0.4 0.2 0.0
0.2
0.4
0.6
0.8
1.0
第4章 粗糙集与数据约简
1
不确定性理论
2 3
4 5 6
粗糙集的基本理论与方法
知识的约简
决策表的约简
粗糙集数据约简的具体实现与应用
粗糙集的研究现状与展望
4.2 粗糙集的基本理论与方法
1
ຫໍສະໝຸດ Baidu
粗糙集的基本概念
2
粗糙集的基本思想
3
粗糙集的基本特点
4.2.1、粗糙集的基本概念
4.2.1、粗糙集的基本概念
例:以医疗信息表为例,对于属性子集 属性 条件属性C R={头疼,肌肉疼}={r1,r2},计算样本子 对象 头疼r1 肌肉疼r2 集X={x1,x2,x5}的上近似集、下近似集、 x1 是 是 x2 是 是 正域、边界域。 x3 是 是 解: x4 否 是 ①计算论域U的所有R基本集: x5 否 否 U|Ind(R)={{x1,x2,x3},{x4,x6},{x5}} x6 否 是 令R1={x1,x2,x3} R2={x4,x6} R3={x5} ②确定样本子集X与基本集的关系 X∩R1={x1,x2}≠φ X∩R2=φ X∩R3={x5}≠φ ③计算R-(X)、R-(X)、Pos(X)、Bnd(X): R-(X)=R3={x5} R-(X)=R1∪R3={x1,x2,x3,x5} Pos(X)=R-(X)={x5} Bnd(X)=R-(X)-R-(X)={x1,x2,x3} ④计算近似精确度:
相关文档
最新文档