粗糙集理论与应用发展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
粗糙集理论与应用发展
1、引言
粗糙集( roughs ets,RS)理论是20世纪80年代初由波兰科学家Pawlak提出的[1]。其主思想就是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。它从一个新的角度将知识定义为对论域的划分能力,并将其引入数学中的等价关系来进行讨论,从而为数据分析,特别是不精确、不完整数据分析提供了一套新的数学方法。同时,粗糙集理论具有无需提供除问题所需处理的数据集合之外的任何先验信息,仅根据观测数据删除冗余信息,
比较不完整知识的程度—粗糙度、属性间的依赖性与重要性,抽取分类规则等的能力。近几年,这个理论已得到空前的发展,无论在理论本身研究方面,还是在理论应用方面都取得了令人瞩目的成果。
2、粗糙集理论简介
粗糙集理论是建立在分类机制的基础之上的,不可区分关系的概念是粗糙集理论的基础。信息系统S由论域U和等价关系集A构成,表示成S=(U,A),不可区分关系ind(A)是信息系统S上的一个等价关系,它是A上全部等价关系的交集。信息系统S所表示的知识可理解为*对论域U划分的结果。不可区分关系的等价类构成了信息系统表示的知识的最小粒度,这个粒度内的对象不可区分。正是由于知识的粒度性,造成使用已有知识不能精确地表示某些概念。为此,在不可区分关系基础上定义了上下近似,使粗糙集理论能够有效地逼近这些概念。令XCU是论域上对象的一个集合,BCA是一族等价关系,CXIs表示元素x在B 下的等价类,则B( X )二 {xEU}Cxls(=X)B( X) 二 3 粗糙集的扩展模型 对于Pa wlak提出的经典的粗糙集理论,由于它没有考虑到数据噪音、数据缺失等情况,并且经典的粗糙集理论所涉及的概念和知识都是清晰的,不能对论域U 上的一个模糊集合进行描述,因此许多研究者对经典的粗糙集理论进行了扩展,以使其应用的范围更加广泛。对一些著名扩展模型性质的研究正日益引起学术界的关注,下面简要介绍几个著名的扩展模型: (1)可变精度粗糙集模型(VPRS) 可变精度粗糙集模型能够解决属性间无函数或不确定关系的数据分类问题,它对经典粗糙集理论的主要扩充体现在它允许一定的误分类率9(0<18 镇0-5),定义户多数包含关系为:若把集合X中的元素分类到集合Y中,则会犯分类错误的可能性小于夕。VPRS模型和经典粗糙集是兼容的,只要令a二0,就和经典模型一致了。随着a增大变精度粗糙集的近似边界区域变窄,即变精度粗 糙集意义下的不确定区域变小。因此,变精度粗糙集对数据不一致性有一定的容忍度,在某些场合可以增强产生规则的鲁棒性,提高预测精度[2], Katzberg和Ziarko进一步提出了不对称边界的VPRS模型,即在上下近似的定义中的R可以是不相同的,从而使此模型更加一般化[3] (2) 相似模型 在经典的粗糙集模型中,当数据中存在缺失的属性值的时候,不可区分关系或者说是等价关系无法应付这种情形。为扩展粗糙集的处理能力,可以使用相似关系代替粗糙集合中的不可区分关系。S二 ( U, A T)是信息系统,令ACA T,在文[4]中定义的相似关系为SI M (A )=((x,y)EUXU!V a E A , a( x) = a( y)or a ( x) = ‘ or a ( y )“,}相似类一般不再构成U的划分,它们之间可能是相互重叠的,它们构成U的覆盖。由于相似类中的元素不一定属于同一决策类,因此在相似关系的基础上定义了相对吸收集的概念,相对吸收集中的任意两个元素都相似且具有同样的决策值;相对吸收集可以用来进行数据削减。 (3)模糊粗糙集模型 在人们的实际生活中,涉及到的知识或概念往往是模糊的不确定的,为了获得对模糊概念更好的近似表示,D.D udious和H.Prade提出了模糊粗糙集的模型[5]。用类似经典粗糙集的方式对模糊粗糙集的基本概念进行了定义,一个模糊集合的下近似和上近似为一对模糊集合,它们的隶属函数分别表示论域中的对象肯定隶属于这个模糊集合的程度和可能隶属于这个模糊集合的程度。 (4) Alpha粗糙集理论(a-RST) a粗糙集理论是将经典的粗糙集理论扩展成带有模糊性质的新理论[6]。它表现了a粗糙集的模糊的非空边界,并以带参数的不可区分关系为基础对粗糙集理论中的信息系统、依赖、可定义性、近似性、核等概念进行了推广,以此来对模糊概念进行逼近。 4 与其他不确定理论的比较研究 粗糙集理论在处理不确定性和模糊性方面具有很多优点,例如粗糙集理论在处理大数据量,消除冗余信息等方面,有着良好的效果;它仅利用数据本身提供的信息,无需任何先验知识,对问题的不确定性的描述或处理更客观;粗糙集理论可以产生简洁准确、易于验证的规则知识等.但是,粗糙集本身特点又决定它在一些问题的处理方面存在着不足,而一些其它的不确定理论也有着各自的优点,这使得粗糙集理论与其他不确定理论的互补性研究成为必然。目前对粗糙集理论与模糊理论及证据论的关系和互补性研究已经取得丰硕的成果,下面加以简要介绍。 粗糙集以集合中元素的不可区分关系为基础,体现的是由于知识的粒度性而导致的粗糙性,强调数据的不可区分,研究的是不同类中的对象组成的集合之间的关系,重在分类;而模糊集是基于元素对集合隶属程度的不同,注重描述信息的含糊程度,研究的是属于同一类的不同对象的隶属的关系,重在隶属的程度,强调集合本身的含混性[7]。它们处理的是两种不同的模糊和不确定性,分别刻画了不完备信息的两个方面。因此两种方法相互补充可能可以更有效地处理不完全知识。 粗糙集与Dempster-Shafter的证据理论之间有很多相似之处。二者的主要区别在于Dempster-Shafter理论利用信度函数作为主要工具,而粗糙集理论主要利用上近似集合和下近似集合1"].D .D udious和H.P rade同时指出,Dempster-Shafter的证据理论和Z.Pa wlak的粗糙集理论是不同术语下的同