粗糙集理论及其发展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
粗糙集理论及其发展
作者:张也驰
来源:《管理观察》2010年第16期
摘要:粗糙集理论以其出色的处理模糊和不确定知识的能力,在数据挖掘领域占据了越来越重要的地位。
文章首先描述了粗糙集理论的核心思想,接着介绍了粗糙集理论在不完备信息系统领域的扩充,最后论述了粗糙集理论的应用发展以及未来的研究方向。
关键词:粗糙集机器学习不完备信息系统数据挖掘
1.引言
粗糙集理论[1]是由波兰数学家Z. Pawlak于20世纪80年代提出的一种新的处理不精确性和不确定性信息的数学方法。
之后国内外许多学者对粗糙集理论及其应用进行了坚持不懈的研究。
1991年,Pawlak出版了第一本关于粗糙集理论的专著,详细介绍了粗糙集的理论基础,它奠定了粗糙集理论的基础,但由于最初关于粗糙集理论的研究大部分是用波兰语发表的,当时并没有引起国际计算机学界和数学界的重视;1992年,在波兰Kiekrz召开了第一届国际粗糙集研讨会,从此每年一次以粗糙集理论为主题的国际研讨会以及粗糙集学术研究会的成立,推动了国际上对粗糙集理论与应用的深入研究。
1995年,Z. Pawlak概括性地介绍了粗糙集理论[2]的基本概念及其具体研究进展。
我国对粗糙集理论的研究起步较晚。
粗糙集理论是建立在分类机制基础上的,它将知识理解为对数据的划分,每一个被划分的集合称为概念或范畴,其主要思想是利用已有的知识库,将不精确知识用已知知识库中的知识来(近似)刻画。
与其他处理不精确性和不确定性信息的理论相比,该理论的一个最主要的优点是其无需提供任何除现有知识以外的任何先验知识,从而具有相当的客观性。
近年来,由于粗糙集理论在人工智能和认知科学中日益呈现出的重要性和优越性,特别是在机器学习、数据挖掘、决策分析、数据库知识发现、专家系统、决策支持系统、归纳推理和模式识别等领域,受到越来越多的研究人员的关注。
2.粗糙集理论的基本概念
粗糙集理论作为一种处理模糊和不确定性知识的数学工具,其主要思想是在保持分类能力不变的前提下,经过知识约简,导出问题的决策或分类规则。
即粗糙集理论是建立在不可分辨关系基础知识的,不可分辨关系构成了粗糙集理论的数学基础。
2.1 知识表达系统和决策表
定义1[3] 形式上,一个知识表达系统是一个四元组S=(U,A,V,f)是一个知识表达系统,其中U 是对象的非空有限集合,称为论域;A为属性的非空有限集合;V=■Va,Va是属性a的值
域;f:U×A→V是一个信息函数,它为每个对象的每个属性赋予一个信息值,即
Va∈A,X∈U,f(x,a)∈Va。
知识表达系统也称为信息系统,通常也用S=(U,A)也表示。
决策表是
一类特殊而重要的知识表达系统,多数决策系统问题都可以用决策表形式来表达。
在知识表达系统中,如果A=C∪D,C∩D=?椎,则S称为一决策系统。
定义2[3] 对知识表达系统S=(U,A,V,f),令P?哿A,称属性集P的不可分辨关系为
ind(P)={(x,y)∈U×U|Aa∈P,f(x,a)=f(y,a)}。
不可分辨关系ind(P)是U上的等价关系,由ind(P)导出的所有等价类集合记为U/P,它构成了论域U的一个划分,含有元素x的等价类记为[x]p。
2.2 粗糙集与近似
定义3[3] 对于知识表达系统S=(U,A,V,f),令X?哿U,R?哿A,则定义X的R下近似为
■X={x∈U|[x]R?哿X},X的R上近似为■X{x∈U|[x]R∩X≠?椎}。
在此基础上,定义bnR(X)=■X-■X为X的R边界域,posR(X)=■X为X的R正域,negR(X)=U-■X称为X的R负域。
显然,■X或posR(X)是由那些根据知识R判断肯定属于X的U中元素组成的集合;■X是根据知识R判断可能属于X的U中元素组成的集合;bnR(X)是那些根据知识R既不能判断肯定属于X又不能判断肯定输入~X(即U-X)的U中元素组成的集合;negR(X)是那些根据知识R判断肯定不属于X的U中元素组成的集合。
2.3 知识约简
知识约简是粗糙集理论的核心内容之一。
众所周知,知识库中知识(属性)并不是同等重要的,甚至其中某些知识是冗余的。
所谓知识约简,就是在保持知识库分类能力不变的条件下,删除其中不相关或不重要的知识。
知识约简中有两个基本概念:约简(reduct)和核(core)。
定义4[3] 令R为一族等价关系,R∈R,如果ind(R)=ind(R-{R}),则称R为R中不必要的;否则称R为R中必要的。
如果每一个R∈R都为R中必要的,则称R为独立的;否则称R为依赖的。
如果R是独立的,P∈R,则P也是独立的。
设Q?哿P,如果Q是独立的,且ind(Q)=ind(P),则称Q为P的一个约简。
显然,P可以有多种约简。
P中所有必要关系组成的集合称为P的核,记作core(P)。
核这个概念的用处有两个方面:首先它可以作为所有约简的计算基础,因为核包含在所有的约简之中,并且可以计算可以直接进行;其次可以解释为知识约简时它是不能消去的知识特征集合。
3.粗糙集理论在不完备信息系统上的扩充
在许多情况下,我们在现实中所获得的信息系统是不完备的,主要问题之一是属性的缺省值,但由于经典粗糙集理论中不可分辨关系的局限性,使得经典的粗糙集理论不适用于不完备信息系统,因此,众多的国内外专家学者对经典的粗糙集理论进行了扩充。
目前,对经典粗糙集理论的扩充主要有两类方法:一类是间接处理法,其特点是利用模糊理论、概率统计理论等其他处理不确定性知识的理论通过数据补齐等手段把不完备信息系统转化为完备信息系统[1,2];二是直接对经典粗糙集理论中的相关概念进行适当扩充,例如:将经典粗糙集理论中的等价关系扩充为相似关系[4]、容差关系[5]和限制容差关系[6]等,并对经典粗糙集理论中的上、下近似等概念进行相应的修改。
4.粗糙集理论未来的研究方向
粗糙集理论的优越性已经在很多实际应用中得到了证明,这种理论可以为人工智能的很多领域提供有效的方法。
粗糙集理论的独特优点是它不需要任何额外的先验信息就可以从数据本身发现分类规则,且实现这种方法的程序可以很容易地在计算机上实现。
然而,粗糙集理论仍然是一个极其年轻且在高速发展的学科,仍有一些问题需要解决,其今后研究的主要热点主要包括以下几个方向:
(1)粗糙集理论的系统化和形式化;
(2)粗糙集理论与其他模糊学科相结合的信息处理方法研究;
(3)面向粗糙集对象的专家系统和智能系统和粗糙集在工程技术方面的应用。
◆
参考文献:
[1]Z. Pawlak, Rough Sets. Inner Journal of Computer and Information Science. 1982,11:341-356
[2]Z. Pawlak, Rough Sets. Communcations of ACM,1995,38(11):89-95
[3]Z. Pawlak, Rough Sets: Theoretical
Aspects of Reasoning about Data,vol.9,
Kluwer Academic Publishers,Dordrecht,1991
[4] Stefanowski J, Tsoukias A., On the extension of rough sets under incomplete information, Proceedings of 7th Int’l Workshop on New Directions in Rough Sets, Data Mining, and Granular-soft Computing. Berlin: Springer-Verlag, 1999. 73-81.
[5]Marzena Kryszkiewicz, Rough set approach to incomplete information systems. Information Sciences,112(1998):39-49.
[6]王国胤,Rough集理论在不完备信息系统中的扩充,计算机研究与发展,2002,39(10):1238-1243
[7]Yee Leung, Deyu Li,Maximal Consistent
Block Technique for Rule Acquisition in Incomplete Information Systems. Information Sciences, 153(2003):85-106。