粗糙集理论及其应用与发展研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Computer Knowledge And Technology电脑知识与技术2008年第4卷第1期(总第28期)
粗糙集理论及其应用与发展研究
韦良
(同济大学电子与信息工程学院,上海201804)
摘要:粗糙集理论是一种研究不精确、不确定性、处理不完备知识的数学工具,目前被广泛应用于人工智能、模式识别、机器学习、决策支持和数据挖掘等领域。该文通过介绍粗糙集理论及特点,叙述了粗糙集理论在各领域的应用发展情况,并且展望了其未来发展趋势。
关键词:粗糙集;属性约简;粗糙集应用;数据挖掘
中图分类号:TP18文献标识码:A文章编号:1009-3044(2008)28-0172-03
Rough Set Theory and Its Application Research
WEI Liang
(Electronics and Information School,Tongji University,Shanghai201804,China)
Abstract:Rough set theory is a math theory which processes non-accurate,uncertain and incomplete knowledge.Currently,it has already been applied successfully in the area of Artificial Intelligence,Pattern Recognition,Machine Learning,Decision Analyzing and Data Mining etc.This paper introduces the rough set theory and its characteristics,reviews the development of this theory in different fields,and suggests evolutional trend in the coming future.
Key words:rough set;attribute reduction;rough set application;data mining
1引言
波兰数学家Pawlak于1982年提出的粗糙集理论是一种新的处理模糊和不确定性知识的数学工具[1]。其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。粗糙集理论能有效地分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。以粗糙集理论为基本框架的知识发现过程的研究,越来越引起人们的关注,特别是将粗糙集理论与机器学习、模式识别、数据库理论等相结合,并融合其它有效的数学工具与方法的研究,显示出基于粗糙集理论的多种软计算方法相结合算法在知识发现和优化过程中的强大的优越性,为知识发现的理论基础提供了一定的依据。目前粗糙集理论已成为人工智能领域中一个较新的学术热点,引起了越来越多科研人员的关注。
2粗糙集理论的基本概念
设U是非空有限论域,R是U上的二元等价关系,R称为不可分辨关系,序对A=(U,R)称为近似空间。坌(x,y)∈U×U,若(x,y)∈R,则称对象x与y在近似空间A中是不可分辨的。U/R是U上由R生成的等价类全体,它构成了U的一个划分。可以证明,U上划分可以与U上的二元等价关系之间建立一一对应。U/R中的集合称为基本集或原子集。若将U中的集合称为概念或表示知识,则A= (U,R)称为知识库,原子集表示基本概念或知识模块。任意有限的基本集的并和空集均称为可定义集,否则称为不可定义的。可定义集也称为精确集,它可以在知识库中被精确地定义或描述,可表示已知的知识。可以验证所有可定义集全体可构成U上的一个拓扑。
令知识库K=(U,R),集合X哿U,R是一个等价关系:
分别称RX为X的R下近似(Lower Approximation)和RX为X的R上近似(Upper Approximation)。称集合BN R(X)=RX-RX为X 的R边界域;POS R(X)RX为X的R正域;NEG R(X)=U-RX为X的R负域。
下近似RX包含了所有使用知识R可确切分类到概念X的元素。上近似
RX则包含了所有那些可能是属于概念X的元素。概念的边界区域BN R(X)
由不能肯定分类到这个概念X或其补集X中的所有元素组成。关系如图1
所示。
刻画粗糙集的方法有以下两种:一种是用表示近似精度的数值表示粗
糙集的数字特征;数字特征表示粗糙集边界域的相对大小,但没有说明边
界域的结构。另一种是用粗糙集的拓扑分类表示粗糙集的拓扑特征。拓扑
特征给出边界域的结构信息,但没有给出边界域大小的信息。
由等价关系R定义的集合X的近似精度如下:
收稿日期:2008-07-03
作者简介:韦良(1982-),男(朝鲜族),黑龙江牡丹江人,在读硕士研究生,研究方向:数据挖掘,人工智能,粗糙集应用。
图1概念的上近似、下近似和区域表示
ISSN1009-3044
Computer Knowledge And Technology电脑知识与技术
Vol.4,No.1,October2008,pp.172-174
E-mail:eduf@
Tel:+86-551-56909635690964 172
本栏目责任编辑:唐一东人工智能及识别技术
韦良:粗糙集理论及其应用与发展研究
其中X≠Ф,|X|表示集合X的基数,显然,0≤αR(X)≤1。定义P R(X)=1-αR(X),称P R(X)为X的R粗糙度。粗糙度反映了利用知识R 近似表示X的不完全程度。
设X是一个R粗糙集,称X是R粗糙可定义的,当且仅当RX≠Ф且RX≠U;称X是R内不可定义的,当且仅当RX=Ф且RX≠U;称X是R外不可定义的,当且仅当RX≠Ф且RX=U;称X是R全不可定义的,当且仅当RX=Ф且RX=U。如果X是R粗糙可定义的,则意味着我们可以确定U中的某些元素属于X或X;如果X是R内不可定义的,则意味着我们可以确定U中的某些元素是否属于X,但不能确定U中任一元素是否属于X;如果X是R外不可定义的,则意味着我们可以确定U中的某些元素是否属于X,但不能确定U中任一元素是否属于X;如果X是R全不可定义的,则意味着我们不能确定U中的任一元素是否属于X或X。
粗糙集的数字特征(近似精度)和拓扑特征之间有一定的联系:
若集合是内不可定义的或全不可定义的,则其近似精度为0;
若集合是外不可定义的或全不可定义的,则其补集的近似精度为0。
实际应用时,应综合考虑边界域的两种信息。
3属性约简
属性约简是粗糙集理论中的一个核心部分,同时也是粗糙集理论中最重要的概念之一。自粗糙集理论被提出后,研究学者在属性约简方面提出了许多算法,这些属性约简算法最终可以归结为三类:基于约简定义的Pawlak属性约简算法[2];基于差别矩阵的属性约简算法;基于启发式信息的属性约简算法。然而,到目前为止,还没有一个公认的、高效的最佳属性约简算法,另一方面,科学家在理论上证明求取处理对象的所有属性约简、所有最小约简是一个NP完全问题。
3.1几种典型的约简算法
3.1.1基本算法
基本算法首先在已有数据的基础上构造差别矩阵。然后在差别矩阵的基础上得到差别函数。对此得到的差别函数进行化简,使之成为析取范式。最后得到的每个主蕴含式均为约简。该算法可以求出所有的约简。然而,由于对大数据集的差别函数的约简是一个非常困难几乎不可能的问题,因此,此算法只适合于非常小的数据集。
3.1.2基于差别矩阵的启发式算法
Skowron提出差别矩阵,并且提出差别矩阵可用于属性约简。在此基础上,利用差别矩阵得到了许多启发式约简算法。这些算法的共同点都是先得到差别矩阵,由差别矩阵求出属性核,在此基础上根据如信息熵、属性频率等启发式规则往属性核加入属性,直到满足条件为止。
3.1.3遗传算法
己经有不少用遗传算法计算约简的算法。各种算法的不同之处主要在适应度函数的不同。Bjorvand和Komorowski提出了具有代表性的遗传算法。每个位串代表差别矩阵的一项,即两个对象的属性集口某位为1时表示该属性存在,否则不存在。这样每个位
:
串是一个约简的候选。定义适应度函数如下Array其中N是属性集合的长度,L v是v中1的个数。C v是v能区分的对象组合的个数。m是对象的个数。该函数由两部分组成,前一部分的目的是希望L v的长度尽可能的小。后一部分希望区分的对象尽可能多。在设计初始种群时,可以考虑将核或专家认为必要的属性加入种群中,以加快算法的收敛速度。
3.1.4扩展法则约简算法
Starzyk,Nelson and Sturtz提出一种新概念,称为强等价(strong equivalence),进而发展为扩展法则,用于快速简化差别函数。两个属性称为局部强等价,若它们在差别函数的所有项中同时出现或不出现。当两个属性是局部强等价时,它们就可以仅用一个属性代替。实验表明该算法比基本算法快数十到数百倍。因而这种算法可以较基本算法处理更大的数据集。
3.1.5动态约简算法
动态约简在某种意义上是给定决策表中最稳定的约简,它们是从给定决策表中随机抽样形成的子表中最常出现的约简。动态约简能够有效的增强约简的抗噪音能力。动态约简的计算过程较为简明,主要是对决策表进行采样,然后对采样后的决策表计算所有约简。在所有的子表中保持不变或近似保持不变的约简就是动态约简。
3.1.6复合系统的约简算法
Kryszkiewicz和Rybinski研究了在复合信息系统中寻求约简的问题。即怎样利用现有的子系统的约简求复合系统的约简。其主要思想是将布尔函数的约简问题转化为集合空间的边界搜索问题。而在己知子系统的约简的情况下,统的搜索空间将得到简化。设有信息系统S1,S2,它们的属性集合相同f1和f2分别是它们的差别函数。则整个信息系统S的差别函数f可表示为f=f1∧f2∧f12。其中f12代表S1、S2中的对象分别作为横纵坐标组成的差别函数。根据上面的讨论,如果已知S1和S2的约简时,则S的约简只需在空间[MINS(f1∧f2),{c}]上搜索而不必从头开始。其中MINS(f1∧f2)是两个子系统约简的并的最小值,因而使搜索空间大大减小。
4粗糙集理论的应用与发展趋势
4.1粗糙集理论的研究对象
粗糙集理论的研究对象是由一个多值属性(特征、症状、特性等)集合描述的一个对象(观察、病历等)集合,对于每个对象及其属性都有一个值作为其描述符号,对象、属性和描述符是表达决策问题的3个基本要素[4]。这种表达形式也可以看成一个二维表格,表格的行与对象相对应,列对应于对象的属性;各行包含了表示相应对象信息的描述符,还有关于各个对象的类别成员的信息。通常,关于对象的可得到的信息不一定足以划分其成员类别。换句话说,这种不精确性导致了对象的不可分辨性。给定对象间的一个等价关系,即导致由等价关系构成的近似空间的不分明关系,粗糙集就用不分明对象类形成的上近似和下近似来描述。这些近似分别对应了确定属于给定类的最大的对象集合和可能属于给定类的最小的对象集合[3]。下近似和上近似的差是一个边界集合,它包含了所有不能确切判定是否属于给定类的对象。这种处理可以定义近似的精度和质量。粗糙集方法可以解决重要的分类问题,所有冗余对本栏目责任编辑:唐一东
173
人工智能及识别技术