不同知识粒度下粗糙集的不确定性研究
粗糙集与其他软计算理论结合情况进行综述研究
粗糙集与其他软计算理论结合情况进行综述研究摘要:最近几年,对于粗糙集的研究越来越多,尤其是粗糙集与其他软计算理论相结合的研究更为突出,取得了很多有意义的研究成果。
因此,将此方面目前的主要研究情况进行一个总结,主要介绍了目前粗糙集与模糊集、神经网络、证据理论等一些其他软计算理论之间的结合研究情况,并对这方面未来的发展提出了自己的一些观点。
关键词:粗糙集; 软计算; 模糊集; 粗糙模糊集; 模糊粗糙集Survey on com bination of rough sets and other soft computing theoriesTANG Jian-guo??1,2, William ZHU?1,SHE Kun?1, CHEN Wen??1,3(1.School of Computer Science & Engineering, University of Electronic Science & Technology of China, Chengdu 611731, China;2.School of Computer Science & Engineering, Xinjiang University of Finance & Economics, Urumqi 830012, China;3.Dept. of Computer Science, Fuzhou Polytechnic, Fuzhou 350108, China)?Abstract:In recent years, there are m ore and more research on rough sets.Especially,the com binations of rough sets and other soft computing theories have becam e more prominent,and have made a lot of m eaningful research results. In view of this, this paper gave a summary of the current status of these m ajor researchs.It focused on the com bination of rough sets and other soft computing theories such as fuzzy sets,neural net,evidence theory,and so on. In the end, it put forward the own viewpoint of the future development in this area.Key words:rough sets; soft com puting; fuzzy sets; rough-fuzzy sets;fuzzy-rough sets0 引言随着计算机技术和网络技术的迅速发展与广泛应用,人类社会进入了信息爆炸的时代,如何处理并有效利用这些信息已经成为世界各国学者研究的热点问题。
基于集对分析下的粗糙集理论模型研究论文
基于集对分析下的粗糙集理论模型研究摘要:粗糙集理论是一种新的处理模糊和不确定性知识的数学工具,其主要思想就是在保持分类能力不变的前提下,通过知识简约,导出问题的决策分析或分类规则。
而用集对分析理论的方法来建立概率粗糙集理论的模型,是一种研究粗糙集模型的新方法,它为处理不确定信息方面提供了一种新的途径和方法。
本文是用概率粗糙集模型,然后引入集对分析理论,把两者结合起来,提出一个新的集对分析下的粗糙集模型,并且讨论和研究该模型的一些性质。
关键字:集对,基对分析,粗糙集,概率粗糙集ABSTRACTRough set theory is one kind of new deal with the fuzzy andnon-deterministic mathematical tool, the main idea of Jiu Shi Zai Bao Chi Xia premise constant classification ability, through knowledge and simple, export issues of Juecefenxi 或classification rules. The use of set pair analysis theory is applied to establish the probability model of rough set theory, rough set model is a study of new methods for handling uncertain information that it provides a new approach and methods. This article is a rough set model with a probability, then the introduction of set pair analysis theory, the two together with a new set on the analysis of the rough set model, and discuss and study some properties of themodel.Key words:Set right, Based On The Analysis, Rough Sets, Probabilistic Rough Set一.引入集对分析的概念1.集对的概念集对是由一定联系的两个集合组成的基本单位。
不同知识粒度下粗糙集的不确定性研究
下 , 属 性 的 角 度 , 出 了 分 层 递 阶 的 知 识 空 间 链 , 现在 分 层 递 阶 的知 识 粒 度 下 部 分 文 献 中 定 义 的粗 糙 集 的粗 糙 从 给 发 熵 和模 糊 度 随知 识 粒度 的 变 化 规 律 不 一 定 符 合 人 们 的 认 识 规 律 . 信 息 熵 的 角度 提 出 了一 种 粗 糙 集 不 确 定 性 的 模 从
王国胤” 张清华”
成都 重庆 603) 10 1 406) 0 0 5 ( 南交通大学信息科学与技术学院 西 ( 庆 邮 电大 学 计 算 机 科 学 与 技 术 研 究 所 重
摘要Βιβλιοθήκη 粗 糙 集 的 不 确 定性 度 量 方 法 , 目前 主要 包 括 粗 糙 集 的 粗 糙 度 、 糙 熵 、 糊 度 和 模 糊 熵 . 不 同 知 识 粒 度 粗 模 在
糊 度 度 量 方 法 , 明 了这 种 模 糊 度 随知 识 粒 度 的减 小 而 单 调 递 减 , 补 了现 有 粗 糙 熵 和 模 糊 度 度 量 粗 糙 集 不 确 定 证 弥
性 的 不足 . 后 , 析 了 在 不 同 知 识 粒 度 下 粗 糙 度 和 模 糊 度 的变 化 关 系 . 最 分 关键 词 粗 糙 度 ; 糙 熵 ; 糊度 ; 识 粒 度 ; 空 间 粗 模 知 商
中 田 法分 类 号 TP 8 I
Unc r a nt f Ro g e s i f e e n wldg a l r te e t i y o u h S t n Dif r ntK o e e Gr nu a ii s
W ANG oYi ' Gu — n ∞ Z ANG n — a H Qig Hu t
A s at R u n s , o g n rp , uz es a dfzye t p r jr to sfr au — bt c r o g e s r u he to y fzi s , n uz nr yae n o ma h d s r o me o me
粗糙集的不确定性度量准则_胡军
法, 即知识越细, 知识含量越丰富, 知识的不确定性
越小. 并且, 若 R 为恒等关系 X, 即
U / X = {X X = { u }, u I U },
知 识 最 细; 若 R 为 全 域 关 系 D, 即
U / D= {X X = U}, 知识最粗. 定义 2[ 2 ] 设 ( U, R ) 为 Paw lak近似空间, 对于
任 意 集合X A U, 也称 为 U中 的一 个概 念, 有 下列
定义:
R (X ) = { x I U [ x ] R H X X ª } = G { [ x ] R I U R [ x ] R H X X ª }, ( 1)
上述研究为粗糙集的不确定性度量提供方法, 但是这些不确定性的度量方法中有些定义在某种情 况下并不合理, 即不符合认知规律. 比如, 王国胤等 指出粗糙集的不确定性度量在正域或负域的知识粒 进行细分时, 其值应该不变, 但粗糙熵却严格递减; 另外, 随着知识粒度的减小, 可能存在粗糙集的线性 模糊度不变或者二次模糊度反而增加的问题 . [ 15] 除 此之外, 我们还发现当粗糙集的下近似为空时, 粗糙 集的粗糙度与粗糙集的上近似无关. 那么, 不确定性 度量必须满足哪些条件. 满足什么条件的不确定性 度量是合理有效的. 如何设计合理有效的不确定性 度量方法. 针对这些问题, 本文从直观的认知角度, 给出粗糙集不确定性度量的基本准则和扩展准则, 并基于此对已有的不确定性度量进行分析, 为已有 的不确定性度量的合理性 ( 或不合理性 ) 提供理论 说明, 也为设计新的不确定性度量方法提供依据.
K ey W ords Uncertainty, Roughness, Rough Entropy, Fuzziness, Fuzzy Entropy, Rough Set
粗糙集理论在不确定性数据建模中的应用研究
粗糙集理论在不确定性数据建模中的应用研究引言:不确定性是现实世界中普遍存在的特征,而如何有效地处理不确定性数据一直是学术界和工业界的关注焦点。
粗糙集理论作为一种处理不确定性数据的有效工具,被广泛应用于各个领域。
本文将探讨粗糙集理论在不确定性数据建模中的应用研究。
一、粗糙集理论的基本原理粗糙集理论是由波兰学者Pawlak于1982年提出的一种处理不确定性数据的数学工具。
该理论的核心思想是将对象的属性分为确定性属性和不确定性属性,通过确定性属性的约简来降低不确定性属性的复杂度。
粗糙集理论的基本原理包括近似集、下近似集和上近似集等概念,通过这些概念可以对不确定性数据进行建模和分析。
二、粗糙集理论在数据挖掘中的应用数据挖掘是一种从大量数据中发现隐藏模式和规律的方法。
而不确定性数据的存在常常会给数据挖掘带来困难。
粗糙集理论的应用可以有效地处理不确定性数据,提高数据挖掘的效果。
例如,在决策树算法中,粗糙集理论可以用来处理属性值缺失和不完整的情况,从而提高决策树的准确性和可靠性。
三、粗糙集理论在模式识别中的应用模式识别是一种通过学习和训练将输入数据与已知模式进行匹配和分类的方法。
然而,由于数据的不确定性,模式识别的准确性和鲁棒性常常受到限制。
粗糙集理论可以通过近似集的方法对不确定性数据进行建模,从而提高模式识别的准确性。
例如,在人脸识别中,粗糙集理论可以用来处理光照变化和表情变化等不确定性因素,提高人脸识别的成功率。
四、粗糙集理论在风险评估中的应用风险评估是一种对潜在风险进行评估和分析的方法。
不确定性数据常常是风险评估的主要来源之一。
粗糙集理论可以通过近似集的方法对不确定性数据进行建模,从而提高风险评估的准确性和可靠性。
例如,在金融风险评估中,粗糙集理论可以用来处理市场波动和经济不确定性等因素,提高风险评估的准确性。
结论:粗糙集理论作为一种处理不确定性数据的有效工具,已经在数据挖掘、模式识别和风险评估等领域得到了广泛的应用。
基于粗糙集理论的不确定信息系统及其决策研究
基于粗糙集理论的不确定信息系统及其决策研究随着云计算、大数据等新兴信息技术的广泛应用,各领域的数据急剧增长,这其中结构化数据仍然是数据的主要表现形式之一。
在这些数据中往往含有大量冗余的与不确定性数据,从而导致模式分类的处理能力与决策的辨识能力的降低。
区间值型数据与直觉模糊型数据作为信息的不确定与不充分的表现形式是两种重要的结构化数据。
如何从这两类不确定数据中发现有价值的信息和规律为管理者提供决策参考,仍然是管理决策科学领域中的研究热点之一。
粗糙集理论作为数据挖掘领域中的重要方法之一,其最显著的优点是在于不需要提供解决问题所需要的数据以外的先验知识,只要面向数据本身提供的信息,就可以实现对数据的分类与决策规则的获取等任务。
该理论已经被成功地应用于机器学习、数据挖掘、决策分析等诸多领域。
经典的粗糙集模型是建立在等价关系基础之上的,要求相对较为严格,处理不确定性数据存在着局限性。
因此,经典粗糙集模型的各种扩充对于不确定信息系统的知识约简与决策规则的获取具有极其重要的意义。
本文以粗糙集为工具,结合国内外的研究现状,较为系统的研究了单粒度与多粒度背景下区间值信息系统与直觉模糊信息系统的属性约简及其决策规则的获取问题,同时面向交通事故因素关联分析问题构造了一种群决策属性粗糙集模型并加以应用。
本文的主要创新性工作如下:(1)分析了现有的容差关系在区间值聚类中的不足,本文构建了一种模糊等价关系,基于此关系分别从单粒度与多粒度视角建立了区间值信息系统的粗糙集模型,给出分辨矩阵、属性约简的判定定理及其属性约简的方法,基于模糊等价关系定义了区间值决策系统上的决策规则置信度因子,给出了决策规则的支持定理及其决策规则的获取方法。
(2)分别从单粒度与多粒度角度建立了直觉模糊信息系统的粗糙集模型。
定义了直觉模糊信息系统上的偏序关系及其分辨矩阵,给出了有效的属性约简方法。
基于直觉模糊决策系统的分类质量给出了相对属性约简的计算方法,研究了相对属性重要度以及序决策规则的提取方法,建立了直觉模糊信息系统的乐观多粒度与悲观多粒度两种模型,分析了相应的性质及其与单粒度模型的联系与区别,给出了基于多粒度序关系的决策规则置信度因子及其决策规则的获取方法。
基于知识含量的粗糙集不确定性度量
An Unc ra nt e s r orRo g S t s d n e t i y M a u e f u h e sBa e o Kno e e Ca a iy wldg p c t
L U i n S a Qu n I J Qi HI i a - K —
( e at n f t t t sa dM ah ma i ,S a d n ia c si t , ia 5 0 4 D p rme to ai i n t e t s h n o g F n n eI t u e Jn n 2 0 1 ) S sc c n t ( c o l f t e t sa dS se S in e , h n o g Unv ri , ia 5 1 0 S h o h ma i n y tm e c s S a d n ie s y Jn n 2 0 0 ) o Ma c c t
n w n e t i t e s r . e u c ran y m a u e
Ke wo d Ro g e s Un e t i t , o e g a a iy me s r , c r c Ro g n s y rs u h s t , c r an y Kn wld e c p c t a u e Ac u a y, u h e s
o h e u c ran ym e s r r u t e ic s e . I h n ,a x mpes o h ain lya dsmpii f h ft en w n etit au ea ef rh rds u s d nt ee d n e a l h wst er t ai n i l t o e o t cy t
不确定性信息处理的优势关系粗糙集方法研究的开题报告
不确定性信息处理的优势关系粗糙集方法研究的开题报告一、研究背景随着信息技术的不断发展,各种类型、各种规模的数据越来越多,这些数据所包含的信息呈现出多维、不确定、模糊等复杂特征。
传统的数据处理技术难以应对这些问题,因此需要更加有效的数据处理方法。
关系粗糙集是一种新兴的数据处理方法,它可以通过粗化和约简等技术,将复杂的数据处理任务转化为简单的决策问题。
粗糙集方法广泛应用于数据挖掘、机器学习、模式识别、决策支持等领域,并取得了良好的应用效果。
二、研究目的本研究旨在探究关系粗糙集方法在处理不确定性信息时的优势,并研究其应用于数据挖掘、机器学习、模式识别、决策支持等领域的具体方法和技术。
三、研究内容本研究的具体内容包括以下几个方面:1. 不确定性信息处理的基本概念和理论,包括概率论、模糊集理论、粗糙集理论等。
2. 关系粗糙集方法的原理及其在不确定性信息处理中的应用。
3. 关系粗糙集方法在数据挖掘、机器学习、模式识别、决策支持等领域的具体应用方法和技术。
4. 关系粗糙集方法在实际应用中的效果评估及比较分析。
四、研究方法本研究将采用文献综述、实验分析等方法,从理论和实践两个层面,深入探究关系粗糙集方法在处理不确定性信息时的优势和局限性,并研究其在各个领域的具体应用方法和技术。
五、研究意义本研究的意义在于为高效处理不确定性信息提供了一种新的方法和工具,推动了数据挖掘、机器学习、模式识别、决策支持等领域的发展,并提高了数据处理的效率和准确性。
此外,本研究所得到的实验结果和分析,还可以为相关领域的工作者提供参考和借鉴。
粗糙集理论及其在不确定性决策中的应用研究的开题报告
粗糙集理论及其在不确定性决策中的应用研究的开题报告
一、研究背景
在决策问题中,不确定性因素是无法避免的。
在面对不确定性因素时,传统的决策理论通常只考虑确定性因素,而未能考虑不确定性因素的影响,导致决策结果的不准确性和风险控制不充分。
粗糙集理论是20世纪80年代发展起来的一种处理不确定性信息和模糊信息的工具,因其能较好地应对不确定性因素,受到越来越多学者的关注。
二、研究目的
本研究的目的是探讨粗糙集理论在不确定性决策中的应用,旨在提出一种能够较好地应对不确定性因素,并具有一定实用性的决策方法。
三、研究内容
1、对粗糙集理论的基本概念和原理进行阐述,包括粗集的定义、属性约简以及决策规则等。
2、探讨粗糙集理论在不确定性决策中的应用,包括在多目标决策中的应用、在经济决策中的应用等。
3、对粗糙集理论应用于不确定性决策的实际案例进行分析和评价,比较粗糙集理论与传统决策方法的优劣。
四、研究方法和步骤
1、文献调研,了解粗糙集理论及其应用现状。
2、理论探讨,对粗糙集理论的基本概念和原理进行阐述。
3、案例分析,对粗糙集理论应用于不确定性决策的实际案例进行分析和评价。
4、结果讨论,比较粗糙集理论与传统决策方法的优劣。
五、研究意义
本研究可以在实践中提供一种能够较好地应对不确定性因素的决策方法,在对决策问题的研究和实践中具有一定的实际应用意义。
六、预期结果和进展计划
预计本研究可在两个学期内完成,主要成果包括:对粗糙集理论的基本概念和原理进行阐述,探讨粗糙集理论在不确定性决策中的应用,对粗糙集理论应用于不确定性决策的实际案例进行分析和评价,并比较粗糙集理论与传统决策方法的优劣。
如何应用粗糙集理论进行不确定性推理
如何应用粗糙集理论进行不确定性推理引言:在现实生活中,我们经常面临各种不确定性的情况,例如决策、预测、分类等。
而粗糙集理论作为一种有效的不确定性推理方法,可以帮助我们处理这些问题。
本文将介绍粗糙集理论的基本概念和应用,以及如何应用该理论进行不确定性推理。
一、粗糙集理论的基本概念粗糙集理论是由波兰学者Zdzisław Pawlak于1982年提出的一种处理不确定性的数学工具。
它通过对数据进行粗糙化和约简,来处理不完全和不确定的信息。
粗糙集理论的核心概念包括:决策系统、近似集和约简。
1.1 决策系统决策系统是指一个包含有限个对象的集合,每个对象都具有一组属性。
在决策系统中,我们需要进行决策或推理的对象就是这些属性。
1.2 近似集近似集是指在决策系统中,对于某个概念或属性,无法确定其确切的取值范围,但可以通过粗糙集的方法来确定其可能的取值范围。
近似集可以分为下近似集和上近似集,分别表示不确定属性的最小和最大可能取值范围。
1.3 约简约简是指在决策系统中,通过去除无关属性或冗余属性,来简化决策问题。
约简可以提高决策系统的效率和准确性,减少决策的复杂性。
二、粗糙集理论的应用粗糙集理论在不确定性推理中有广泛的应用,包括数据挖掘、模式识别、决策分析等领域。
下面将以数据挖掘为例,介绍粗糙集理论的应用过程。
2.1 数据预处理在数据挖掘中,首先需要对原始数据进行预处理,包括数据清洗、数据变换和数据规约等步骤。
在粗糙集理论中,数据清洗可以通过去除异常值和缺失值来提高数据的质量;数据变换可以通过离散化或连续化来适应粗糙集的处理方法;数据规约可以通过属性约简来减少数据的维度和冗余。
2.2 属性约简属性约简是粗糙集理论的核心应用之一,它通过去除无关属性或冗余属性,来简化数据挖掘问题。
属性约简可以通过计算属性的重要性或依赖性来实现。
其中,属性的重要性可以通过信息增益、信息熵或相关系数等指标来衡量;属性的依赖性可以通过计算属性之间的依赖关系来衡量。
粗集理论中知识的粗糙性研究
粗集理论 中知识 的粗糙性研 究
郑 芳 吴云 志 杭 小树
( 安徽 农业 大 学计 算机 科 学技 术 系, 各肥 20 3 ) 30 1
E m i:sa g - a lxh n @mali a . iJ cc m n
樯
要
粗 集 理 论 是 处 理 知 识 车精 确 和 不 克善 的 一种 归 纳 学 习方 法 , 其基 奉 思 想 是 在保 持 分 类能 力不 变的 前 提 下 , 过 透
k e i g he bly f ca s c t nE to y.s a e pn t a it o lsi a o nrp a mes r f u e r i .fI e u e t d s r te l sf a o ∞ i i f i au e o n et my CO b s d o ec i h ca ic t n a e b s i i
ee  ̄ g f t e p r x mai n s a eS me rp r e o u h n rp o n o ma o y t m r lo ic se n t i r& n o a p i t p c .o p e t s f r g e t y f i f r t n s s a e as d s u s d i s h o o o i o o i e h
Zh n a g W u Yu a i Ha g Xio h eg F n r h n asu
( e at e to o p t c ne a d t h ooy A h iA r utrlU ies y H fi2 0 3 ) D pr n fc m ue si c n e n l , n u gi l a nvri , ee 3 0 1 m r e c g c u t
粗糙集理论介绍和研究综述
X n}是由 U 的子集所构成的集类, 则 F 关于近似空间A 的下近似 ap rF 和上近似 ap rF 定
义为
ap rF = {ap rX 1, ap rX 2, …, ap rX n}
ap rF = {ap rX 1, ap rX 2, …, ap rX n}
F 关于 A 的近似精度 ΑA (F ) 和近似质量 rA (F ) 分别定义为
例3. 1 (无决策情形) S = (U , A , V , Θ) , 其中 U = {x 1, x 2, …, x 8}, 属性集 A = {c1, c2, c3, c4}, V 1= V 2= V 3= {1, 2, 3}, V 4= {1, 2}, 信息函数 Θ见表3. 1。
表311 一个信息系统
关于决策属性D 1Α D
是协调的, 这时也称决策表 (U , C 1∪D 1, V , Θ) 是协调的, 否则为不协调。如果用包含度理
论[48]来解释, 则决策表 (U , C 1∪D 1, V , Θ) 是协调的当且仅当包含度
ap rX = ∪ { [ x ] [ x ] ∩ X ≠ } = {x ∈ U [ x ] ∩ X ≠ } 其中[x ]是 x 所在的 R 2等价类。
下近似 ap r 也称作 X 关于A 的正域, 记作 PO S (X ) , 它可以解释为由那些根据现有
知识判断出肯定属于 X 的对象所组成的最大集合, 上近似 ap r 可以解释为由那些根据现 有知识判断出可能属于 X 的对象所组成的最小集合。U ap rX 称作 X 关于 A 的负域, 记 作 N EG (X ) , 可以解释为由那些根据现有知识判断出肯定不属于 X 的对象所组成的集 合。ap r ap rX 称作 X 的边界 (域) , 记作 B N (X ) , 它可以解释为由那些根据现有知识判断 出可能属于 X 但不能完全肯定是否一定属于 X 的对象中所组成的集合。
粗糙集理论及其应用研究
粗糙集理论及其应用研究摘要粗糙集理论是一种建立在模糊数学基础上的不确定性约简方法,因其广泛应用于特征选择、数据挖掘、模式识别等领域而被广泛研究。
本文将从粗糙集理论的概念、特征约简、决策规则等方面入手,对粗糙集理论及其应用进行综述,并以真实数据为例进行探究与验证。
研究表明,粗糙集理论具有很好的应用前景和实用性。
关键词:粗糙集理论;不确定性;特征选择;决策规则;应用AbstractRough set theory is an uncertain reduction method based on fuzzy mathematics, which has been widely used in feature selection, data mining, pattern recognition and other fields, and has been extensively studied. This paper will start with the concept, feature reduction, decision rules and other aspects of rough set theory, summarize rough set theory andits application, and explore and verify it with real data asan example. The research shows that rough set theory has good application prospects and practicality.Keywords: Rough set theory; uncertainty; feature selection; decision rules; application1. 引言粗糙集理论(rough set theory)是一种约简方法,是多学科交叉研究的成果之一。
粗糙集理论
研究背景( 研究背景(续)
1993年在加拿大Banff召开第二届国际RS理论与知识发 1993年在加拿大Banff召开第二届国际RS理论与知识发 年在加拿大Banff召开第二届国际RS 现研讨会。这次会议积极推动了国际上对RS RS理论与应用的研 现研讨会。这次会议积极推动了国际上对RS理论与应用的研 由于当时正值KDD 数据库知识发现) KDD( 究。由于当时正值KDD(数据库知识发现)成为研究的热门话 一些著名KDD学习者参加这次会议, KDD学习者参加这次会议 题,一些著名KDD学习者参加这次会议,并且介绍了许多应用 扩展RS理论的知识发现方法与系统。 RS理论的知识发现方法与系统 扩展RS理论的知识发现方法与系统。 1996年在日本东京召开了第5届国际RS研讨会, 1996年在日本东京召开了第5届国际RS研讨会,推动了 年在日本东京召开了第 RS研讨会 亚洲地区对RS理论与应用的研究。 RS理论与应用的研究 亚洲地区对RS理论与应用的研究。 1995年 Communication将其列为新浮现的计算机 1995年,ACM Communication将其列为新浮现的计算机 科学的研究课题。 科学的研究课题。
U \ aprX 称作X关于A的负域,记为neg (X)。 称作X关于A的负域,记为neg (X)。
解释为:由那些根据现有知识判断肯定不属于X 解释为:由那些根据现有知识判断肯定不属于X的对象 所组成的集合。 所组成的集合。
基本概念(续 基本概念 续)
U/R中的元素(集合)称为U的基本集或原子集, U/R中的元素(集合)称为U的基本集或原子集, 中的元素 任意有限个基本集的并称为可定义集, 任意有限个基本集的并称为可定义集,空集也称为可定 义集( 可定义集也称为精确集)。 )。否则称为不可定义 义集( 可定义集也称为精确集)。否则称为不可定义 集。 若将U中的集合称为概念或表示知识, A=( 若将U中的集合称为概念或表示知识,则A=(U,R 称为知识库,原子集(基本集) )称为知识库,原子集(基本集)表示基本概念或知识 模块。 模块。那么精确集可以在知识库中被精确地定义或描述 可表示已知的知识。 ,可表示已知的知识。
粗糙集理论及进展的研究
收稿日期:2006-07-07基金项目:安徽省教育厅自然科学研究项目(2006K J063B )作者简介:纪 滨(1970-),男,江苏人,讲师,硕士,研究方向为人工智能、信息安全。
粗糙集理论及进展的研究纪 滨(安徽工业大学计算机学院,安徽马鞍山243002)摘 要:粗糙集理论是一种较新的软计算方法,是分析和处理不完备信息的一种有效工具。
目前已在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了广泛应用。
文中描述了粗糙集的基本理论,分析了粗糙集理论研究的最新进展,指出了粗糙集理论研究中存在的问题,并对粗糙集理论研究的发展趋势进行了展望。
关键词:粗糙集;知识发现;属性约简;规则提取;数据挖掘中图分类号:TP301.6;TP18 文献标识码:A 文章编号:1673-629X (2007)03-0069-04R esearch on Rough Set Theory and Its Progress on ApplicationsJ I Bin(School of Computer Science ,Anhui University of Technology ,Maanshan 243002,China )Abstract :Rough set theory is a relatively new computing method and tool to analyze and deal with vagueness and uncertainty effectively.It has been widely used in the area of AI ,data mining ,pattern recognition ,fault diagnostics etc.The basic rough set theory is described.Recent studies and the existing problems of rough set theory are analyzed.Future research directions are predicted.K ey w ords :rough set ;knowledge discovery ;attribute reduction ;rule abstraction ;data mining0 前 言粗糙集(RS )理论是一种刻画不完整性和不确定性的数学工具,能有效分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。
知识粗糙性与知识粒度的关系研究
越低 , 即知识的粒度越低 ; 反 , 果划 分 的等价 类个 相 如
数越少 , 即每个等价类包含的对象个数越 多 , 则划分的
粗糙性越 高 , 即知 识 的粒度 越大 , 时 能获 得关 于 【 这 ,
中对象 的知识 或信息量就越少 , 【 当 ,中的所 有对 象归
为一类 时 , 到关于 U 中对象 的信息量降 为零 。 能得
r u h esa d i o rs o d n r a ua i i ru h e he r og ns n t c rep n e tg n l rt n o g stt oy,d cae ta kn wld eru h esi c eyrltdt rn ea u o s y e lrd h t o e g o g n s s l l eae og a u mo nt f os l
知 识 粗 糙 性 与 知 识粒 度 的关 系研 究
李 鸿
( 宿州学院, 安徽 宿州 2 4 0 ) 30 0
摘 要 : 出了知 识 的粒 数 、 提 籽数 和粒 度 的概 念 , 明 了粗 糙 集 理论 中知 识 粗糙 性 与 其所 对应 的粒 度 之间 的单 调关 系 , 证 从
而揭示 了知识粗 糙性 与 其所 对应 的知识 的粒数 、 和粒 度之 间 的密切 关 系 。知 识 粒度 的概 念从 物理 意 义 上反 映 了 知识 籽数
从不 可分 辨关 系的概 念 可知 , 信 息 系统 I 对 S= ( R) P R是属性集 合的一 个 子集 , 可分辨 关 U, , 不
1 知 识 粗 糙 性
在粗糙集理论 中, 由于近似空 间( R) U, 中需要对
体 说来 , 知识的粗糙性部分地来 自 U 上 的不 可区分关
不同知识粒度下粗糙集的不确定性研究_王国胤
第31卷 第9期2008年9月计 算 机 学 报CH INESE JOURNA L OF COM PU TERSVo l.31N o.9Sept.2008收稿日期:2008-07-14.本课题得到国家自然科学基金(60573068,60773113)、重庆市教委科学技术研究项目(KJ060517)和重庆市自然科学基金重点项目(2008BA2017)资助.王国胤,男,1970年生,博士,教授,博士生导师,主要研究领域为粗糙集理论、粒计算、数据挖掘、知识技术等.E -mail:w anggy@cqu .张清华,男,1974年生,博士研究生,主要研究方向为智能信息处理、粒计算等.不同知识粒度下粗糙集的不确定性研究王国胤1),2)张清华1),2)1)(西南交通大学信息科学与技术学院 成都 610031)2)(重庆邮电大学计算机科学与技术研究所 重庆 400065)摘 要 粗糙集的不确定性度量方法,目前主要包括粗糙集的粗糙度、粗糙熵、模糊度和模糊熵.在不同知识粒度下,从属性的角度,给出了分层递阶的知识空间链,发现在分层递阶的知识粒度下部分文献中定义的粗糙集的粗糙熵和模糊度随知识粒度的变化规律不一定符合人们的认识规律.从信息熵的角度提出了一种粗糙集不确定性的模糊度度量方法,证明了这种模糊度随知识粒度的减小而单调递减,弥补了现有粗糙熵和模糊度度量粗糙集不确定性的不足.最后,分析了在不同知识粒度下粗糙度和模糊度的变化关系.关键词 粗糙度;粗糙熵;模糊度;知识粒度;商空间中图法分类号T P 18Uncertainty of Rough Sets in Different Knowledge GranularitiesWANG Guo -Yin1),2)ZH ANG Q ing -H ua1),2)1)(S choolof I nf ormation Sc ienc e &T echnolog y ,S outh w est J iaotong Univ er sity ,Ch engd u 610031)2)(In stitute of Compu ter S cience &T ech nology ,Chongqing Unive rsity of P osts and Te lec ommunications ,Chong qing 400065)Abstract Rougness,rough entropy,fuzziness,and fuzzy entro py are major m ethods fo r measur -ing the uncertainty o f r oug h sets.In different know ledge g ranularity levels,a hierar chical kno w -l edg e space chain is proposed based o n the attributes in information sy stems.Some regularities of the changing of rough entr opy and fuzziness of a ro ug h set w ith the know ledge g ranularity are found to be inconsistent w ith hum an cog nition.A new m ethod for measuring the fuzziness of rough sets is pro posed based on info rmatio n entropy.T he fuzziness m easured by the new method is m onotonously decr easing w ith the refining o f know ledg e g ranularity in appo riximation spaces.It overcomes the problem of roughness and rough entr opy.Finally,the r elations o f the chang ing of roughness and fuzziness are analyzed in different know ledg e gr anular ities.Keywords roughness;rough entropy;fuzziness;know ledge granularity;quotient space1 引 言进入21世纪以来,不确定性问题的研究工作受到越来越多的关注[1].如何对不确定性信息和数据进行更加有效的处理,从而发现不确定性信息中蕴涵的知识和规律,是一个重要的研究课题[2].Zadeh在1965年提出的模糊集(Fuzzy sets )理论[3],Paw lak 在1982年提出的粗糙集(Ro ug h sets)理论[4]和张钹、张铃在1990年提出的商空间理论[5]是粒计算(granular co mputing )的三大基础数学理论,是处理不确定性问题的有效方法,已广泛应用于模式识别、知识发现、问题求解以及不确定推理等领域.模糊集作为经典康托集的推广,利用隶属函数来表示对象关于集合的隶属程度,重在区分属于同一集合的不同对象间的隶属程度,其不足之处在于其隶属函数往往需由专家给出,带有一定的主观性;粗糙集理论是处理不完全和不精确信息的一种有效数学工具[6],建立在对论域分类的基础上,将不确定知识用已知知识库中的知识来刻画,对不确定问题的描述和处理比较客观,但粗糙集理论是研究在给定的空间(知识基)上不同概念的表示、转换和相互依存问题的,其论域是点集,元素之间没有拓扑关系;商空间理论基于复杂问题粒化的思想,建立了一种商结构的形式化问题求解理论体系,利用保真、保假原理来高效地获得问题的解或近似解,它不仅针对给定的商空间(知识基)来讨论知识的表达问题,而且利用对象之间的结构(偏序结构或拓扑结构),在所有可能的商空间中找出最合适的商空间,从不同商空间(不同角度)观察同一问题,以便得到对问题不同角度的理解,最终合成对原问题总的解(近似解)[5].可以说,模糊集理论是一种/软0计算方法,粗糙集理论是/硬0计算方法,而商空间理论是介于模糊集和粗糙集之间的一种问题求解(近似解)的计算方法,模糊商空间可以利用分层递阶结构/廉价0地描述问题的不确定性[7].另外,Gau和Buehrer提出的Vague集理论,通过对模糊对象赋予真、假隶属函数来处理模糊性,是模糊集理论的扩充[8].依靠各自的特点和优势,这些方法已经广泛应用于对不确定、不精确、不完整信息的处理以及对大规模海量数据的挖掘和对复杂问题的求解[9].李德毅认为[1]:在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式,不确定性和确定性并非完全对立,在一定程度上可以相互转化.例如,某一层次的不确定性可能是更高层次上的确定性,种种不确定性中还可能隐藏着某些确定的规律等.人工智能研究人员的任务,就是寻找并且能够形式化地表示不确定性中的规律性,至少是在某种程度上的规律性,从而使机器能够模拟人类认识客观世界、认识人类本身的认知过程.当前,对于粗糙集的不确定性度量的方法主要有粗糙度、粗糙熵、模糊度和模糊熵.在同一知识粒度的近似空间下,Chakrabarty[10]等人较为详细地讨论了粗糙集的模糊性度量问题; Baner jee[11]和H uy nh[12]对模糊集的粗糙度进行了研究;王国胤[13-15]等人从信息观的角度分析了决策信息系统的不确定性,并讨论了代数观和信息观意义下粗糙集的不确定性的异同;梁吉业[16-18]等人从信息熵、条件熵、互信息和知识粒度的角度分析了粗糙集的不确定性,并给出了一种新的粗糙集的粗糙熵;苗夺谦[19-21]等人从粒计算和信息表示等角度研究了知识的粒度、知识的粗糙度与信息熵之间的关系.然而,随着属性个数的变化,论域空间形成一个分层递阶结构(金字塔结构,即商空间).当知识空间中的知识粒度严格递减时,一个粗糙集的粗糙度、粗糙熵、模糊度和模糊熵将怎样变化?它们之间的关系又是如何?关于这方面的研究工作,已有一定的研究基础,特别是研究粗糙精度、粗糙度、分类精度、粗糙熵和条件熵在不同知识粒度的近似空间下的变化已经比较详尽[11-16,18-21].综合分析上述研究工作可以发现,粗糙集的粗糙度随着知识粒度的减小而单调递减,这符合人们的认知直觉.但是,很多实际例子表明,当属于一个集合的正域或负域中的知识颗粒被细分时,粗糙集的粗糙度将不发生变化;而且当属于集合边界域中的知识颗粒被细分时,它的粗糙度可能也不发生变化,这与人们的认知直觉不吻合.为了克服这个问题,有的研究者提出了粗糙熵,如Liang[18]等人定义了一种粗糙熵,它是集合X的粗糙度与近似空间中的知识粒度之积,并得到结论:这种粗糙熵随着知识颗粒的细分严格单调递减.这个结论在一定程度上弥补了用粗糙度度量粗糙集不确定性的不足.但是,我们分析发现,如果对集合X 负域的知识颗粒(与X无关)进行细分,粗糙度将不变(符合人们的认知规律),但粗糙熵却严格递减(不符合人们的认知规律).这说明与集合X无关的知识颗粒的变化也会导致X的粗糙熵的变化,这与人们对不确定性问题的认知不符.为此,需要进一步研究粗糙集不确定性的另一度量方式)))粗糙集的模糊度.虽然在同一知识粒度的近似空间下粗糙集的模糊性得到研究者的关注[10,16,18-21],但是关于粗糙集的模糊度在不同知识粒度的近似空间(分层递阶的近似空间)下将如何变化的研究工作甚少.粗糙集的模糊度随着近似空间中知识颗粒的细分将如何变化?对这个问题的探索,有利于发现不确定性问题中隐藏的某些确定规律.从认知角度来讲,集合X随着与它有关的知识颗粒的细分,它的不确定性要降低,模糊度也应该降低.但是,文献[10]给出的粗糙集模糊度在知识粒度细化的过程中可能反而会逐渐增加,这与人们认知15899期王国胤等:不同知识粒度下粗糙集的不确定性研究不确定性问题的直觉相悖.本文从属性空间的角度,主要讨论不同知识粒度的近似空间下(即不同层次的商空间)粗糙集的模糊度的变化问题,提出一种基于信息熵的粗糙集的模糊性度量方法,证明这种模糊度随着知识粒度的减小而单调递减,弥补粗糙度和粗糙熵对粗糙集不确定性度量的不足.这种模糊度的物理背景非常清楚,它既刻画出集合X的边界域中属于X的那部分元素/贡献0的不确定性,也刻画出不属于X的那部分元素/贡献0的不确定性,更精确地描述了粗糙集的不确定性.通过分析发现,如果集合X的边界域中的知识颗粒被/成比例0地细分,这种粗糙集的模糊度不会发生变化;如果集合X的边界域中的知识颗粒被/不成比例0地细分,这种粗糙集的模糊度将严格递减.这个结论克服了现有部分度量粗糙集不确定性方法的不足,与人们对不确定性问题的认知规律非常吻合.本文第2节介绍相关基本概念;第3节讨论不同知识粒度下粗糙集的不确定性度量问题;第4节提出一种基于信息熵的粗糙集模糊度度量方法;第5节讨论不同知识粒度下粗糙集的粗糙度和模糊度的变化关系;第6节是结束语.2相关基本概念2.1知识的粒度定义1[6]设一个信息系统是四元组S=(U,A, V,f),其中U={x1,x2,,,x n}是非空有限对象集,称为/论域0,A={a1,a2,,,a m}是属性集,V= Ga I CV a,V a称为属性a的/值域0,f a:U y V a是信息函数.不可分辨关系:I N D(B)={(x,y)I U@U| P a I B(f a(x)=f a(y))}是U上的等价关系,所有等价类的集合记为U/I ND(B),简写为U/B.一个论域的划分构成粗糙集的一个近似空间,划分中的每一个分块称为一个知识颗粒,度量知识粒度的方法很多,这里我们采用Liang等人给出的知识粒度的度量方法[18].设U={x1,x2,,,x n},属性集B(B A A)对论域的划分U/B={X1,X2,,, X m},则U/B的知识粒度定义为G(U/B)=1|U|2E mi=1|X i|2(1)容易证明:1nF G(U/B)F1(|#|表示集合的元素个数,下同).2.2分层递阶的近似空间任给一个信息系统S=(U,A,V,f),A={a1, a2,,,a m}是属性集,任给一个属性子集B(B A A),我们可以得到论域U的一个划分U/B.U/B中的每个元素[x]B([x]B表示元素x(x I U)的等价类)表示近似空间的一个知识颗粒.设P(A)表示集合A={a1,a2,,,a m}的幂集.不难得出:代数系统3P(A),A4构成一个完备的偏序格.其中,Á是这个偏序格的最小元,A是最大元.定义2.在格3P(A),A4对应的H asse图中,从Á到A的一条路径称为属性链.例1.A={a1,a2,a3},3P(A),A4对应的H asse图如图1所示.图1格3P(A),A4如ÁA{a1}A{a1,a2}A{a1,a2,a3},ÁA{a1}A {a1,a3}A{a1,a2,a3}和ÁA{a3}A{a1,a3}A {a1,a2,a3}等都是属性链.定义3[21].设U={x1,x2,,,x n}为非空有限论域,P c={P c1,P c2,,,P c l}和P d={P d1,P d2,,,P d m}为U上的两个划分空间,如果P P ciI P c(v P d j I P d(P c i A P d j)),则称P c是P d的细划分空间,记为P c M P d.定义4[22].设U={x1,x2,,,x n}为非空有限论域,P c={P c1,P c2,,,P c l}和P d={P d1,P d2,,, P d m}为U上的两个划分空间,如果P c M P d,且v P ciI P c(v P d j I P d(P c i<P d j)),则称P c是P d的严格细划分空间,记为P c;P d.定理1.设格3P(A),A4中的任意一条属性链为Á=B0<B1<B2<,<B m=A,则U/B m M U/B m-1M,M U/B1M U/B0={U}.在任何一条属性链下,对象集U被分成不同的划分,这些划分在/M0关系下构成一个金字塔结构,称为分层递阶的近似空间.例2.一个信息系统U={x1,x2,,,x10}, A={a1,a2,a3},如表1所示.1590计算机学报2008年表1一个信息系统x1x2x3x4x5x6x7x8x9x10x11x12 a1111111122333a2011111122333a3000000123445如果取属性链ÁA{a1}A{a1,a2}A{a1,a2, a3},可得到如下的分层递阶近似空间:U/Á={{x1,x2,,,x10}};U/{a1}={{x1,x2,x3,x4,x5,x6,x7},{x8,x9},{x10,x11,x12}};U/{a1,a2}={{x1},{x2,x3,x4,x5,x6,x7},{x8,x9},{x10,x11,x12}};U/{a1,a2,a3}={{x1},{x2,x3,x4,x5,x6},{x7},{x8},{x9},{x10,x11},{x12}}.在这个分层递阶的近似空间中,随着属性个数的增加,知识颗粒逐渐/细化0.2.3粗糙集不确定性的几种度量方法2.3.1粗糙集的粗糙度定义5[6].在一个信息系统中,I N D(B)是U 上的一个不可分辨关系,[x]B表示对象x的等价类,对象子集X A U,X的下近似集(BX)、上近似集(B X)和边界域(BN B(X))分别定义如下:BX={x I U|[x]B A X},B X={x I U|[x]B H X XÁ},B N B(X)=B(X)-B(X).定义6[22].在一个信息系统中,I N D(B)是U 上的一个不可分辨关系,[x]B表示对象x的等价类,对象子集X A U,X的粗糙精度和粗糙度为粗糙精度:A B(X)=R(X)R(X);粗糙度:Q B(X)=1-A B(X)=1-R(X)R(X)=B N B(X)R(X).显然,对于任意的X A U,都有0F A B(X)F1且0F Q B(X)F1.如果B(X)=B(X)=X,即Q B(X)=0(或A B(X)=1),称X关于B是精确的;如果B(X)<B(X),即0<Q B(X)F1(或0FA B(X)<1),称X关于B是粗糙的.2.3.2粗糙集的粗糙熵关于粗糙集的粗糙熵的定义形式很多,这里我们采用Liang提出的粗糙熵.定义7[18].设U={x1,x2,,,x n},属性子集B(B A A)对论域的划分U/B={X1,X2,,,X m},X A U,则属性集合B的熵定义为E(B)=-E m i=1|X i||U|lo g1|X i|2(2) X在划分U/B上的粗糙熵定义为E B(X)=Q B(X)E(B)(3)集合X的粗糙熵是粗糙度与属性集合B的熵之积.2.3.3粗糙集的模糊度设U={x1,x2,,,x n}是非空有限集,A是U 上的模糊集,A(x i)是模糊集的隶属函数.用P(U)表示集合U上的所有经典集合,F(U)表示集合U 上的所有模糊集合.显然,P(U)A F(U).定义8[23].P A I F(U),若映射d:F(U)y [0,1]满足条件:(1)d(A)=0当且仅当A I P(U);(2)d(A)=1当且仅当P xiI U A(x i)=12;(3)P xiI U B(x i)F A(x i)F12D B(x i)E A(x i)E12y d(B)F d(A);(4)d(A)=d(A c),这里A c是A的补集,则称映射d是F(U)上的一个模糊度,记为d(#).设U是非空对象集,对象子集X A U,则对于任意的x(x I U),x属于集合X的隶属函数为L B X(x)=|X H[x]B||[x]B|(4)显然,0F L B X(x)F1,它表示任意一个元素属于集合X的程度.令F B X={L B X(x1),L B X(x2),,, L B X(x n)},则F B X是集合U上的一个模糊集(即F B X I F(U)).由粗糙集上、下近似和边界的概念,不难得出:BX={x I U|L B X(x)=1};B X={x I U|0<L B X(x)F1}.模糊度是度量不确定问题的有力工具,很多研究者对粗糙集的模糊度进行了分析,Chakrabar ty[10]等人提出粗隶属函数可以导出模糊集,并利用模糊集与它的最邻近清晰集间的距离来度量粗糙集的模糊性.定义9[10].设A是U上的模糊集,与A有关A,其定义为AA(x i)<015A(x i)>015或1,A(x i)=015.15919期王国胤等:不同知识粒度下粗糙集的不确定性研究一般地,当A(x i)=015时,取A(x i)=1,这时A=A015,这里A015表示A的015截集.Chakrabarty[10]等人利用模糊集F B X和它的最邻近清晰集F B X之间的距离给出了粗糙集的两种模糊性度量.(1)线性模糊度:d K l(F B X)=2nE ni=1|L B X(x i)-L B X(x i)|(5)(2)二次模糊度:d K q(F B X)=2nE ni=1(L B X(x i)-L B X(x i))2(6)其中,L B X(x i)表示x i在模糊集F B X中的隶属函数. 2.3.4粗糙集的模糊熵定义10[24].P A I F(U),若映射e:F(U)y [0,+])满足条件:(1)e(A)=0当且仅当A I P(U);(2)e(A)取得最大值当且仅当P xi I U A(x i)=12;(3)P xi I U B(x i)F A(x i)F12D B(x i)E A(x i)E12y e(B)F e(A);(4)e(A)=e(A c),这里A c是A的补集,则称映射e是F(U)上的一个模糊熵,记为e(#).梁吉业[16-18]等人建立了粗糙集的一种模糊熵:E L(F B X)=E n i=1L B X(x i)(1-L B X(x i))(7)并得出了相应的结论:一个精确集的模糊熵等于0,一个粗糙集合与它的补集具有相同的模糊性.2.3.5信息熵信息熵是一个非常广泛的概念,1948年Shanno n 信息熵[25]的提出为信息的不确定度量奠定了理论基础,Klir基于Shannon熵提出了一种度量不确定性的信息熵[26]:H(F B X)=-2nE ni=1L B X(x i)log L B X(x i)2(8)容易验证,H(#)不满足模糊度的定义(定义8),不是模糊度.3不同知识粒度下粗糙集的不确定性度量目前,度量粗糙集不确定性的方法主要有粗糙度、粗糙熵、模糊度和模糊熵.在分层递阶的近似空间下,随着知识颗粒的细分,不同层次上的知识粒度有何变化规律?定理2和定理3揭示了这个变化规律.定理2[21].设格3P(A),A4中的任意一条链为Á=B0<B1<B2<,<B m=A,则G(U/B i+1)F G(U/B i)(i=0,1,2,,,m-1;下同).定理3[21].设格3P(A),A4中的任意一条链为Á=B0<B1<B2<,<B m=A,如果U/B i+1; U/B i,则G(U/B i+1)<G(U/B i).在分层递阶的近似空间上,随着知识粒度的减小,粗糙集的粗糙度将如何变化?定理4回答了这个问题.定理4[6].设格3P(A),A4中的任意一条链为Á=B0<B1<B2<,<B m=A,对于任意的X A U,有Q Bi+1(X)F Q Bi(X).定理4揭示了集合X的粗糙度随知识粒度减小而单调递减.注意:如果U/B i+1;U/B i(严格的细分关系),不一定有Q Bi+1(X)<Q Bi(X)(严格单调递减).如例2中,X={x1,x2,x3,x4,x5,x6,x7,x8, x9},取属性链Á<{a1}<{a1,a2}<{a1,a2,a3},则U/{a1,a2,a3};U/{a1,a2},而Q{a1,a2,a3}(X)= Q{a1,a2}(X).这表明集合X在不同知识粒度的近似空间中可能得到相同的粗糙度.为了克服这个问题, Liang[18]给出一种粗糙熵E B(X)=Q B(X)E(B),该粗糙熵随着近似空间中知识粒度减小会有何变化规律呢?定理5[21].设格3P(A),A4中的任意一条链为Á=B0<B1<B2<,<B m=A,对于任意的X AU,若G(U/B i+1)<G(U/B i),则E Bi+1(X)<E Bi(X).定理5表明,随着分层递阶的近似空间中知识粒度的减小,E B(X)严格单调递减.这个结论在一定程度上弥补了粗糙度的缺陷.但是,我们分析发现,当近似空间中知识粒度的减小是由于集合X负域中的知识颗粒(与X无关)被细分时,粗糙度不会改变(符合认知规律),但粗糙熵E B(X)却严格递减(不符合认知规律).这表明与集合X无关的知识颗粒(X的负域中的知识颗粒)细分时,粗糙集的粗糙熵会减小,与人们的认知规律不吻合.例3.设U={x1,x2,,,x10},U/B i={{x1, x2,x3},{x4,x5,x6,x7},{x8,x9,x10}},U/B i+1= {{x1,x2,x3},{x4,x5,x6,x7},{x8,x9},{x10}},X={x3,x4,x5,x6,x7},则Q Bi(X)=Q Bi+1(X)=37;1592计算机学报2008年E B i (X )=370(8+log 7292),E B i +1(X )=370(8+log 1082),所以E B i (X )>E B i +1(X ).因此,用粗糙熵度量粗糙集的不确定性还是存在一定的局限性.根据商空间理论中解释/模糊0和/清晰0之间粒度变化的关系/模糊在一定粒度下会变得清晰,而清晰在一定粒度下会变得模糊0和李德毅指出的[1]/不确定性和确定性并非完全对立,在一定程度上可以相互转化0,本文接下来重点讨论,在分层递阶的近似空间中,粗糙集模糊度随着知识粒度的变化而变化的情况.设格3P (A ),A 4中的任意一条链为Á=B 0<B 1<B 2<,<B m =A ,对于任意的X A U,模糊集F B i X与FB i +1X 的模糊度的大小关系如何呢?对这个问题的讨论要比粗糙度和粗糙熵复杂得多.(1)如果U/B i =U/B i +1,对任意的模糊性度量方法,F B i X与FB i +1X的模糊度都相等;(2)如果U/B i +1;U/B i ,容易证明:d K l (F B i +1X)Fd K l (F B i X ).但d K q (FB i +1X)和d K q (F B i X)的大小关系不确定.如例2中取X ={x 6,x 7,x 8,x 9},U/{a 1,a 2};U/{a 1},则F {a 1}X =27,27,27,27,27,27,27,1,1,0,0,0;F {a 1,a 2}X =0,26,26,26,26,26,26,1,1,0,0,0;d K l (F {a 1,a 2}X )=d K l (F {a 1}X )=21227@7=13;d K q (F {a 1)X )=212272@7=473;d K q (F {a 1,a 2)X )=212262@6=463.这个例子说明,如果用d K l (#)和d K q (#)来测量粗糙集的模糊度有以下缺陷:用d K l (#)来测量X ={x 6,x 7,x 8,x 9}的模糊度,U/{a 1,a 2};U/{a 1},G(U/{a 1,a 2})<G (U/{a 1}),且68=Q {a 1,a 2}(X )<Q {a 1}(X )=79,这表明随着知识粒度的减小,粗糙度在降低,然而X 的线性模糊度却不变d K l (F {a 1,a 2}X )=d K l (F {a 1}X ),二次模糊度反而增加d K q (F {a 1,a 2}X )>d K q (F {a 1}X ),这与人们的直觉相悖.4 基于信息熵的粗糙集模糊度为了能够将信息熵应用来测量粗糙集的模糊度,我们进一步分析发现:粗糙集的模糊性来自边界域的两个部分,一部分是边界域中属于集合X 的元素,一部分是边界域中不属于集合X 的元素,而式(8)的信息熵只考虑了前面一部分,没有涉及第二部分.为此,我们提出一种新的基于信息熵的粗糙集的模糊度度量方法:d Z (F BX)=-1n ln2E ni =1[L B X (x i )ln L BX (x i )+(1-L B X (x i ))ln (1-L BX (x i ))](9)直观上讲,式(9)由L B X (x i )ln L BX (x i )和(1-L B X (x i ))ln (1-L BX (x i ))两部分信息熵构成,前者主要反映属于集合X 的元素/贡献0的不确定性,后者主要反映不属于集合X 的元素/贡献0的不确定性,这两部分同时考虑才能更精确地刻画粗糙集的不确定性.接下来,我们验证d Z (#)满足定义8.证明. d Z (F B X )=0当且仅当P x iI U (L B X (x i )=0D L B X (x i )=1),即F B X 是普通的康托集,F BX I P(U).定义8的条件(1)满足.对于任意的x i (x i I U ),令L BX (x i )=t i (0Ft i F 1),令f (t i )=t i ln t i +(1-t i )ln (1-t i ),易证,函数f (t i )在唯一的极值点t i =12处取得最小值-ln2.所以,d Z (F BX )在点L BX (x i )=12处取得最大值1.定义8的条件(2)满足.对于任意的x i (x i I U),由于f (t i )=t i ln t i +(1-t i )ln (1-t i )在区间0,12单调递减,在12,1单调递增,在t i =12处取得最小值,所以,d Z (F BX)=-1n ln2E ni =1f (t i )在区间0,12单调递增,在12,1单调递减,在t i =12处取得最大值.因此,当L BX (x i )=t i F t c i =L B cX (x i )F 12或L BX (x i )=t i E t ci =L B cX (x i )E12时,有d Z (F B X )F d Z (F B cX ).定义8的条件(3)满足.d Z ((F B X )c )=d Z (F BX )显然成立,定义8的条件(4)满足.综上所述,d Z (#)是粗糙集的一种模糊度.下面,我们讨论模糊度d Z (#)随近似空间中知识粒度的减小的变化趋势.定理6. 设格3P (A ),A 4中的任意一条链为15939期王国胤等:不同知识粒度下粗糙集的不确定性研究Á=B0<B1<B2<,<B m=A,如果U/B i+1; U/B i,则对于任意的X A U,都有d Z(F B i+1X)F d Z(F B i X).证明.设U/B i={P1,P2,,,P r},U/B i+1= {Q1,Q2,,,Q t}(r<t).因为,U/B i+1;U/B i,令$B i=B i-B i+1表示属性增量.则属性增量$B i一定对U/B i={P1,P2,,,P r}中的至少一个元素进行细分.为简化证明,我们不妨设U/B i中只有P1被$B i分为两个部分(分为多个部分的证明情况类似),P1=Q i G Q j(Q i,Q j I U/B i+1),U/B i的其它元素不变(其它情况可以根据这种情况进行证明).下面分情况讨论:(1)当P1H X=Á时,对于任意的x(x I P1),L B i X(x)=|P1H X||P1|=0.因为P1=Q i G Q j(Q i H Q j=Á),所以,对于任意x(x I Q i或者x I Q j),L B i+1X(x)=|Q i H X| |Q i|=|Q j H X||Q j|=0.因此,属性增量$B i对U/B i={P1,P2,,,P r}的细分不改变模糊集F B i X的隶属函数值,即F B i X=F B i+1X,所以d Z(F Bi+1 X)=d Z(F B i X).(2)当P1A X时,对于任意的x(x I P1),L B i X(x)= |P1H X||P1|=1.由于P1=Q i G Q j(Q i H Q j=Á),所以,对于任意的x(x I Q i或者x I Q j),L B i+1X(x)=|Q i H X| |Q i|=|Q j H X||Q j|=1.因此,属性增量$B i对U/B i={P1,P2,,,P r}的细分不改变模糊集F B i X的隶属函数值,即F B i X=F B i+1X,即d Z(F Bi+1X)=d Z(FBiX).(3)当P1H X XÁ,且P1H X X P1时,因为P1=Q i G Q j,则|P1|=|Q i|+|Q j|(Q i H Q j=Á),d Z(F B i X)=1n ln2E ni=1[-L B i X(x i)ln L B i X(x i)-(1-L B i X(x i))ln(1-L B i X(x i))]=1n ln2ExiI P1[-L B i X(x i)ln L B i X(x i)-(1-L B i X(x i))ln(1-L B i X(x i))]+ ExjP1[-L B iX(x j)ln L B iX(x j)-(1-L B i X(x j))ln(1-L B i X(x j))],下面分类讨论:¹如果Q i H X=Á,设|P1H X|=a且|P1|-|P1H X|=b,则公式Ex i I P1[-L B i X(x i)ln L B i X(x i)-(1-L B i X(x i))ln(1-L B i X(x i))]=-a ln aa+b-b ln ba+b,ExiI QiG Qj[-L B i+1X(x i)ln LBi+1X(x i)-(1-L B i+1X(x i))ln(1-LBi+1X(x i))]=E xiI Qj[-L B i+1X(x i)ln LBi+1X(x i)-(1-L B i+1X(x i))ln(1-LBi+1X(x i))]=-a lnaa+b1-b1lnb1a+b1,这里|Q j H X|=a1=a,|Q j|-|Q j H X|=b1< b.令函数f(a,b)=-a lnaa+b-b lnba+b,因为9f9b= lna+bb>0,所以f(a,b)关于b是增函数.因为b1<b,所以-a lnaa+b-b lnba+bE-a ln aa+b1-b1lnb1a+b1.º如果Q j A X,则|Q i H X|=a1<a,|Q i|-|Q i H X|=b1=b,ExiI QiG Qj[-L B i+1X(x i)ln LBi+1X(x i)-(1-L B i+1X(x i))ln(1-LBi+1X(x i))]=E xiI Qi[-L B i+1X(x i)ln LBi+1X(x i)-(1-L B i+1X(x i))ln(1-LBi+1X(x i))]=-a1lna1a1+b-b ln ba1+b.因为9f9a=lna+ba>0,所以f(a,b)关于a是增函数.又因为a1<a,所以-a lnaa+b-b lnba+bE -a1lna1a1+b-b lnba1+b.»如果Q i H X XÁ且Q i H X X Q i,Q j H X XÁ且Q j H X X Q j,令|X H Q i|=a1>0,|X H Q j|= a2>0,|Q i|-|X H Q i|=b1>0,|Q j|-|X H Q j|= b2>0,此时,a1+a2=a,b1+b2=b.ExiI P1[-L B i X(x i)ln L B i X(x i)-(1-L B i X(x i))# ln(1-L B i X(x i))]=-a lnaa+b-b lnba+b;ExiI QiG Qj[-L B i+1X(x i)ln LB i+1X(x i)-(1-L B i+1X(x i))ln(1-LBi+1X(x i))]=-a1lna1a1+b1-b1lnb1a1+b1-1594计算机学报2008年(a -a 1)ln a -a 1a -a 1+b -b 1-(b -b 1)lnb -b 1a -a 1+b -b 1.又令F(a 1,b 1)=-a 1ln a 1a 1+b 1-b 1ln b 1a 1+b 1-(a -a 1)lna -a 1a -a 1+b -b 1-(b -b 1)ln b -b 1a -a 1+b -b 1,求解F (a 1,b 1)的最大值.对F (a 1,b 1)求偏导数,得方程组:9F 9a 1=09F 9b 1=0.解该方程组得:a 1b 1=a b .此时,a 2b 2=a b,这表明函数F(a 1,b 1)在a 1b 1=a 2b 2=a b 处取得最大值-a ln aa +b -b lnb a +b .所以,F(a 1,b 1)F -a ln a a +b -b ln b a +b .根据以上¹,º和»,有E x iI P1[-L Bi X(x i)ln LB i X(x i )-(1-L B i X (x i ))ln (1-L BiX (x i ))]EEx iI Q iG Qj[-L B i X (x i )ln L B i X (x i )-(1-L BiX (x i ))#ln (1-L Bi X (x i ))].所以,d Z (F B i +1X)F d Z (F B i X).综上所述,定理6得证.证毕.当属性增量$B i 将P 1划分为Q i ,Q j (Q i X Á,Q j X Á,Q i H Q j X Á)两个细的知识颗粒时,即P 1=Q i G Q j ,X A U,如果|P 1H X ||P 1|-|P 1H X |=|Q i H X ||Q i |-|Q i H X |=|Q j H X ||Q j |-|Q j H X |,则称P 1被属性增量$B i /成比例0细分.特别地,当Q i =Á或者Q j =Á(即P 1没有被分解)时,我们视为一种特殊的/成比例0细分.推论1. 当且仅当属性增量$B i 将U/B i ={P 1,P 2,,,P r }中的每个知识颗粒进行/成比例0细分时,有d Z (F B i X)=d Z (FB i +1X).如果属性增量$B i 将U/B i ={P 1,P 2,,,P r }中的某个知识颗粒进行/不成比例0细分后,粗糙集的模糊性将严格递减.续例2. 设X ={x 6,x 7,x 8,x 9},U/{a 1,a 2};U/{由第3节可知,d K q (F {a 1,a 2}X )=463>d Kq (F {a 1}X )=473,这与人们的认知相悖.用d Z (#)计算得d Z (F {a 1}X )=-112ln227ln 27+57ln 57@7+0=112ln2@65188;d Z (F {a 1,a 2}X )=-112ln226ln 26+46ln 46@6+0=112ln2@45156.可见,d Z (F {a 1}X )>d Z (F {a 1,a 2}X ).这说明二次模糊度随着知识粒度的减小反而增加,d Z (#)随着知识粒度的减小而单调递减.续例3.设U ={x 1,x 2,,,x 10},U/B i ={{x 1,x 2,x 3},{x 4,x 5,x 6,x 7},{x 8,x 9,x 10}},U/B i +1={{x 1,x 2,x 3},{x 4,x 5,x 6,x 7},{x 8,x 9},{x 10}},X ={x 3,x 4,x 5,x 6,x 7},则Q B i (X )=Q B i +1(X )=37;E B i (X )=370(8+log 7292),E B i +1(X )=370(8+log 1082),所以,E B i (X )>E B i +1(X );而模糊集F Bi X 和F Bi +1X 相等(F Bi X =F Bi +1X =13,13,13,1,1,1,1,0,0,0),所以,d Z (F B i X )=d Z (F Bi +1X ).这说明与集合X 无关的知识颗粒的细化导致粗糙熵严格递减,但模糊度d Z (#)不变.式(9)依赖两部分信息熵,既利用了度量不确定性的Shanno n 熵,也结合粗糙集的特点,同时构造集合X 的边界域中属于X 的那部分元素/贡献0的不确定性和不属于X 的那部分元素/贡献0的不确定性,非常直观.随着集合X 的边界域上的知识颗粒的/不成比例0的细分,粗糙集的模糊度将严格递减;而集合X 边界域上的知识颗粒被/成比例0细分时,粗糙集的模糊度不变.这更加准确地刻画出人们对不确定性问题的认知规律.5 不同知识粒度下粗糙集的粗糙度和模糊度的变化关系这里主要讨论粗糙度Q B (#)和模糊度d Z (#)在分层递阶的近似空间中随知识粒度的变化而变化的关系.性质1. 设信息系统S =(U,A ,V ,f )中,B A15959期王国胤等:不同知识粒度下粗糙集的不确定性研究A,X A U,如果X 是关于B 精确的,则d K l (F B X )=d K q (F B X )=d Z (F B X )=0.这个性质表明,任何关于B 的精确集的模糊度都等于0.除了用数值来表示粗糙集的不确定特征外,也可以用拓扑特征[22]来刻画.(1)如果B (X )X Á, B (X )X U,称X 是粗糙可定义的;(2)如果B (X )=Á, B (X )X U,称X 是内不可定义的;(3)如果B (X )X Á, B (X )=U,称X 是外不可定义的;(4)如果B (X )=Á, B (X )=U,称X 是全不可定义的.性质2. 设信息系统S =(U,A ,V,f )中,B A A,X A U,如果d Z (F B X)=1,则Q B (X )=1,且X 关于B 是全不可定义的.这个性质的逆不一定成立.即一个集合X 关于B 是全不可定义时,它的粗糙度等于1,但是模糊度不一定等于1.性质3. 设信息系统S =(U,A ,V ,f )中,B 1<B 2A A ,X A U,且Q B 1(X )>Q B 2(X ),则d Z (F B 1X)>d Z (F B2X ).该性质说明,在一条属性链上,如果粗糙度降低,必然导致粗糙集的模糊度降低.该性质的逆不一定成立,即如果d Z (F B1X)>d Z (F B2X)时,Q B 1(X )>Q B 2(X )不一定成立.这说明粗糙集的模糊度降低时,粗糙度未必降低.性质4. 设信息系统S =(U,A ,V ,f )中,B 1<B 2A A,X A U,如果d Z (F B1X )=d Z (F B2X ),则Q B 1(X )=Q B 2(X ).随着分层递阶的近似空间中知识粒度的减小,如果粗糙集的模糊度不变,则粗糙集的粗糙度也不变.性质3和性质4表明模糊度比粗糙度对知识粒度的变化更/灵敏0.性质5. 设信息系统S =(U,A ,V ,f )中,B 1<B 2A A,且G(U/B 1)>G(U/B 2),则Q B 1(X )E Q B 2(X ),d Z (F B 1X )E d Z (F B 2X ).随着近似空间中的知识粒度的减小,粗糙集的粗糙度、模糊度不一定严格递减.性质6. 设信息系统S =(U,A ,V ,f )中,B 1<B 2A A,X A U,如果Q B 1(X )>Q B 2(X )或者d Z (F B 1X)>d Z (F B2X),则G(U/B 1)>G(U/B 2).在分层递阶的近似空间中,知识粒度随着粗糙集的粗糙度或模糊度的降低而必然降低.性质7. 设信息系统S =(U,A ,V ,f )中,B A A ,X A U,若Q B (X )<1,则d Z (F BX )<1.在分层递阶的近似空间中,这些性质刻画了粗糙度、模糊度随知识粒度的变化而变化的规律.本文给出的粗糙集模糊度d Z (#)随知识粒度的变化规律更加符合人们的认知规律.6 结束语粗糙集的粗糙度、粗糙熵、模糊度和模糊熵虽然都是度量粗糙集的不确定性的,但它们之间有一定的联系和区别.粗糙性从集合的边界区域的角度来刻画粗糙集的不确定性,随着知识粒度的减小,如果集合的边界区域变小,粗糙度降低,粗糙集的不确定性下降,具有很好的直观性;而粗糙集的模糊性用元素属于某个集合的隶属函数的大小来刻画粗糙集的不确定性,与集合的边界区域大小和知识粒度的大小有关.粗糙集的粗糙性具有一定的/几何0特点,而模糊性具有一定的/代数0特点,它们从直观和抽象两个方面分别刻画出粗糙集的不确定性,具有一定的互补性.本文从信息熵的角度提出了一种新的粗糙集的模糊性度量方法d Z (#),该方法用/两个0方面的信息熵来刻画粗糙集的不确定性,具有非常形象和直观的特点.这种模糊度既有信息熵度量不确定性的优势(是两部分信息熵构成),又能克服粗糙度和Liang [18]定义的粗糙熵对粗糙集不确定性度量的不足,也能弥补Chakrabarty [10]等人提出的粗糙集模糊度随着知识粒度减小反而可能增加的缺陷.在研究中,我们发现不是满足定义8的任意模糊度都会随着知识颗粒的细分而严格单调递减,因此,在构造测量粗糙集的模糊度的测量方法时,除了满足定义8外,还应该增加一个约束条件:随着知识颗粒的细分,粗糙集的模糊度单调递减.参考文献[1]Li De -Yi,Liu Chang -Yu,Du Yi,H an Xu.Artificial intell-i gen ce w ith u ncertainty.Journal of Softw are,2004,15(11):1583-1594(in Ch ines e)(李德毅,刘常昱,杜鹢,韩旭.不确定性人工智能.软件学报,2004,15(11):1583-1594)1596计 算 机 学 报2008年。
粗糙集的不确定性度量比较研究
粗糙集的不确定性度量比较研究
魏巍;魏琪;王锋
【期刊名称】《南京大学学报:自然科学版》
【年(卷),期】2015(51)4
【摘要】不确定性度量是粗糙集理论中的重要研究内容之一,它可以度量属性之间的依赖度和相似度,并为属性约简和聚类分析提供了有效的度量工具.然而,不同的不确定性度量对于属性依赖度和相似度的刻画能力并不相同,这会在很大程度上影响属性约简和聚类分析等算法的结果.对常见的属性依赖度度量-近似分类精度、近似分类质量、Shannon条件熵、互补条件熵和常见的属性相似性度量-Shannon互信息、互补条件熵在不确定性度的差异进行了深入分析,发现了这些度量之间的差异,为属性约简和聚类分析等算法中不确定度量的选择提供了理论依据.
【总页数】9页(P714-722)
【关键词】粗糙集;不确定性度量;条件熵;互信息
【作者】魏巍;魏琪;王锋
【作者单位】山西大学计算机与信息技术学院;计算智能与中文信息处理教育部重点实验室山西大学
【正文语种】中文
【中图分类】TP18
【相关文献】
1.不完备邻域粗糙集的不确定性度量和属性约简 [J], 姚晟;汪杰;徐风;陈菊
2.覆盖近似空间中粗糙集的不确定性度量研究 [J], 胡军
3.基于最大决策邻域粗糙集的不确定性度量方法 [J], 徐洋; 徐怡; 史国川; 鲁磊纪; 赵小帆
4.邻域概率粗糙集的不确定性度量 [J], 周艳红;张迪;莫智文
5.模糊邻域粗糙集的决策熵不确定性度量 [J], 樊雲瑞;张贤勇;杨霁琳
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于粗糙集的不确定决策知识约简算法
一种基于粗糙集的不确定决策知识约简算法马睿【期刊名称】《渤海大学学报(自然科学版)》【年(卷),期】2017(038)004【摘要】粗糙集理论是处理不完整和不确定知识的数学工具,能有效地分析和处理不精确、不一致、不完整的各种不完备信息,并从中发现隐含知识,揭示潜在规律.针对决策知识冗余、决策效率低下等问题,本文以粗糙集理论为基础,研究不确定性的知识约简算法及决策规则获取方法.首先,研究粗糙集理论与知识约简理论基础,包括知识及知识库、知识表达系统、核与约简的关系;然后,研究了属性约简算法,包括属性的重要性、属性约简算法和属性值约简算法的相关定义及其数学模型表示,并给出了属性约简步骤;最后,以软件维护性及影响因素决策表为例,按照属性约简步骤,完成了属性约简和属性值约简,通过实例分析验证了算法的可行性、有效性和决策规则获取方法.结果表明,运用粗糙集理论对知识进行约简,可以简化复杂系统、消除冗余知识,获得知识库简洁表达的方法,有效维护知识库的结构和性能.%Rough sets theory is a mathematical tool to deal with incomplete and indefinite knowledge , which can effectively analyze and deal with inaccurate , inconsistent and incomplete information , find hidden knowledge and reveal potential rules .In view of the problems of redundancy of decision knowledge and inefficiency of deci-sion-making , this dissertation studies the knowledge reduction algorithm and decision -making rules acquisition method based on rough sets theory .Firstly, we study the theory of rough sets theory and the theory of knowledge acquisition, including knowledgeand knowledge base , knowledge expression system , the relationship between kernel and acquisition .Secondly , we study the algorithm of attribute acquisition , including the importance of at-tribute, attribute acquisition algorithm and the definition of attribute acquisition algorithm and its mathematical model, and give the steps of attributeacquisition .Finally, taking the software maintenance and decision table as an example , according to attribute acquisition steps , attribute acquisition and attribute value acquisition , the fea-sibility and effectiveness of the algorithm and the method for obtaining decision -making rules are verified through case studies .The results show that using rough sets theory to reduce knowledge can simplify complicated system, eliminate redundant knowledge , get concise expression of knowledge base and effectively maintain the structure and function of knowledge base .【总页数】7页(P378-384)【作者】马睿【作者单位】沈阳工程学院经济与管理学院, 辽宁沈阳110136【正文语种】中文【中图分类】TP18【相关文献】1.一种新的基于粗糙集的决策树算法 [J], 陈亚峰;邢国军;马连志2.一种改进的基于粗糙集的决策树算法 [J], 吴学辉3.一种基于决策信息系统的知识约简算法 [J], 胡秦斌4.一种改进的基于粗糙集的决策树算法 [J], 吴学辉;5.一种基于PS-粗糙集的动态三支决策算法 [J], 张春英;乔鹏;王立亚;秦豪;刘璐;唐虎因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第31卷 第9期2008年9月计 算 机 学 报C HIN ESE J OU RNAL OF COM PU TERSVol.31No.9Sept.2008收稿日期:2008207214.本课题得到国家自然科学基金(60573068,60773113)、重庆市教委科学技术研究项目(K J 060517)和重庆市自然科学基金重点项目(2008BA2017)资助.王国胤,男,1970年生,博士,教授,博士生导师,主要研究领域为粗糙集理论、粒计算、数据挖掘、知识技术等.E 2mail :wanggy @.张清华,男,1974年生,博士研究生,主要研究方向为智能信息处理、粒计算等.不同知识粒度下粗糙集的不确定性研究王国胤1),2) 张清华1),2)1)(西南交通大学信息科学与技术学院 成都 610031)2)(重庆邮电大学计算机科学与技术研究所 重庆 400065)摘 要 粗糙集的不确定性度量方法,目前主要包括粗糙集的粗糙度、粗糙熵、模糊度和模糊熵.在不同知识粒度下,从属性的角度,给出了分层递阶的知识空间链,发现在分层递阶的知识粒度下部分文献中定义的粗糙集的粗糙熵和模糊度随知识粒度的变化规律不一定符合人们的认识规律.从信息熵的角度提出了一种粗糙集不确定性的模糊度度量方法,证明了这种模糊度随知识粒度的减小而单调递减,弥补了现有粗糙熵和模糊度度量粗糙集不确定性的不足.最后,分析了在不同知识粒度下粗糙度和模糊度的变化关系.关键词 粗糙度;粗糙熵;模糊度;知识粒度;商空间中图法分类号TP18U ncertainty of Rough Sets in Different K now ledge G ranularitiesWAN G Guo 2Y in 1),2) ZHAN G Qing 2Hua 1),2)1)(S chool of I nf ormation Science &Technolog y ,S out hwest J iaotong Universit y ,Cheng du 610031)2)(I nstit ute of Com p uter Science &Technolog y ,Chongqing Universit y of Posts and Telecommunications ,Chongqing 400065)Abstract Rougness ,ro ugh ent ropy ,f uzziness ,and f uzzy ent ropy are major met hods for measur 2ing t he uncertainty of rough set s.In different knowledge granularity levels ,a hierarchical knowl 2edge space chain is propo sed based on t he att ributes in information systems.Some regularities of t he changing of rough ent ropy and f uzziness of a rough set wit h t he knowledge granularity are found to be inconsistent wit h human cognition.A new met hod for measuring t he f uzziness of rough set s is p ropo sed based on information entropy.The f uzziness measured by t he new met hod is monotonously decreasing wit h t he refining of knowledge granularity in apporiximation spaces.It overcomes t he p roblem of roughness and rough ent ropy.Finally ,t he relations of t he changing of roughness and f uzziness are analyzed in different knowledge granularities.K eyw ords roughness ;rough ent ropy ;f uzziness ;knowledge granularity ;quotient space1 引 言进入21世纪以来,不确定性问题的研究工作受到越来越多的关注[1].如何对不确定性信息和数据进行更加有效的处理,从而发现不确定性信息中蕴涵的知识和规律,是一个重要的研究课题[2].Zadeh 在1965年提出的模糊集(Fuzzy set s )理论[3],Pawlak 在1982年提出的粗糙集(Rough set s )理论[4]和张钹、张铃在1990年提出的商空间理论[5]是粒计算(granular comp uting )的三大基础数学理论,是处理不确定性问题的有效方法,已广泛应用于模式识别、知识发现、问题求解以及不确定推理等领域.模糊集作为经典康托集的推广,利用隶属函数来表示对象关于集合的隶属程度,重在区分属于同一集合的不同对象间的隶属程度,其不足之处在于其隶属函数往往需由专家给出,带有一定的主观性;粗糙集理论是处理不完全和不精确信息的一种有效数学工具[6],建立在对论域分类的基础上,将不确定知识用已知知识库中的知识来刻画,对不确定问题的描述和处理比较客观,但粗糙集理论是研究在给定的空间(知识基)上不同概念的表示、转换和相互依存问题的,其论域是点集,元素之间没有拓扑关系;商空间理论基于复杂问题粒化的思想,建立了一种商结构的形式化问题求解理论体系,利用保真、保假原理来高效地获得问题的解或近似解,它不仅针对给定的商空间(知识基)来讨论知识的表达问题,而且利用对象之间的结构(偏序结构或拓扑结构),在所有可能的商空间中找出最合适的商空间,从不同商空间(不同角度)观察同一问题,以便得到对问题不同角度的理解,最终合成对原问题总的解(近似解)[5].可以说,模糊集理论是一种“软”计算方法,粗糙集理论是“硬”计算方法,而商空间理论是介于模糊集和粗糙集之间的一种问题求解(近似解)的计算方法,“廉价”地描述问题的不确定性[7].另外,Gau和Buehrer提出的Vague集理论,通过对模糊对象赋予真、假隶属函数来处理模糊性,是模糊集理论的扩充[8].依靠各自的特点和优势,这些方法已经广泛应用于对不确定、不精确、不完整信息的处理以及对大规模海量数据的挖掘和对复杂问题的求解[9].李德毅认为[1]:在主、客观世界普遍存在的不确定性中,随机性和模糊性是最重要的两种形式,不确定性和确定性并非完全对立,在一定程度上可以相互转化.例如,某一层次的不确定性可能是更高层次上的确定性,种种不确定性中还可能隐藏着某些确定的规律等.人工智能研究人员的任务,就是寻找并且能够形式化地表示不确定性中的规律性,至少是在某种程度上的规律性,从而使机器能够模拟人类认识客观世界、认识人类本身的认知过程.当前,对于粗糙集的不确定性度量的方法主要有粗糙度、粗糙熵、模糊度和模糊熵.在同一知识粒度的近似空间下,Chakrabarty[10]等人较为详细地讨论了粗糙集的模糊性度量问题; Banerjee[11]和Huynh[12]对模糊集的粗糙度进行了研究;王国胤[13215]等人从信息观的角度分析了决策信息系统的不确定性,并讨论了代数观和信息观意义下粗糙集的不确定性的异同;梁吉业[16218]等人从信息熵、条件熵、互信息和知识粒度的角度分析了粗糙集的不确定性,并给出了一种新的粗糙集的粗糙熵;苗夺谦[19221]等人从粒计算和信息表示等角度研究了知识的粒度、知识的粗糙度与信息熵之间的关系.然而,随着属性个数的变化,论域空间形成一个分层递阶结构(金字塔结构,即商空间).当知识空间中的知识粒度严格递减时,一个粗糙集的粗糙度、粗糙熵、模糊度和模糊熵将怎样变化?它们之间的关系又是如何?关于这方面的研究工作,已有一定的研究基础,特别是研究粗糙精度、粗糙度、分类精度、粗糙熵和条件熵在不同知识粒度的近似空间下的变化已经比较详尽[11216,18221].综合分析上述研究工作可以发现,粗糙集的粗糙度随着知识粒度的减小而单调递减,这符合人们的认知直觉.但是,很多实际例子表明,当属于一个集合的正域或负域中的知识颗粒被细分时,粗糙集的粗糙度将不发生变化;而且当属于集合边界域中的知识颗粒被细分时,它的粗糙度可能也不发生变化,这与人们的认知直觉不吻合.为了克服这个问题,有的研究者提出了粗糙熵,如Liang[18]等人定义了一种粗糙熵,它是集合X的粗糙度与近似空间中的知识粒度之积,并得到结论:这种粗糙熵随着知识颗粒的细分严格单调递减.这个结论在一定程度上弥补了用粗糙度度量粗糙集不确定性的不足.但是,我们分析发现,如果对集合X 负域的知识颗粒(与X无关)进行细分,粗糙度将不变(符合人们的认知规律),但粗糙熵却严格递减(不符合人们的认知规律).这说明与集合X无关的知识颗粒的变化也会导致X的粗糙熵的变化,这与人们对不确定性问题的认知不符.为此,需要进一步研究粗糙集不确定性的另一度量方式———粗糙集的模糊度.虽然在同一知识粒度的近似空间下粗糙集的模糊性得到研究者的关注[10,16,18221],但是关于粗糙集的模糊度在不同知识粒度的近似空间(分层递阶的近似空间)下将如何变化的研究工作甚少.粗糙集的模糊度随着近似空间中知识颗粒的细分将如何变化?对这个问题的探索,有利于发现不确定性问题中隐藏的某些确定规律.从认知角度来讲,集合X随着与它有关的知识颗粒的细分,它的不确定性要降低,模糊度也应该降低.但是,文献[10]给出的粗糙集模糊度在知识粒度细化的过程中可能反而会逐渐增加,这与人们认知98519期王国胤等:不同知识粒度下粗糙集的不确定性研究不确定性问题的直觉相悖.本文从属性空间的角度,主要讨论不同知识粒度的近似空间下(即不同层次的商空间)粗糙集的模糊度的变化问题,提出一种基于信息熵的粗糙集的模糊性度量方法,证明这种模糊度随着知识粒度的减小而单调递减,弥补粗糙度和粗糙熵对粗糙集不确定性度量的不足.这种模糊度的物理背景非常清楚,它既刻画出集合X的边界域中属于X的那部分元素“贡献”的不确定性,也刻画出不属于X的那部分元素“贡献”的不确定性,更精确地描述了粗糙集的不确定性.通过分析发现,如果集合X的边界域中的知识颗粒被“成比例”地细分,这种粗糙集的模糊度不会发生变化;如果集合X的边界域中的知识颗粒被“不成比例”地细分,这种粗糙集的模糊度将严格递减.这个结论克服了现有部分度量粗糙集不确定性方法的不足,与人们对不确定性问题的认知规律非常吻合.本文第2节介绍相关基本概念;第3节讨论不同知识粒度下粗糙集的不确定性度量问题;第4节提出一种基于信息熵的粗糙集模糊度度量方法;第5节讨论不同知识粒度下粗糙集的粗糙度和模糊度的变化关系;第6节是结束语.2 相关基本概念2.1 知识的粒度定义1[6] 设一个信息系统是四元组S=(U,A, V,f),其中U={x1,x2,…,x n}是非空有限对象集,称为“论域”,A={a1,a2,…,a m}是属性集,V=∪a∈CV a,V a称为属性a的“值域”,f a:U→V a是信息函数.不可分辨关系:I N D(B)={(x,y)∈U×U|Πa∈B(f a(x)=f a(y))}是U上的等价关系,所有等价类的集合记为U/I N D(B),简写为U/B.一个论域的划分构成粗糙集的一个近似空间,划分中的每一个分块称为一个知识颗粒,度量知识粒度的方法很多,这里我们采用Liang等人给出的知识粒度的度量方法[18].设U={x1,x2,…,x n},属性集B(BΑA)对论域的划分U/B={X1,X2,…, X m},则U/B的知识粒度定义为G(U/B)=1|U|2∑mi=1|X i|2(1)容易证明:1nΦG(U/B)Φ1(|・|表示集合的元素个数,下同).2.2 分层递阶的近似空间任给一个信息系统S=(U,A,V,f),A={a1, a2,…,a m}是属性集,任给一个属性子集B(BΑA),我们可以得到论域U的一个划分U/B.U/B中的每个元素[x]B([x]B表示元素x(x∈U)的等价类)表示近似空间的一个知识颗粒.设P(A)表示集合A={a1,a2,…,a m}的幂集.不难得出:代数系统〈P(A),Α〉构成一个完备的偏序格.其中, 是这个偏序格的最小元,A是最大元.定义2. 在格〈P(A),Α〉对应的Hasse图中,从 到A的一条路径称为属性链.例1. A={a1,a2,a3},〈P(A),Α〉对应的Hasse图如图1所示.图1 格〈P(A),Α〉如 Α{a1}Α{a1,a2}Α{a1,a2,a3}, Α{a1}Α{a1,a3}Α{a1,a2,a3}和 Α{a3}Α{a1,a3}Α{a1,a2,a3}等都是属性链.定义3[21]. 设U={x1,x2,…,x n}为非空有限论域,P′={P′1,P′2,…,P′l}和P″={P″1,P″2,…,P″m}为U上的两个划分空间,如果ΠP′i∈P′(ϖP″j∈P″(P′iΑP″j)),则称P′是P″的细划分空间,记为P′ΜP″.定义4[22]. 设U={x1,x2,…,x n}为非空有限论域,P′={P′1,P′2,…,P′l}和P″={P″1,P″2,…, P″m}为U上的两个划分空间,如果P′ΜP″,且ϖP′i∈P′(ϖP″j∈P″(P′i<P″j)),则称P′是P″的严格细划分空间,记为P′;P″.定理1. 设格〈P(A),Α〉中的任意一条属性链为 =B0<B1<B2<…<B m=A,则U/B mΜU/B m-1Μ…ΜU/B1ΜU/B0={U}.在任何一条属性链下,对象集U被分成不同的划分,这些划分在“Μ”关系下构成一个金字塔结构,称为分层递阶的近似空间.例2. 一个信息系统U={x1,x2,…,x10}, A={a1,a2,a3},如表1所示.0951计 算 机 学 报2008年表1 一个信息系统x1x2x3x4x5x6x7x8x9x10x11x12 a1111111122333a2011111122333a3000000123445如果取属性链 Α{a1}Α{a1,a2}Α{a1,a2, a3},可得到如下的分层递阶近似空间:U/ ={{x1,x2,…,x10}};U/{a1}={{x1,x2,x3,x4,x5,x6,x7},{x8,x9},{x10,x11,x12}};U/{a1,a2}={{x1},{x2,x3,x4,x5,x6,x7},{x8,x9},{x10,x11,x12}};U/{a1,a2,a3}={{x1},{x2,x3,x4,x5,x6},{x7},{x8},{x9},{x10,x11},{x12}}.在这个分层递阶的近似空间中,随着属性个数的增加,知识颗粒逐渐“细化”.2.3 粗糙集不确定性的几种度量方法2.3.1 粗糙集的粗糙度定义5[6]. 在一个信息系统中,I N D(B)是U 上的一个不可分辨关系,[x]B表示对象x的等价类,对象子集XΑU,X的下近似集(B X)、上近似集( B X)和边界域(B N B(X))分别定义如下:B X={x∈U|[x]BΑX},B X={x∈U|[x]B∩X≠ },B N B(X)= B(X)-B(X).定义6[22]. 在一个信息系统中,I N D(B)是U 上的一个不可分辨关系,[x]B表示对象x的等价类,对象子集XΑU,X的粗糙精度和粗糙度为粗糙精度:αB (X)=R(X)R(X);粗糙度:ρB (X)=1-αB(X)=1-R(X)R(X)=B N B(X)R(X).显然,对于任意的XΑU,都有0ΦαB(X)Φ1且0ΦρB(X)Φ1.如果 B(X)=B(X)=X,即ρB(X)=0(或αB(X)=1),称X关于B是精确的;如果B(X)< B(X),即0<ρB(X)Φ1(或0ΦαB(X)<1),称X关于B是粗糙的.2.3.2 粗糙集的粗糙熵关于粗糙集的粗糙熵的定义形式很多,这里我们采用Liang提出的粗糙熵.定义7[18]. 设U={x1,x2,…,x n},属性子集B(BΑA)对论域的划分U/B={X1,X2,…,X m},XΑU,则属性集合B的熵定义为E(B)=-∑mi=1|X i||U|log1|X i|2(2) X在划分U/B上的粗糙熵定义为E B(X)=ρB(X)E(B)(3)集合X的粗糙熵是粗糙度与属性集合B的熵之积.2.3.3 粗糙集的模糊度设U={x1,x2,…,x n}是非空有限集,A是U 上的模糊集,A(x i)是模糊集的隶属函数.用P(U)表示集合U上的所有经典集合,F(U)表示集合U 上的所有模糊集合.显然,P(U)ΑF(U).定义8[23]. ΠA∈F(U),若映射d:F(U)→[0,1]满足条件:(1)d(A)=0当且仅当A∈P(U);(2)d(A)=1当且仅当Πxi∈U A(x i)=12;(3)Πxi∈U B(x i)ΦA(x i)Φ12∨B(x i)ΕA(x i)Ε12→d(B)Φd(A);(4)d(A)=d(A c),这里A c是A的补集,则称映射d是F(U)上的一个模糊度,记为d(・).设U是非空对象集,对象子集XΑU,则对于任意的x(x∈U),x属于集合X的隶属函数为μBX(x)=|X∩[x]B||[x]B|(4)显然,0ΦμBX(x)Φ1,它表示任意一个元素属于集合X的程度.令F BX={μB X(x1),μB X(x2),…,μBX(x n)},则F B X是集合U上的一个模糊集(即F B X∈F(U)).由粗糙集上、下近似和边界的概念,不难得出:B X={x∈U|μB X(x)=1};B X={x∈U|0<μB X(x)Φ1}.模糊度是度量不确定问题的有力工具,很多研究者对粗糙集的模糊度进行了分析,Chakrabarty[10]等人提出粗隶属函数可以导出模糊集,并利用模糊集与它的最邻近清晰集间的距离来度量粗糙集的模糊性.定义9[10]. 设A是U上的模糊集,与A有关的最邻近的清晰集记为A,其定义为A(x i)=0,A(x i)<0151,A(x i)>0150或1,A(x i)=015.19519期王国胤等:不同知识粒度下粗糙集的不确定性研究一般地,当A (x i )=015时,取A (x i )=1,这时A =A 015,这里A 015表示A 的015截集.Chakrabarty [10]等人利用模糊集F B X 和它的最邻近清晰集F B X 之间的距离给出了粗糙集的两种模糊性度量.(1)线性模糊度:d Kl (F BX)=2n∑ni =1|μBX(x i)-μB X(x i)|(5)(2)二次模糊度:d Kq (F BX )=2n∑ni =1(μB X (x i )-μB X (x i ))2(6)其中,μB X (x i )表示x i 在模糊集F BX 中的隶属函数.2.3.4 粗糙集的模糊熵定义10[24]. ΠA ∈F (U ),若映射e :F (U )→[0,+∞)满足条件:(1)e (A )=0当且仅当A ∈P (U );(2)e (A )取得最大值当且仅当Πx i ∈U A (x i )=12;(3)Πx i ∈U B (x i )ΦA (x i )Φ12∨B (x i )ΕA (x i )Ε12→e (B )Φe (A );(4)e (A )=e (A c ),这里A c 是A 的补集,则称映射e 是F (U )上的一个模糊熵,记为e (・).梁吉业[16218]等人建立了粗糙集的一种模糊熵:E L (F BX)=∑ni =1μBX(x i)(1-μB X(x i))(7)并得出了相应的结论:一个精确集的模糊熵等于0,一个粗糙集合与它的补集具有相同的模糊性.2.3.5 信息熵信息熵是一个非常广泛的概念,1948年Shannon 信息熵[25]的提出为信息的不确定度量奠定了理论基础,Klir 基于Shannon 熵提出了一种度量不确定性的信息熵[26]:H (F BX)=-2n∑ni =1μB X (x i )log μB X (x i)2(8)容易验证,H (・)不满足模糊度的定义(定义8),不是模糊度.3 不同知识粒度下粗糙集的不确定性度量目前,度量粗糙集不确定性的方法主要有粗糙度、粗糙熵、模糊度和模糊熵.在分层递阶的近似空间下,随着知识颗粒的细分,不同层次上的知识粒度有何变化规律?定理2和定理3揭示了这个变化规律.定理2[21]. 设格〈P (A ),Α〉中的任意一条链为 =B 0<B 1<B 2<…<B m =A ,则G (U/B i +1)ΦG (U/B i )(i =0,1,2,…,m -1;下同).定理3[21]. 设格〈P (A ),Α〉中的任意一条链为 =B 0<B 1<B 2<…<B m =A ,如果U/B i +1;U/B i ,则G (U/B i +1)<G (U/B i ).在分层递阶的近似空间上,随着知识粒度的减小,粗糙集的粗糙度将如何变化?定理4回答了这个问题.定理4[6]. 设格〈P (A ),Α〉中的任意一条链为 =B 0<B 1<B 2<…<B m =A ,对于任意的X ΑU ,有ρB i +1(X )ΦρB i (X ).定理4揭示了集合X 的粗糙度随知识粒度减小而单调递减.注意:如果U/B i +1;U/B i (严格的细分关系),不一定有ρB i +1(X )<ρB i (X )(严格单调递减).如例2中,X ={x 1,x 2,x 3,x 4,x 5,x 6,x 7,x 8,x 9},取属性链 <{a 1}<{a 1,a 2}<{a 1,a 2,a 3},则U/{a 1,a 2,a 3};U/{a 1,a 2},而ρ{a 1,a 2,a 3}(X )=ρ{a 1,a 2}(X ).这表明集合X 在不同知识粒度的近似空间中可能得到相同的粗糙度.为了克服这个问题,Liang [18]给出一种粗糙熵E B (X )=ρB (X )E (B ),该粗糙熵随着近似空间中知识粒度减小会有何变化规律呢?定理5[21]. 设格〈P (A ),Α〉中的任意一条链为 =B 0<B 1<B 2<…<B m =A ,对于任意的X ΑU ,若G (U/B i +1)<G (U/B i ),则E B i +1(X )<E B i (X ).定理5表明,随着分层递阶的近似空间中知识粒度的减小,E B (X )严格单调递减.这个结论在一定程度上弥补了粗糙度的缺陷.但是,我们分析发现,当近似空间中知识粒度的减小是由于集合X 负域中的知识颗粒(与X 无关)被细分时,粗糙度不会改变(符合认知规律),但粗糙熵E B (X )却严格递减(不符合认知规律).这表明与集合X 无关的知识颗粒(X 的负域中的知识颗粒)细分时,粗糙集的粗糙熵会减小,与人们的认知规律不吻合.例3. 设U ={x 1,x 2,…,x 10},U/B i ={{x 1,x 2,x 3},{x 4,x 5,x 6,x 7},{x 8,x 9,x 10}},U/B i +1={{x 1,x 2,x 3},{x 4,x 5,x 6,x 7},{x 8,x 9},{x 10}},X ={x 3,x 4,x 5,x 6,x 7},则ρB i (X )=ρB i +1(X )=37;2951计 算 机 学 报2008年E Bi (X)=370(8+log7292),E Bi+1(X)=370(8+log1082),所以E Bi (X)>E Bi+1(X).因此,用粗糙熵度量粗糙集的不确定性还是存在一定的局限性.根据商空间理论中解释“模糊”和“清晰”之间粒度变化的关系“模糊在一定粒度下会变得清晰,而清晰在一定粒度下会变得模糊”和李德毅指出的[1]“不确定性和确定性并非完全对立,在一定程度上可以相互转化”,本文接下来重点讨论,在分层递阶的近似空间中,粗糙集模糊度随着知识粒度的变化而变化的情况.设格〈P(A),Α〉中的任意一条链为 =B0< B1<B2<…<B m=A,对于任意的XΑU,模糊集F B i X与F B i+1X的模糊度的大小关系如何呢?对这个问题的讨论要比粗糙度和粗糙熵复杂得多.(1)如果U/B i=U/B i+1,对任意的模糊性度量方法,F B iX 与F B i+1X的模糊度都相等;(2)如果U/B i+1;U/B i,容易证明:d Kl(F B i+1X)Φd Kl(F B i X).但d Kq(F B i+1X)和d Kq(F B i X)的大小关系不确定.如例2中取X={x6,x7,x8,x9},U/{a1,a2}; U/{a1},则F{a1}X =27,27,27,27,27,27,27,1,1,0,0,0;F{a1,a2} X =0,26,26,26,26,26,26,1,1,0,0,0;d Kl(F{a1,a2}X )=d Kl(F{a1}X)=21227×7=13;d Kq(F{a1)X)=212272×7=473;d Kq(F{a1,a2)X )=212262×6=463.这个例子说明,如果用d Kl(・)和d Kq(・)来测量粗糙集的模糊度有以下缺陷:用d Kl(・)来测量X= {x6,x7,x8,x9}的模糊度,U/{a1,a2};U/{a1},G(U/{a1,a2})<G(U/{a1}),且68=ρ{a1,a2}(X)<ρ{a1}(X)=79,这表明随着知识粒度的减小,粗糙度在降低,然而X的线性模糊度却不变d Kl(F{a1,a2}X)=d Kl(F{a1}X ),二次模糊度反而增加d Kq(F{a1,a2}X)>d Kq(F{a1}X),这与人们的直觉相悖.4 基于信息熵的粗糙集模糊度为了能够将信息熵应用来测量粗糙集的模糊度,我们进一步分析发现:粗糙集的模糊性来自边界域的两个部分,一部分是边界域中属于集合X的元素,一部分是边界域中不属于集合X的元素,而式(8)的信息熵只考虑了前面一部分,没有涉及第二部分.为此,我们提出一种新的基于信息熵的粗糙集的模糊度度量方法:d Z(F B X)=-1n ln2∑ni=1[μB X(x i)lnμB X(x i)+(1-μB X(x i))ln(1-μB X(x i))](9)直观上讲,式(9)由μBX(x i)lnμB X(x i)和(1-μBX(x i))ln(1-μB X(x i))两部分信息熵构成,前者主要反映属于集合X的元素“贡献”的不确定性,后者主要反映不属于集合X的元素“贡献”的不确定性,这两部分同时考虑才能更精确地刻画粗糙集的不确定性.接下来,我们验证d Z(・)满足定义8.证明. d Z(F BX)=0当且仅当Πxi∈U(μB X(x i)= 0∨μB X(x i)=1),即F B X是普通的康托集,F B X∈P(U).定义8的条件(1)满足.对于任意的x i(x i∈U),令μBX(x i)=t i(0Φt iΦ1),令f(t i)=t i ln t i+(1-t i)ln(1-t i),易证,函数f(t i)在唯一的极值点t i=12处取得最小值-ln2.所以,d Z(F BX)在点μB X(x i)=12处取得最大值1.定义8的条件(2)满足.对于任意的x i(x i∈U),由于f(t i)=t i ln t i+ (1-t i)ln(1-t i)在区间0,12单调递减,在12,1单调递增,在t i=12处取得最小值,所以, d Z(F B X)=-1n ln2∑ni=1f(t i)在区间0,12单调递增,在12,1单调递减,在t i=12处取得最大值.因此,当μBX(x i)=t iΦt′i=μB′X(x i)Φ12或μBX(x i)=t iΕt′i=μB′X(x i)Ε12时,有d Z(F BX)Φd Z(F B′X).定义8的条件(3)满足.d Z((F B X)c)=d Z(F B X)显然成立,定义8的条件(4)满足.综上所述,d Z(・)是粗糙集的一种模糊度.下面,我们讨论模糊度d Z(・)随近似空间中知识粒度的减小的变化趋势.定理6. 设格〈P(A),Α〉中的任意一条链为39519期王国胤等:不同知识粒度下粗糙集的不确定性研究=B0<B1<B2<…<B m=A,如果U/B i+1; U/B i,则对于任意的XΑU,都有d Z(F B i+1X)Φd Z(F B iX).证明. 设U/B i={P1,P2,…,P r},U/B i+1= {Q1,Q2,…,Q t}(r<t).因为,U/B i+1;U/B i,令ΔBi=B i-B i+1表示属性增量.则属性增量ΔBi一定对U/B i={P1,P2,…,P r}中的至少一个元素进行细分.为简化证明,我们不妨设U/B i中只有P1被ΔBi分为两个部分(分为多个部分的证明情况类似),P1=Q i∪Q j(Q i,Q j∈U/B i+1),U/B i的其它元素不变(其它情况可以根据这种情况进行证明).下面分情况讨论:(1)当P1∩X= 时,对于任意的x(x∈P1),μB iX (x)=|P1∩X||P1|=0.因为P1=Q i∪Q j(Q i∩Q j=),所以,对于任意x(x∈Q i或者x∈Q j),μB i+1X(x)=|Q i∩X| |Q i|=|Q j∩X||Q j|=0.因此,属性增量ΔB i对U/B i={P1,P2,…,P r}的细分不改变模糊集F B i X的隶属函数值,即F B iX =F B i+1X,所以d Z(F B i+1X)=d Z(F B i X).(2)当P1ΑX时,对于任意的x(x∈P1),μB iX(x)= |P1∩X||P1|=1.由于P1=Q i∪Q j(Q i∩Q j= ),所以,对于任意的x(x∈Q i或者x∈Q j),μB i+1X(x)=|Q i∩X| |Q i|=|Q j∩X||Q j|=1.因此,属性增量ΔB i对U/B i={P1,P2,…,P r}的细分不改变模糊集F B i X的隶属函数值,即F B iX =F B i+1X,即d Z(F B i+1X)=d Z(F B i X).(3)当P1∩X≠ ,且P1∩X≠P1时,因为P1=Q i∪Q j,则|P1|=|Q i|+|Q j|(Q i∩Q j= ),d Z(F B i X)=1n ln2∑ni=1[-μB i X(x i)lnμB i X(x i)-(1-μB iX(x i))ln(1-μB iX(x i))]=1n ln2∑xi∈P1[-μB i X(x i)lnμB i X(x i)-(1-μB iX(x i))ln(1-μB iX(x i))]+∑x j P1[-μB i X(x j)lnμB i X(x j)-(1-μB iX(x j))ln(1-μB iX(x j))],下面分类讨论:①如果Q i∩X= ,设|P1∩X|=a且|P1|-|P1∩X|=b,则公式∑x i∈P1[-μB i X(x i)lnμB i X(x i)-(1-μB i X(x i))ln(1-μB i X(x i))]=-a ln aa+b-b ln ba+b,∑x i∈Q i∪Q j[-μB i+1X(x i)lnμB i+1X(x i)-(1-μB i+1X(x i))ln(1-μB i+1X(x i))]=∑x i∈Q j[-μB i+1X(x i)lnμB i+1X(x i)-(1-μB i+1X(x i))ln(1-μB i+1X(x i))]=-a ln aa+b1-b1lnb1a+b1,这里|Q j∩X|=a1=a,|Q j|-|Q j∩X|=b1<b.令函数f(a,b)=-a ln aa+b-b ln ba+b,因为9f9b= ln a+bb>0,所以f(a,b)关于b是增函数.因为b1<b,所以-a ln aa+b-b ln ba+bΕ-a ln aa+b1-b1lnb1a+b1.②如果Q jΑX,则|Q i∩X|=a1<a,|Q i|-|Q i∩X|=b1=b,∑x i∈Q i∪Q j[-μB i+1X(x i)lnμB i+1X(x i)-(1-μB i+1X(x i))ln(1-μB i+1X(x i))]=∑xi∈Qi[-μB i+1X(x i)lnμB i+1X(x i)-(1-μB i+1X(x i))ln(1-μB i+1X(x i))]=-a1lna1a1+b-b ln ba1+b.因为9f9a=lna+ba>0,所以f(a,b)关于a是增函数.又因为a1<a,所以-a ln aa+b-b ln ba+bΕ-a1lna1a1+b-b ln ba1+b.③如果Q i∩X≠ 且Q i∩X≠Q i,Q j∩X≠ 且Q j∩X≠Q j,令|X∩Q i|=a1>0,|X∩Q j|= a2>0,|Q i|-|X∩Q i|=b1>0,|Q j|-|X∩Q j|= b2>0,此时,a1+a2=a,b1+b2=b.∑x i∈P1[-μB i X(x i)lnμB i X(x i)-(1-μB i X(x i))・ln(1-μB iX(x i))]=-a ln aa+b-b ln ba+b;∑x i∈Q i∪Q j[-μB i+1X(x i)lnμB i+1X(x i)-(1-μB i+1X(x i))ln(1-μB i+1X(x i))]=-a1lna1a1+b1-b1lnb1a1+b1-4951计 算 机 学 报2008年(a -a 1)ln a -a 1a -a 1+b -b 1-(b -b 1)lnb -b 1a -a 1+b -b 1.又令F (a 1,b 1)=-a 1lna 1a 1+b 1-b 1lnb 1a 1+b 1-(a -a 1)lna -a 1a -a 1+b -b 1-(b -b 1)ln b -b 1a -a 1+b -b 1,求解F (a 1,b 1)的最大值.对F (a 1,b 1)求偏导数,得方程组:9F9a 1=09F9b 1=0.解该方程组得:a 1b 1=a b .此时,a 2b 2=ab,这表明函数F (a 1,b 1)在a 1b 1=a 2b 2=a b 处取得最大值-a ln aa +b -b lnb a +b.所以,F (a 1,b 1)Φ-a lna a +b-b lnb a +b.根据以上①,②和③,有∑x i ∈P 1[-μB iX (x i )ln μB i X (x i )-(1-μBi X (x i ))ln (1-μBiX (x i ))]Ε∑x i ∈Q i ∪Q j[-μB i X (x i )ln μB i X (x i )-(1-μB iX (x i ))・ln (1-μB iX(x i ))].所以,d Z (F B i +1X)Φd Z (F B i X).综上所述,定理6得证.证毕.当属性增量ΔB i 将P 1划分为Q i ,Q j (Q i ≠ ,Q j ≠ ,Q i ∩Q j ≠ )两个细的知识颗粒时,即P 1=Q i ∪Q j ,X ΑU ,如果|P 1∩X ||P 1|-|P 1∩X |=|Q i ∩X ||Q i |-|Q i ∩X |=|Q j ∩X ||Q j |-|Q j ∩X |,则称P 1被属性增量ΔB i“成比例”细分.特别地,当Q i = 或者Q j = (即P 1没有被分解)时,我们视为一种特殊的“成比例”细分.推论1. 当且仅当属性增量ΔB i 将U/B i ={P 1,P 2,…,P r }中的每个知识颗粒进行“成比例”细分时,有d Z (F B iX )=d Z (F B i +1X).如果属性增量ΔB i 将U/B i ={P 1,P 2,…,P r }中的某个知识颗粒进行“不成比例”细分后,粗糙集的模糊性将严格递减.续例2. 设X ={x 6,x 7,x 8,x 9},U/{a 1,a 2};U/{a 1},则 F {a 1}X =27,27,27,27,27,27,27,1,1,0,0,0; F{a 1,a 2}X=0,26,26,26,26,26,26,1,1,0,0,0.由第3节可知,d Kq (F {a 1,a 2}X )=463>d Kq (F {a 1}X )=473,这与人们的认知相悖.用d Z (・)计算得d Z (F {a 1}X )=-112ln227ln 27+57ln 57×7+0=112ln2×65188;d Z (F {a 1,a 2}X )=-112ln226ln 26+46ln 46×6+0=112ln2×45156.可见,d Z (F {a 1}X )>d Z (F {a 1,a 2}X ).这说明二次模糊度随着知识粒度的减小反而增加,d Z (・)随着知识粒度的减小而单调递减.续例3.设U ={x 1,x 2,…,x 10},U/B i ={{x 1,x 2,x 3},{x 4,x 5,x 6,x 7},{x 8,x 9,x 10}},U/B i +1={{x 1,x 2,x 3},{x 4,x 5,x 6,x 7},{x 8,x 9},{x 10}},X ={x 3,x 4,x 5,x 6,x 7},则ρB i (X )=ρB i +1(X )=37;E B i (X )=370(8+log 7292),E B i +1(X )=370(8+log 1082),所以,E B i (X )>E B i +1(X );而模糊集F B i X 和F Bi +1X 相等(F B i X =F Bi +1X =13,13,13,1,1,1,1,0,0,0),所以,d Z (F Bi X )=d Z (F Bi +1X ).这说明与集合X 无关的知识颗粒的细化导致粗糙熵严格递减,但模糊度d Z (・)不变.式(9)依赖两部分信息熵,既利用了度量不确定性的Shannon 熵,也结合粗糙集的特点,同时构造集合X 的边界域中属于X 的那部分元素“贡献”的不确定性和不属于X 的那部分元素“贡献”的不确定性,非常直观.随着集合X 的边界域上的知识颗粒的“不成比例”的细分,粗糙集的模糊度将严格递减;而集合X 边界域上的知识颗粒被“成比例”细分时,粗糙集的模糊度不变.这更加准确地刻画出人们对不确定性问题的认知规律.5 不同知识粒度下粗糙集的粗糙度和模糊度的变化关系这里主要讨论粗糙度ρB (・)和模糊度d Z (・)在分层递阶的近似空间中随知识粒度的变化而变化的关系.性质1. 设信息系统S =(U ,A ,V ,f )中,B Α59519期王国胤等:不同知识粒度下粗糙集的不确定性研究A,XΑU,如果X是关于B精确的,则d Kl(F B X)= d Kq(F B X)=d Z(F B X)=0.这个性质表明,任何关于B的精确集的模糊度都等于0.除了用数值来表示粗糙集的不确定特征外,也可以用拓扑特征[22]来刻画.(1)如果B(X)≠ , B(X)≠U,称X是粗糙可定义的;(2)如果B(X)= , B(X)≠U,称X是内不可定义的;(3)如果B(X)≠ , B(X)=U,称X是外不可定义的;(4)如果B(X)= , B(X)=U,称X是全不可定义的.性质2. 设信息系统S=(U,A,V,f)中,BΑA,XΑU,如果d Z(F B X)=1,则ρB(X)=1,且X关于B是全不可定义的.这个性质的逆不一定成立.即一个集合X关于B是全不可定义时,它的粗糙度等于1,但是模糊度不一定等于1.性质3. 设信息系统S=(U,A,V,f)中,B1<B2ΑA,XΑU,且ρB1(X)>ρB2(X),则d Z(F B1X)>d Z(F B2X).该性质说明,在一条属性链上,如果粗糙度降低,必然导致粗糙集的模糊度降低.该性质的逆不一定成立,即如果d Z(F B1X )>d Z(F B2X)时,ρB1(X)>ρB2(X)不一定成立.这说明粗糙集的模糊度降低时,粗糙度未必降低.性质4. 设信息系统S=(U,A,V,f)中,B1<B2ΑA,XΑU,如果d Z(F B1X)=d Z(F B2X),则ρB1(X)=ρB2(X).随着分层递阶的近似空间中知识粒度的减小,如果粗糙集的模糊度不变,则粗糙集的粗糙度也不变.性质3和性质4表明模糊度比粗糙度对知识粒度的变化更“灵敏”.性质5. 设信息系统S=(U,A,V,f)中,B1<B2ΑA,且G(U/B1)>G(U/B2),则ρB1(X)ΕρB2(X),d Z(F B1X)Εd Z(F B2X).随着近似空间中的知识粒度的减小,粗糙集的粗糙度、模糊度不一定严格递减.性质6. 设信息系统S=(U,A,V,f)中,B1<B2ΑA,XΑU,如果ρB1(X)>ρB2(X)或者d Z(F B1X)>d Z(F B2X),则G(U/B1)>G(U/B2).在分层递阶的近似空间中,知识粒度随着粗糙集的粗糙度或模糊度的降低而必然降低.性质7. 设信息系统S=(U,A,V,f)中,BΑA,XΑU,若ρB(X)<1,则d Z(F B X)<1.在分层递阶的近似空间中,这些性质刻画了粗糙度、模糊度随知识粒度的变化而变化的规律.本文给出的粗糙集模糊度d Z(・)随知识粒度的变化规律更加符合人们的认知规律.6 结束语粗糙集的粗糙度、粗糙熵、模糊度和模糊熵虽然都是度量粗糙集的不确定性的,但它们之间有一定的联系和区别.粗糙性从集合的边界区域的角度来刻画粗糙集的不确定性,随着知识粒度的减小,如果集合的边界区域变小,粗糙度降低,粗糙集的不确定性下降,具有很好的直观性;而粗糙集的模糊性用元素属于某个集合的隶属函数的大小来刻画粗糙集的不确定性,与集合的边界区域大小和知识粒度的大小有关.粗糙集的粗糙性具有一定的“几何”特点,而模糊性具有一定的“代数”特点,它们从直观和抽象两个方面分别刻画出粗糙集的不确定性,具有一定的互补性.本文从信息熵的角度提出了一种新的粗糙集的模糊性度量方法d Z(・),该方法用“两个”方面的信息熵来刻画粗糙集的不确定性,具有非常形象和直观的特点.这种模糊度既有信息熵度量不确定性的优势(是两部分信息熵构成),又能克服粗糙度和Liang[18]定义的粗糙熵对粗糙集不确定性度量的不足,也能弥补Chakrabarty[10]等人提出的粗糙集模糊度随着知识粒度减小反而可能增加的缺陷.在研究中,我们发现不是满足定义8的任意模糊度都会随着知识颗粒的细分而严格单调递减,因此,在构造测量粗糙集的模糊度的测量方法时,除了满足定义8外,还应该增加一个约束条件:随着知识颗粒的细分,粗糙集的模糊度单调递减.参考文献[1]Li De2Y i,Liu Chang2Yu,Du Y i,Han Xu.Artificial intelli2gence wit h uncertainty.Journal of Software,2004,15(11):158321594(in Chinese)(李德毅,刘常昱,杜鹢,韩旭.不确定性人工智能.软件学报,2004,15(11):158321594)6951计 算 机 学 报2008年。