基于Vague粗糙集信息熵的属性约简算法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于Vague粗糙集信息熵的属性约简算法

李玉超;徐金华

【摘要】针对复杂系统分析中的数据信息冗余问题,提出一种基于Vague粗糙集信息熵的属性约简算法.首先,对Vague粗糙集相关概念进行拓展,提出Vague粗糙集的扩展信息熵和广义信息熵的模型;其次,对基于信息熵的属性重要性度量和属性约筒原理进行研究,进而提出了一种基于Vague粗糙集信息熵的监督式属性约简算法;最后,选取UCI数据库对算法性能进行验证,计算结果表明该算法实用有效.%In order to solve data information redundancy in complex system analysis,an attribution reduction algorithm based on information entropy of vague rough set is proposed.Firstly,the concerned concepts of vague rough set are expanded,then the extended information entropy and generalized information entropy are defined.Secondly,the attribution importance measure and attribution reduction principle based on information entropy are studied,and then an attribution reduction algorithm based on generalized information entropy is put forward.Finally,the algorithm quality is verified by applying to the chosen UCI database,and the calculation result has shown the validity and feasibility.

【期刊名称】《运筹与管理》

【年(卷),期】2017(026)005

【总页数】5页(P1-5)

【关键词】粗糙集;Vague粗糙集;信息熵;属性约简

【作者】李玉超;徐金华

【作者单位】中国科学院大学经济与管理学院,北京100049;军事科学院军事战略研究部,北京100091

【正文语种】中文

【中图分类】O159;C931

在军事资源统筹、经济政策调控、工业过程控制等诸多领域,复杂系统问题通常需要综合定量数据和定性知识进行集成分析,但数据和知识中蕴含的信息并不总是有用的,往往不同程度地包含冗余成分。在进行系统结构化分析计算之前,需要对原始数据和知识进行预处理,以剔除冗余属性信息。

属性约简算法是一种重要的数据处理方法,其目的是在保证信息系统分类能力不变的前提下,删除其中不相关或不重要的属性。属性约简是粗糙集研究的一个重要方向,可分为区分函数约简法和启发式约简法两大类。区分函数法通过推理直接提取多个约简集,在较小规模的数据集处理上效果明显。Skowron[1]等人针对不同数据属性的信息系统提出了相应算法。而启发式约简法则通过计算属性依赖度,从大到小逐步添加属性,按一定的停止准则获取约简集。该方法计算相对简单,且容易与机器学习等其它智能算法相结合。随着模糊数学和粗糙数学的发展,Jensen等人在Dubois的FRS模型基础上,提出了基于模糊粗糙集模糊属性依赖度的选择算法[2];王国胤等人基于模糊关系从信息熵角度定义了属性重要性的有关定义,给出了几种高效的启发式属性约简算法[3];赵军阳基于任意模糊关系,提出了一种特征选择算法[4]。这些研究具有重要的理论价值,但其信息系统决策表计算均基于模糊集,难以有效处理以真、假隶属关系描述的Vague集[5](即直觉模糊集[6,7],能更细致地刻画未知证据信息)数据属性约简。当前Vague粗糙集(或直觉

模糊粗糙集)已成为粗糙集理论研究的一个重要方向[8,9],但其中有关属性约简的

研究尚不多见[10~12],而且大部分算法时间复杂度较大,约简的属性子集数和

平均分类精度难以同时占优。

本文针对以上问题,首先提出度量Vague近似空间信息不确定性的Vague粗糙

集扩展信息熵和广义信息熵的模型,然后研究基于信息熵的Vague集属性重要性度量和属性约简原理,提出一种基于Vague粗糙集信息熵的监督式属性约简算法,最后实例验证了算法性能。

Vague信息系统(U,C∪D,V,F)与模糊信息系统相类似,Vague信息系统所包含的

属性A=C∪D是Vague属性,对论域的划分形成的是Vague等价类。参照模糊

集的势的定义[13],给出Vague集的势的如下定义。

定义1 (Vague集的势) 设(U,R,ψ,T)是Vague近似空间,U是非空有限论域,

x∈U,R为U上的任意模糊关系,[x]R是一个Vague集,其隶属度函数为

[x]R(y)=R(x,y),则可定义[x]R的势为:

|[x]R|

对象xi在Vague关系R下的势[xi]R为:|[xi]R|其中rij为对象xi与xj在Vague

关系R下的相似关系。

信息不确定有多种类型[14],一个信息系统往往存在多种不确定模式,如粗糙数据包含Vague信息或Vague数据存在粗糙分类。为度量数据空间的信息不确定性,1999年Wierman提出了度量粗糙集不确定性的信息熵定义[15],但该定义只关

注了类别内的信息,而未考虑如何度量类别外的信息。对此,梁吉业在考虑类别补集的划分的基础上,提出了一种改进模型[16],但该模型对关系的要求较为严格,实际当中很难保证严格满足等价关系。赵军阳基于任意模糊关系给出了模糊粗糙集信息熵的定义[4,17],但由于Vague值不能在不损失已知信息的前提下转化为模

糊值,故而该模型不能适用Vague粗糙条件下的信息不确定性度量,需进一步拓

相关文档
最新文档