属性约简
基于决策规则质量的属性值约简算法
( . t r n g me t e tr S c u n Unv ri f c n lg 1 Newo k Ma a e n n e , i a ie s yo h oo y& E gn e ig io g 6 3 0 ) C h t Te n ie r ,Zg n 4 0 0 n
Pythagorean模糊信息系统属性约简的图论方法
㊀第52卷第1期郑州大学学报(理学版)Vol.52No.1㊀2020年3月J.Zhengzhou Univ.(Nat.Sci.Ed.)Mar.2020收稿日期:2019-05-21基金项目:国家自然科学基金项目(61573127);河北省自然科学基金项目(A2018210120);河北省人才工程培养资助项目(A2017002112,A201901049);河北省优秀专家出国培训项目㊂作者简介:张少谱(1980 ),男,河北石家庄人,副教授,主要从事离散数学与数据挖掘研究,E-mail:shaopuzhang@;通信作者:孙品(1995 ),女,河北石家庄人,硕士研究生,主要从事离散数学与数据挖掘研究,E-mail:sunpin_td@㊂Pythagorean 模糊信息系统属性约简的图论方法张少谱1,㊀孙㊀品1,㊀冯㊀涛2(1.石家庄铁道大学数理系㊀河北石家庄050043;2.河北科技大学理学院㊀河北石家庄050018)摘要:信息系统中,属性约简是知识发现问题的一个研究热点,能达到发掘并简化知识的目的㊂目前已有很多利用辨识矩阵来进行属性约简的研究,但是当数据维数较大时,算法复杂度往往很大㊂利用加权欧几里得距离来定义二元关系及辨识矩阵,利用信息系统的约简与生成图的最小顶点覆盖等价的关系,将辨识矩阵求解约简的问题转化为求解生成图中最小顶点覆盖的问题,并给出了Pythagorean 模糊信息系统中属性约简的算法;在此基础上,利用基于加权欧几里得距离的相似关系,定义了Pythagorean 模糊决策信息系统的辨识矩阵,并给出了用最小顶点覆盖的方法求约简算法,最后利用实例验证了算法的有效性㊂关键词:Pythagorean 模糊信息系统;属性约简;辨识矩阵;最小顶点覆盖中图分类号:O236㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2020)01-0079-08DOI :10.13705/j.issn.1671-6841.20191970㊀引言粗糙集[1]是一种刻画不完整性和不确定性的数学工具,主要思想是利用已知知识库来刻画不确定或不精确的知识,被广泛应用于专家系统㊁图像处理㊁模式识别㊁决策分析和风险评估等领域㊂经典的粗糙集方法有一定的局限性,在处理实值信息系统时,往往需要将数据离散化,这可能导致一些信息的丢失㊂为了解决这个问题,文献[2]提出了模糊粗糙集,用来解决数据集中存在的不确定性和模糊性,将模糊集与粗糙集结合,给出了实值数据不确定性推理的关键方法㊂文献[3]提出了直觉模糊集,考虑到了隶属度㊁非隶属度与犹豫度,可以更好地处理不确定性,具有更强的处理信息系统的能力㊂考虑到其只能描述隶属度与非隶属度小于和等于1的情况,文献[4]提出了毕达哥拉斯模糊集,要求隶属度与非隶属度的平方和小于等于1即可,可行域为半径为1的1/4圆域,是非常有现实意义的㊂目前,毕达哥拉斯模糊集主要应用于多准则(属性)决策中[5-6]㊂属性约简是粗糙集理论研究的核心内容之一,它是在保持知识库分类能力不变的条件下,删除其中不相关或不重要的属性㊂文献[7]提出的辨识矩阵是求最小约简的有力工具㊂文献[8]提出了基于辨识矩阵的属性集求核算法,减少了对象之间不必要的比较以及矩阵中的空值存储㊂文献[9]提出将形式背景中的属性约简与图论相结合,将形式背景的属性约简问题转化为图论中的最小顶点覆盖问题,并证明这种方法大大减少了算法的时间复杂度㊂因此我们考虑将辨识矩阵和最小顶点覆盖应用到Pythagorean 模糊信息系统的属性约简中㊂本文定义了Pythagorean 模糊信息系统中的辨识矩阵,将辨识矩阵的布尔推理问题转化为图论中的最小顶点覆盖问题,给出了属性约简的算法,并通过实例表明该算法的有效性,最后定义了Pythagorean 模糊决策信息系统中的属性约简算法,用实例证明算法的可行性,并进行了对比分析㊂1㊀基础概念1.1㊀基于加权欧几里得距离的相似度相似度的定义有很多种方法,应用比较广泛的是文献[10]提出的模糊相似关系㊂08郑州大学学报(理学版)定义1[10]㊀若F=(U,A,I,f)为一个模糊信息系统,U为对象集,A为属性集,I为所有模糊集的集合, f:UˑAңI为映射,∀aɪA,相似度定义为sim a(x i,x j)=1-μa(x i)-μa(x j)/μa max-μa min,其中:μa(x i)㊁μa(x j)分别为对象x i㊁x j对于属性a的隶属度;μa max㊁μa min分别为所有对象对于属性a的最大和最小隶属度㊂文献[11]定义了直觉模糊信息系统基于加权欧几里得距离的相似关系㊂定义2[11]㊀若F=(U,A,I,f)为直觉模糊信息系统,U为对象集,A为属性集,I为所有直觉模糊集的集合,f:UˑAңI为映射,∀x i,x jɪU,aɪA,两个直觉模糊集分别为f(x i,a)= μa(x i),νa(x i)⓪和f(x j,a)= μa(x j),νa(x j)⓪,基于加权欧几里得距离的相似度定义为sima(x i,x j)=1-αμa(x i)-μa(x j)2+βνa(x i)-νa(x j)2+γπa(x i)-πa(x j)2,其中α㊁β㊁γ为加权因子㊂1.2㊀Pythagorean模糊信息系统定义3[12-13]㊀设U为给定的非空论域,集合X={ x,μX(x),νX(x)⓪xɪU}称为Pythagorean模糊集,若满足0ɤμ2X(x)+ν2X(x)ɤ1,μX(x),νX(x)ɪ[0,1],其中μX(x)表示元素x对于集合X的隶属度,νX(x)表示元素x对于集合X的非隶属度,πX(x)=1-μ2X(x)-ν2X(x)称为元素x对于集合X的犹豫度㊂λ= μX(x),νX(x)⓪为Pythagorean模糊数㊂定义4[12-13]㊀设四元组S=(U,A,V PF,f)表示一个Pythagorean模糊信息系统,U={x1,x2, ,x n}为对象的集合,A={a1,a2, ,a m}为属性集合,V PF为所有的Pythagorean模糊集的集合,f:UˑAңV PF为映射,对任意的xɪU和aɪA,有f(x,a)= μa(x),νa(x)⓪,其中:μa(x)为对象x关于属性a的隶属度;νa(x)为对象x关于属性a的非隶属度,且满足0ɤμ2X(x)+ν2X(x)ɤ1,μX(x),νX(x)ɪ[0,1]㊂1.3㊀辨识矩阵的简化当数据维数较大时,辨识矩阵中逻辑运算的计算量较大,需要对辨识矩阵进行简化㊂定义5[14]㊀(1)∀(x,y)ɪUˑU,M(x,y)ʂ∅⇒M S(x,y)ʂ∅,且M S(x,y)⊆M(x,y);(2)∀(x,y)ɪUˑU,M(x,y)=∅⇒MS(x,y)=∅㊂倘若满足以上两个条件时,矩阵M S称为辨识矩阵M的简化辨识矩阵㊂元素吸收[14]指若矩阵中一元素M(xᶄ,yᶄ)ʂ∅,满足M(x,y):∅ʂM(xᶄ,yᶄ)⊂M(x,y)㊂此矩阵中M(x,y)的值被M(xᶄ,yᶄ)代替㊂矩阵吸收[14]:矩阵吸收运算的规则是,在满足∅ʂM(xᶄ,yᶄ)⊂M(x,y)的情况下,对矩阵中所有可能的元素对都进行吸收操作㊂简化后的辨识矩阵得到的约简与原辨识矩阵得到的约简相同㊂2㊀Pythagorean模糊信息系统的图表示对于一些维数较大的数据集来说,辨识矩阵的析取与合取的算法过程复杂度较大,考虑将辨识矩阵的约简转化为图的最小顶点覆盖来简化计算量㊂首先定义Pythagorean模糊信息系统中基于加权欧几里得距离的相似度和辨识矩阵㊂2.1㊀Pythagorean模糊信息系统中的加权欧几里得距离及相似关系由于Pythagorean模糊信息系统是直觉模糊信息系统的推广,因此将直觉模糊集的一些性质推广到Pythagorean模糊集中㊂首先给出Pythagorean模糊信息系统中的相似关系并讨论它的性质㊂定义6㊀设λ1= μ1,ν1⓪与λ2= μ2,ν2⓪为两个Pythagorean模糊数,则D(λ1,λ2)=αμ21-μ222+βν21-ν222+γπ21-π222称为Pythagorean模糊数的加权欧几里得距离,其中α㊁β㊁γ为加权因子,本文中规定加权因子α㊁β㊁γ满足条件:(1)0ɤα,β,γɤ1,其中α,βʂ0;(2)α+β+γ=1;(3)αȡβ>γ㊂性质1㊀设λ1= μ1,ν1⓪,λ2= μ2,ν2⓪,λ3= μ3,ν3⓪为3个Pythagorean模糊数,则D(λi,λj)为一个度量,其中i,j=1,2,3㊂对于任意的Pythagorean模糊数λ1㊁λ2㊁λ3,则(1)D(λ1,λ2)ȡ0,且D(λ1,λ2)=0,当且仅当λ1=λ2;(2)D(λ1,λ2)=D(λ2,λ1);(3)D(λ1,λ2)ɤD(λ1,λ3)+D(λ3,λ2)㊂下面定义Pythagorean模糊信息系统中两个对象的相似度㊂定义7㊀设S=(U,A,V PF,f)为Pythagorean模糊信息系统,若(x i,x j)ɪU,a kɪA,f(x i,a k)= μa k(x i),张少谱,等:Pythagorean 模糊信息系统属性约简的图论方法νa k (x i )⓪与f (x j ,a k )= μa k (x j ),νa k (x j )⓪为两个Pythagorean 模糊数,α㊁β㊁γ为加权因子㊂关于a k 的基于加权欧几里得距离的相似度sim 定义为sim a k (x i ,x j )=1-αμ2a k (x i )-μ2a k (x j )2+βν2a k (x i )-ν2a k (x j )2+γπ2a k (x i )-π2a k (x j )2㊂㊀㊀性质2㊀设S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,对于任意x i ,x j ɪU ,a k ɪA ,关于a k 的基于加权欧几里得距离的相似度满足性质:(1)0ɤsim a k (x i ,x j )ɤ1;(2)sim a k (x i ,x j )=sim a k (x j ,x i );(3)f (x i ,a k )=f (x j ,a k )⇔sim a k (x i ,x j )=1;(4)若f (x i ,a k )= 1,0⓪,f (x j ,a k )= 0,1⓪,且α+β=1,则sim a k (x i ,x j )=0,也就是说,x i 和x j 在性质a k 上的表现完全不同㊂定义8㊀设S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,对于任意a k ɪA ,δɪ[0,1],两个对象的δ-相似关系定义为R δ(A )={(x i ,x j )ɪU ˑU sim a k (x i ,x j )ȡδ,∀a k ɪA }㊂性质3㊀设S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,R δ(A )为由属性A 决定的二元关系,则以下性质成立:(1)对任意x i ɪU ,R δ(A )(x i ,x i )=1;(2)对任意x i ,x j ɪU ,R δ(A )(x i ,x j )=R δ(A )(x j ,x i )㊂对任意的C ⊆A ,δɪ[0,1],有R δ(C )=ɘc k ɪC R δ(c k ),且R δ(A )⊆R δ(C )㊂参数δ往往根据数据集的分布特征进行取值,不同的δ代表对象x i 与x j 之间不同的相似度和信息系统中不同的相似关系㊂当数据集的相似程度较大时,应选择更大的δ值,反之亦然㊂定义9㊀若S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,δɪ[0,1],R δ(A )为由属性集A 决定的二元关系,C ⊆A ,称C 为属性集A 的约简(记为red (A )),满足条件:(1)R δ(A )=R δ(C );(2)对任意元素c ɪC ,R δ(A )ʂR δ(C -{c })㊂2.2㊀基于相似关系的辨识矩阵为了得到Pythagorean 模糊信息系统的属性约简,引入基于相似关系的辨识矩阵㊂定义10㊀设S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统㊂记M S (x ,y )={a k ɪA :sim a k (x ,y )<δ}为x 与y 的辨识属性集,其中(x ,y )ɪU ˑU ,称矩阵M S =M S (x ,y )为信息系统S 的辨识矩阵㊂定义11㊀设S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,(x ,y )ɪU ˑU ㊂M S =M S (x ,y )为信息系统S 的辨识矩阵,其中M S (x ,y )为x 与y 的辨识属性集㊂设辨识函数f S 为含有m 个分别与属性a 1,a 2, ,a m对应的布尔变量a ∗1,a ∗2, ,a ∗m 的布尔函数[6],定义为f S (a ∗1,a ∗2, ,a ∗m )=ɡ{ᶱM S (x ,y ):M S (x ,y )ɪM S }=ᶱ(ɡred ),其中ᶱM S (x ,y )为M S (x ,y )中所有属性的析取,即对象x 与y 可以被M (x ,y )中任意一个属性区分,则red 为约简㊂例1㊀设S =(U ,A ,V PF ,f )为一个Pythagorean 模糊信息系统,其中:U ={x 1,x 2,x 3,x 4}为4个病人的集合;AT ={a 1,a 2,a 3,a 4}为4个属性的集合,a 1ʒ=heat ,a 2ʒ=cough ,a 3ʒ=headache ,a 4ʒ=sorethroat ,信息如表1所示,令δ=0.8,α=0.4,β=0.4,γ=0.2㊂M S =∅{a 1,a 2,a 3}∅{a 3}A∅A {a 1,a 4}{a 3,a 4}∅æèçççççöø÷÷÷÷÷,表1㊀4个病人的信息表Table 1㊀An information table of four patientsU a 1a 2a 3a 4x 1 0.9,0.3⓪ 0.7,0.6⓪ 0.5,0.8⓪ 0.6,0.3⓪x 2 0.4,0.7⓪ 0.9,0.2⓪ 0.8,0.1⓪ 0.5,0.3⓪x 3 0.8,0.4⓪ 0.7,0.5⓪ 0.6,0.2⓪ 0.7,0.4⓪x 40.7,0.2⓪0.8,0.2⓪0.8,0.4⓪0.6,0.6⓪㊀㊀根据两对象相似度的定义可得sim a 1(x 1,x 2)=0.505,sim a 2(x 1,x 2)=0.714,sim a 3(x 1,x 2)=0.518,sim a 4(x 1,x 2)=0.916,M (x 1,x 2)={a k ɪA :sim (x 1,x 2)<0.8}={a 1,a 2,a 3}㊂同理可计算M (x 1,x 3)={a 3},M (x 1,x 4)=A ,M (x 2,x 3)=A ,M (x 2,x 4)={a 1,a 4},M (x 3,x 4)={a 3,a 4}㊂进而得到辨识矩阵M S 为red (A )=(a 1ᶱa 2ᶱa 3)ɡ(a 1ᶱa 2ᶱa 3ᶱa 4)ɡa 3ɡ(a 1ᶱa 4)ɡ(a 3ᶱa 4)=(a 3ɡa 1)ᶱ(a 3ɡa 4),即得到两个约简集{a 1,a 3}和{a 3,a 4}㊂任何一个约简集都含有的元素称为核心元素,记为core (A ),即core (A )=ɘred (A )㊂例1中core (A )={a 3}㊂定理1㊀若S =(U ,A ,V PF ,f )为一个Pythagorean 模糊信息系统,C ⊆A ,δɪ[0,1],M S 为此信息系统的18郑州大学学报(理学版)辨识矩阵,则有core (A )={a ɪA :M (x ,y )={a }}㊂即核心属性为辨识矩阵中所有单个元素的集合㊂2.3㊀辨识矩阵的图表示方法下面我们将辨识矩阵的约简与图中最小顶点覆盖联系起来㊂定义12[9,15]㊀给定一个图G = V ,E ⓪,且e ɪE ,令N (e )为连接边e 的一个顶点集㊂定义N ={N (e ):e ɪE }㊂设f G 为图G 的一个布尔函数,由m 个布尔变量v ∗0,v ∗1, ,v∗m构成,且布尔变量与顶点集v 0,v 1, ,v m 一一对应㊂f G (v ∗1,v ∗2, ,v ∗m )=ɡ{ᶱN (e ):N (e )ɪN },其中ᶱN (e )为所有布尔变量v ∗的析取,v ɪN (e )㊂由此可见,图的最小顶点覆盖也可通过布尔公式得到㊂定理2[9]㊀设G = V ,E ⓪为一个图,顶点集K ⊆V 是图G 的最小顶点覆盖,当且仅当ɡv i ɪK v ∗i 是布尔函数f G 极小析取范式中的合取式㊂若将布尔函数f G 化简,则布尔函数f G (v ∗1,v ∗2, ,v ∗m )=ɡ{ᶱN (e ):N (e )ɪN }=ᶱt i =1(ɡsi j =1v ∗j ),其中ɡsi j =i v ∗j ,i ɤt 为布尔函数f G 的极小析取范式中的所有合取式,而K i={v j :j ɤs i },i ɤt ,为图G 的所有最小顶点覆盖[9]㊂在后面的讨论中,用v i 来代替v ∗i ㊂定义13㊀设M S 为Pythagorean 模糊信息系统S =(U ,A ,V PF ,f )的辨识矩阵,令V =A ,E ={e ɪM S :e ʂ∅},称G S = V ,E ⓪为Pythagorean 模糊信息系统S 的生成图㊂图1㊀由S 生成的图G SFigure 1㊀Graph G S induced from S例2㊀以例1中的简化后的辨识矩阵为例㊂生成图中顶点集为V ={a 1,a 3,a 4},边集E ={e 1,e 2},如图1所示,e 1与a 3关联,e 2与a 1和a 4关联,关联矩阵用M G 表示㊂定理3㊀设G S = V ,E ⓪为由Pythagorean 模糊信息系统S =(U ,A ,V PF ,f )的辨识矩阵生成的图,red (S )为Pythagorean 模糊信息系统S 的约简,v (G S )为S 产生的图G S 的最小顶点覆盖,则v (G S )=red (S )㊂性质4㊀若S =(U ,A ,V PF ,f )为Pythagorean 模糊信息系统,δɪ[0,1],R δ(A )为由属性集A 决定的二元关系,M S 为辨识矩阵,若M S 中元素M S (x ,y )由A 中的单个元素a 组成,那么在生成图中,a 为一个含有环的顶点㊂2.4㊀基于相似度的属性约简算法(算法1)输入:Pythagorean 模糊信息系统S =(U ,A ,V PF ,f ),δ,加权因子α,β,γ㊂输出:S 的约简red (A )㊂1.根据相似关系的定义计算辨识矩阵M S 并简化㊂/∗删掉重复行,满行及零行∗/2.找到所有含有环的顶点,这些顶点构成的集合定义为red ㊂3.对任意顶点v ɪred ,删除所有与顶点v 关联的边㊂㊀/∗删除关联矩阵M G 中的某些行∗/4.While M G ʂ∅do5.找度最大的顶点v 0,令red =red ɣ{v 0}㊂6.删除所有与顶点v 0相关联的边㊂7.End while8.对任意v ɪred ,若与顶点v 关联的边都被点集red -{v }覆盖,则删除顶点v ㊂9.返回red ㊂此算法在最坏情况下的时间复杂度为O (U (U-1)A+U (U -1)/2+2A+U ),为多项式时间复杂度,可记为O (U 2A ),经过简化矩阵之后,矩阵运算的维度降低,使算法的效率更高㊂2.5㊀实例分析为了验证基于图论的Pythagorean 模糊信息系统的属性约简算法的可行性和有效性,在目前已有的Pythagorean 模糊集数据上,进行排列组合得到较大规模数据集,如表2所示㊂数据集中含有50个对象,7个条件属性和4个决策属性㊂data1㊁data2㊁data3分别由数据集中的前10㊁20㊁50个对象以及条件属性构成㊂用不同的数据集,不同的约简方法以及不同的参数得到的约简结果及约简时间见表3和表4㊂表3中α㊁β㊁γ分别为0.4㊁0.4㊁0.2,在表4中分别为0.5㊁0.4㊁0.1㊂通过对比可见,随着参数δ的增大,得到的约简基数2838张少谱,等:Pythagorean模糊信息系统属性约简的图论方法㊀㊀表2㊀数据集Table2㊀Data sets编号a1a2a3a4a5a6a7决策属性10.50.70.40.30.50.40.60.60.70.60.90.20.50.62233 20.40.30.50.50.60.40.80.40.40.40.70.50.70.41231 30.60.50.50.60.70.60.70.60.50.10.80.60.80.42242 40.60.70.40.30.80.50.60.40.70.30.30.70.40.31231 50.50.70.60.30.70.50.40.40.70.30.60.40.70.52333 60.40.70.60.30.40.50.50.40.80.30.70.50.60.63222 70.80.40.70.20.70.40.20.50.40.70.70.50.80.42323 80.50.30.30.40.40.60.60.60.80.40.80.30.80.22132 90.50.70.90.20.80.50.60.30.50.60.40.70.60.43113 100.60.60.70.50.70.20.60.40.70.30.80.50.90.33222 110.70.50.60.40.90.30.70.60.70.10.20.50.40.63322 120.70.20.80.20.80.40.60.60.60.60.50.40.40.31213 130.80.60.70.60.50.80.50.50.60.10.30.20.50.22233 140.50.60.90.20.80.10.50.30.40.30.70.30.60.33333 150.60.10.80.20.90.20.50.60.60.40.60.30.80.31323 160.40.70.90.20.80.10.50.30.60.40.90.30.80.12311 170.70.20.80.20.80.40.60.60.40.70.50.60.40.21111 180.80.50.60.40.60.20.80.50.40.30.90.40.80.61112 190.50.20.50.20.60.40.60.30.50.40.70.40.60.52113 200.60.30.60.50.70.20.80.30.70.50.40.70.60.52221 210.60.70.60.50.50.60.70.60.60.50.70.60.80.62243 220.50.30.60.40.40.50.50.60.50.40.80.20.60.14244 230.60.70.60.60.60.40.70.50.70.30.50.60.90.21411 240.70.40.60.30.50.80.80.50.60.20.90.20.50.71433 250.70.30.60.30.70.30.10.80.20.70.90.20.40.74422 260.60.40.50.70.40.70.60.20.60.50.70.60.90.34413 270.70.30.60.50.60.50.50.50.50.60.70.70.60.31434 280.60.30.80.30.70.10.10.80.30.70.80.20.70.23242 290.80.30.20.60.80.40.50.60.40.90.50.80.60.52142 300.50.80.60.10.30.80.40.90.40.50.50.70.80.43234 310.80.90.50.60.30.80.40.90.30.50.60.40.70.24214 320.60.40.80.90.50.60.40.90.60.40.30.90.30.84123 330.80.40.80.60.60.70.80.30.60.50.50.60.70.32243 340.40.30.30.70.70.40.40.60.50.40.60.50.80.33324 350.90.30.70.60.50.80.60.30.60.30.40.40.50.23341 360.40.70.90.20.80.10.50.30.50.30.80.30.60.11324 370.60.30.70.70.70.60.40.40.30.40.60.30.60.21143 380.80.40.70.50.60.20.70.40.70.40.40.40.30.24122 390.70.40.70.50.60.10.90.20.50.60.60.40.50.74223 400.90.20.50.60.60.20.60.10.70.40.70.30.60.53413 410.90.30.70.60.50.80.60.30.50.20.80.40.70.22434 420.80.40.70.50.60.20.70.40.80.80.80.10.30.54231 430.60.30.50.20.80.30.50.30.70.50.60.70.50.64341 440.70.40.60.30.70.30.70.30.80.20.80.40.60.63422 450.50.20.70.30.60.30.60.30.50.60.80.10.90.22242 460.60.20.60.40.60.10.80.30.50.80.70.50.70.42242 470.80.50.60.40.60.50.60.30.10.90.20.50.30.81231 480.60.30.70.30.70.40.70.40.50.30.30.50.80.53234 490.70.50.60.50.60.30.80.60.80.40.40.30.70.61334 500.70.60.30.50.80.60.70.20.30.80.60.80.40.73431郑州大学学报(理学版)表3㊀不同数据集的约简结果及约简时间对比Table 3㊀Comparison of reduction results and reduction time for different data sets数据集δ=0.90δ=0.85图论约简辨识矩阵约简约简时间/s 图论约简辨识矩阵约简约简时间/s 基数最小基数个数图论辨识矩阵基数最小基数个数图论辨识矩阵data122120.0590.2443380.0900.246data233190.07767.03243120.109 1.232data333160.10721.5706620.1590.179表4㊀不同数据集的约简结果及约简时间对比Table 4㊀Comparison of reduction results and reduction time for different data sets数据集δ=0.90δ=0.85图论约简辨识矩阵约简约简时间/s 图论约简辨识矩阵约简约简时间/s 基数最小基数个数图论辨识矩阵基数最小基数个数图论辨识矩阵data122130.0970.4943380.0940.572data233230.10534.69444140.14623.151data333130.1574.2676610.1790.168变小㊂本文的算法得到的约简包含在原始算法得到的约简中,且在一定条件下等于原始算法的最小约简,原始算法可得到所有可能的约简结果,但是图论方法可以节省算法的时间㊂在约简的过程中,若出现度数相同的顶点(条件属性),总是优先考虑角标较小的点,在实际应用中可根据决策者的偏好,优先选择相对重要的属性㊂3㊀Pythagorean 模糊决策信息系统约简的图解法3.1㊀Pythagorean 模糊决策信息系统的辨识矩阵定义14㊀Pythagorean 模糊决策信息系统是一个五元组F =(U ,A ,V ,D ,I ),A 为条件属性集,D 为决策属性集,δɪ[0,1],则Pythagorean 模糊决策信息系统中的δ-相似关系R δ(A D )定义为R δ(A D )={(x i ,x j )ɪU ˑU ∀a k ɪA ,sim a k (x i ,x j )ȡδᶱI D (x i )=I D (x j )}㊂㊀㊀定义15㊀令F =(U ,A ,V ,D ,I )为Pythagorean 模糊决策信息系统,δɪ[0,1],C ⊆A 为属性集A 关于D 的一个约简,满足条件:(1)R δ(C D )=R δ(A D );(2)∀Cᶄ⊂C ,R δ(CᶄD )ʂR δ(A D )㊂定义16㊀令F =(U ,A ,V ,D ,I )为Pythagorean 模糊决策信息系统,(x ,y )ɪU ˑU ,则称M F (x ,y )={a k ɪA :sim a k (x ,y )<δ},I D (x )ʂI D (y ),∅,otherwise㊂{为F 中x 与y 的辨识属性集,称M F ={M F (x ,y ):(x ,y )ɪU ˑU }为F 的辨识矩阵,辨识函数类似地定义为f F ( a 1, a 2, , a m )=ɡ{ᶱM F (x ,y ):M F (x ,y )ɪM F ,M F (x ,y )ʂ∅}㊂3.2㊀辨识矩阵的图表示定义17㊀令F =(U ,A ,V ,D ,I )为Pythagorean 模糊决策信息系统,M F 为辨识矩阵,G F = V ,E ⓪称为Pythagorean 模糊决策信息系统的生成图,若V =A ,E ={e ɪM F ,e ʂ∅}㊂通过定理2中信息系统的约简与生成图中顶点覆盖的关系,可以得到关于Pythagorean 模糊决策信息系统的相关结论㊂定理4㊀若G F = V ,E ⓪为Pythagorean 模糊决策信息系统F =(U ,A ,V ,D ,I )的生成图,则有red (F )=v (G F )㊂以上结果对于超图依然成立㊂例3㊀表5为一个Pythagorean 模糊决策信息系统F =(U ,A ,V ,D ,I ),其中:U ={x 1,x 2,x 3,x 4};A ={a 1,a 2,a 3,a 4};D ={d }㊂令δ=0.7,α=0.4,β=0.4,γ=0.2㊂48张少谱,等:Pythagorean 模糊信息系统属性约简的图论方法表5㊀Pythagorean 模糊决策信息系统决策表Table 5㊀Decision table of pythagorean fuzzy decision information systemU a 1a 2a 3a 4d x 1 0.9,0.3⓪ 0.7,0.6⓪ 0.5,0.8⓪ 0.6,0.3⓪1x 2 0.4,0.7⓪ 0.9,0.2⓪ 0.8,0.1⓪ 0.5,0.3⓪2x 3 0.8,0.4⓪ 0.7,0.5⓪ 0.6,0.2⓪ 0.7,0.4⓪1x 40.7,0.2⓪0.8,0.2⓪0.8,0.4⓪0.6,0.6⓪3㊀㊀根据定义10,利用辨识函数得到约简{a 1,a 3},{a 1,a 4},{a 3,a 4},{a 2,a 4}㊂通过辨识矩阵可得生成图G F = V ,E ⓪,关联矩阵如表6所示㊂得到辨识矩阵M S 为M s =∅{a 1,a 2,a 3}∅∅A∅A {a 1,a 4}{a 3,a 4}∅æèçççççöø÷÷÷÷÷,表6㊀关联矩阵M GTable 6㊀Incidence matrix M G边a 1a 2a 3a 4e 11110e 21001e 311㊀㊀生成图G F = V ,E ⓪中,V ={a 1,a 2,a 3,a 4},E ={{a 1,a 2,a 3},{a 1,a 4},{a 3,a 4}},显然red (F )=v (G F )={{a 1,a 4},{a 1,a 3},{a 2,a 4},{a 3,a 4}}㊂性质5㊀令F =(U ,A ,V ,D ,I )为Pythagorean 模糊决策信息系统,称S F (U ,A ,V )为由F 生成的Pythagorean 模糊信息系统,M S 为S F 的辨识矩阵,M F 为F 的辨识矩阵,对任意x ,y ɪU ,可得关系M F (x ,y )=M S (x ,y ),I D (x )ʂI D (y );∅,otherwise㊂{㊀㊀根据定义10和16可证上式成立,由此可见,对任意x ,y ɪU ,恒有M F (x ,y )=M S (x ,y )㊂3.3㊀Pythagorean 模糊决策信息系统的属性约简算法(算法2)输入:Pythagorean 模糊决策信息系统F =(U ,A ,V ,D ,I ),δ,加权因子α,β,γ㊂输出:F 的约简red (A )㊂1.根据算法1,找到Pythagorean 模糊信息系统S F (U ,A ,V )生成图的辨识矩阵M S ㊂2.if I D (x )=I D (y )3.M F (x ,y )=M S (x ,y )4.else M F (x ,y )=∅5.产生图的关联矩阵M G ㊂6.利用算法1中步骤3~9,得到约简red (A )㊂3.4㊀实验分析选取表2中的前10㊁20㊁50个数据以及对应的条件和决策属性作为data4㊁data5㊁data6㊂算法的约简结果及运行时间见表7(参数α㊁β㊁γ分别为0.4㊁0.4㊁0.2)和表8(参数α㊁β㊁γ分别为0.5㊁0.4㊁0.1)㊂可见在约简结果相同的条件下,本文提出的算法大大减少了算法复杂度㊂表7㊀不同数据集的约简结果及约简时间对比Table 7㊀Comparison of reduction results and reduction time for different data sets数据集δ=0.90δ=0.85图论约简辨识矩阵约简约简时间/s 图论约简辨识矩阵约简约简时间/s 基数最小基数个数图论辨识矩阵基数最小基数个数图论辨识矩阵data422120.0640.3003380.1300.265data533190.06970.61343130.149 1.526data633130.12324.2876620.1660.22658郑州大学学报(理学版)表8㊀不同数据集的约简结果及约简时间对比Table 8㊀Comparison of reduction results and reduction time for different data sets数据集δ=0.90δ=0.85图论约简辨识矩阵约简约简时间/s 图论约简辨识矩阵约简约简时间/s 基数最小基数个数图论辨识矩阵基数最小基数个数图论辨识矩阵data422130.097 1.8923380.0990.610data533230.11233.40344150.1338.112data633120.1484.0996620.1980.2044㊀结论本文主要讨论了Pythagorean 模糊信息系统和Pythagorean 模糊决策信息系统中的属性约简问题㊂利用加权欧几里得距离定义了对象之间的相似度,然后利用信息系统中的约简与图论中顶点覆盖之间的关系,将辨识矩阵转化为图论中的关联矩阵,将NP-Hard 问题简化为多项式复杂度的问题,减少了约简算法的时间复杂度,给出了Pythagorean 模糊信息系统和Pythagorean 模糊决策信息系统中属性约简的算法,最后分别用实例验证了其可行性,并进行了对比分析㊂参考文献:[1]㊀PAWLAK Z.Rough sets[J].International journal of computer and information sciences,1982,11(5):341-356.[2]㊀DUBOIS D,PRADE H.Rough fuzzy sets and fuzzy rough sets[J].International journal of general systems,1990,17(2/3):191-209.[3]㊀ATANASSOV K T.Intuitionistic fuzzy sets[J].Fuzzy sets and systems,1986,20(1):87-96.[4]㊀YAGER R R.Pythagorean membership grades in multicriteria decision making[J].IEEE transactions on fuzzy systems,2014,22(4):958-965.[5]㊀ZENG S Z,CHEN J P,LI X S.A hybrid method for Pythagorean fuzzy multiple-criteria decision making [J].Internationaljournal of information technology &decision making,2016,15(2):403-422.[6]㊀REN P J,XU Z S,GOU X J.Pythagorean fuzzy TODIM approach to multi-criteria decision making[J].Applied soft compu-ting,2016,42:246-259.[7]㊀SKOWRON A,RAUSZER C.The discernibility matrices and functions in information systems[M].Dordrecht:Springer Nether-lands,1992:331-362.[8]㊀杨涛,张贤勇,冯山.基于差别矩阵的属性集求核算法[J].郑州大学学报(理学版),2018,50(1):27-32.YANG T,ZHANG X Y,FENG S.A core algorithm of attribute sets based on the discernibility matrix[J].Journal of Zhengzhouuniversity(natural science edition),2018,50(1):27-32.[9]㊀CHEN J K,MI J S,LIN Y J.A graph approach for knowledge reduction in formal contexts[J].Knowledge-based systems,2018,148:177-188.[10]JENSEN R,SHEN putational intelligence and feature selection:rough and fuzzy approaches[J].Kybernetes,2009,38:3-4.[11]FENG Q R,LI R.Discernibility matrix based attribute reduction in intuitionistic fuzzy decision systems[M].Berlin:Springer,2013:147-156.[12]YAGER R R.Pythagorean membership grades in multicriteria decision making[J].IEEE transactions on fuzzy systems,2014,22(4):958-965.[13]QU G H,ZHANG H P,LIU Z L.Group decision making based on λ-shapley Choquet integral novel intuitionistic fuzzy TOPSISmethod[J].System engineering theory and practice,2016,36(3):726-742.[14]YAO Y Y,ZHAO Y.Discernibility matrix simplification for constructing attribute reducts [J].Information sciences,2009,179(7):867-882.[15]左孝凌,李为鑑,刘永才.离散数学[M].上海:上海科学技术文献出版社,1988.ZUO X L,LI W J,LIU Y C.Discrete mathematics [M].Shanghai:Shanghai Science and Technology Literature PublishingPress,1988.(下转第113页)68311㊀第1期曾庆山,等:点到点二阶参数优化迭代学习控制算法Point-to-point High-order Parameter Optimization IterativeLearning Control AlgorithmZENG Qingshan,XIONG Zhanlei,YIN Mingjun(School of Electrical Engineering,Zhengzhou University,Zhengzhou450001,China) Abstract:Aimed to solve the point-to-point tracking control problem of a class of discrete linear time-in-variant systems,a point-to-point high-order parameter optimization iterative learning control algorithm via fast reference trajectory updating was proposed.Firstly,when the reference trajectory was updated,the fixed learning gainλin the interpolation method was changed to an exponential variable gain eγ(k)that varied with the iteration process,which allowed the new reference trajectory to approach the system output faster.Then,the new control input was constructed by using the input and output information obtained from the current and previous iterations,and the parameters were optimized to achieve fast and efficient tracking control performance.Finally,the effectiveness of the algorithm was verified by theoretical analy-sis and simulation example.Key words:reference trajectory updating;parameter optimization;point-to-point;iterative learning con-trol(责任编辑:方惠敏)(上接第86页)A Graph Approach for Attribute Reduction of Pythagorean FuzzyInformation SystemsZHANG Shaopu1,SUN Pin1,FENG Tao2(1.Department of Mathematics and Physics,Shijiazhuang Tiedao University,Shijiazhuang050043,China;2.School of Sciences,Hebei University of Science and Technology,Shijiazhuang050018,China) Abstract:Attribute reduction was a hot spot of knowledge discovery in information systems.It helped us to discover and simplify knowledge.There were many studies on attribute reduction using discernibility matrix.However,when the data dimension increased,the complexity of the algorithm also increased. Weighted Euclidean distance was used to define the binary relation and the discernibility ing the equivalence relationship between attribute reduction of a given information system and minimum vertex cover of a graph induced from this information system,the problem of solving reduction of discernibility matrix was transformed into the calculation of minimum vertex cover of the induced graph.Then a new al-gorithm of attribute reduction in Pythagorean fuzzy information system was proposed.Reduction algorithm based on the method of minimum vertex cover of Pythagorean fuzzy decision information system was con-structed by the same way.Then,the effectiveness of the proposed algorithms was demonstrated by exam-ples.Finally,the comparative analysis was given.Key words:Pythagorean fuzzy information system;attribute reduction;discernibility matrix;minimum vertex cover(责任编辑:方惠敏)。
数据预处理的主要流程
数据预处理的主要流程随着数据科学和人工智能的发展,数据处理逐渐成为了各个领域的重要环节。
而数据预处理作为数据处理的前置环节,其重要性更是不言而喻。
数据预处理是指在数据分析中对原始数据进行整理、清洗、转换和集成等一系列处理,以提高后续分析的准确性和可信度。
本文将介绍数据预处理的主要流程,以帮助读者更好地理解和应用数据预处理技术。
一、数据获取数据获取是数据预处理的第一步,也是最基础的步骤。
数据获取的方式有很多,例如从数据库中提取数据、从网络爬虫中抓取数据、从外部系统中导入数据等。
数据获取的关键是要保证数据的完整性和准确性。
在获取数据时,需要考虑数据的来源、数据的格式、数据的结构等因素,以便更好地进行后续的处理。
二、数据清洗数据清洗是数据预处理的核心环节,也是最复杂的环节。
数据清洗的目的是消除数据中存在的噪声、异常值和缺失值等不规则数据,从而提高数据的质量和可信度。
数据清洗的流程包括以下几个步骤: 1. 去除重复数据:如果数据集中存在重复数据,需要将其去重,以避免重复计算和分析。
2. 处理缺失值:数据中可能存在一些缺失值,需要进行处理。
处理缺失值的方法包括填充缺失值、删除缺失值等。
3. 处理异常值:数据中可能存在一些异常值,需要进行处理。
处理异常值的方法包括删除异常值、替换异常值等。
4. 处理噪声数据:数据集中可能存在一些噪声数据,需要进行处理。
处理噪声数据的方法包括平滑处理、滤波处理等。
三、数据转换数据转换是数据预处理的另一个重要环节,其目的是将数据转换为更适合分析的形式。
数据转换的流程包括以下几个步骤:1. 数据规范化:数据规范化是指将数据统一到同一个尺度上。
数据规范化的方法包括最小-最大规范化、Z-Score规范化等。
2. 数据离散化:数据离散化是指将连续数据转换为离散数据。
数据离散化的方法包括等频离散化、等宽离散化等。
3. 数据变换:数据变换是指对数据进行一定的数学变换,以便更好地进行分析。
数据变换的方法包括对数变换、平方根变换等。
同可区分度属性约简的研究
ZEN G Fa hi nz ,H UAN G G uos hun,C H EN G uang ,e a . e e c o a t i yi t 1R s ar h f tr but r duc on ago ihm bas d on om m o e e i t l rt e c n
C m ue n ier ga d p l ain 计算 机工程与应用 o p t E gn ei A p i t s r n n c o
同 可 区分 度 属性 约 简 的研 究
曾凡 智 黄 国顺 陈广 义 文 翰 , , ,
ZEN G Fa z H UA N G Guo h n , n hi, s u CHEN Gua yi, EN a ng W H n
K e r s c mm o ic m i i t e r e; t b t e u t n; y wo d : o n d s e b ly d g e at u e r d ci HU’ t i u e r d c i n i i r o S at b t e u t r o
1 山科 学技术学 院 计算机系 , . 佛 广东 佛 山 5 8 0 200
2 山科 学 技 术 学 院 理 学 院 , 东 佛 山 5 8 0 . 佛 广 20 0
1D e rm e t of Com pu e Sc e c , . pat n tr i n es Fos n ha Uni r i Fo ha G u ng ng 28 ve st y, s n, a do 5 000, Chi na 2. hoo o i n e, s a U n vest , Sc l f Sc e c Fo h n i r i Fos n, ua y ha G ngd g 28 0, on 5 00 Chia n
粗糙集理论与方法
粗糙集理论与方法
粗糙集理论与方法是一种用于处理不确定性和不完全信息的数学方法。
该方法最早由波兰科学家Zdzislaw Pawlak于1982年提出,其基本思想是基于约简和分割的思想对样本空间进行建模和分析。
粗糙集理论主要包括以下几个关键概念和步骤:
1. 近似集:粗糙集理论认为,一个对象可能属于多个不同的概念或类别,且我们不能确定其准确的分类。
因此,利用近似集的概念,我们可以将对象分成精确区域和不确定区域。
精确区域是指可以准确分类的对象,而不确定区域是指不能确定分类的对象。
2. 上近似和下近似:在粗糙集理论中,上近似是指包含所有精确分类对象的集合,而下近似是指包含所有不确定分类对象的集合。
上近似和下近似的交集被称为约简。
3. 属性重要性:对于给定的属性,粗糙集理论可以通过属性重要性来判断其对分类结果的贡献程度。
属性重要性可以通过信息熵、信息增益等指标来度量。
4. 属性约简:属性约简是粗糙集理论中的一个重要步骤,它的目的是通过删除某些不重要的属性来减少样本空间的复杂性,同时保持样本分类的准确性。
属性约简可以通过贪婪算法、遗传算法等进行求解。
粗糙集理论与方法在数据挖掘、决策分析、模式识别等领域具有广泛应用。
它可以处理不完整、不确定、模糊等问题,帮助人们对复杂的数据进行分析和决策。
信息系统的属性约简
2001年12月系统工程理论与实践第12期 文章编号:100026788(2001)1220076205信息系统的属性约简梁吉业1,2,曲开社2,徐宗本1(1.西安交通大学理学院信息与系统科学研究所,陕西西安710049;2.山西大学计算机科学系,山西太原030006)摘要: 粗糙集理论是一种新的处理模糊和不确定知识的数学工具.属性约简是粗糙集理论研究中的重要内容之一,现已证明寻找信息系统的最小约简是N P2hard问题.本文提出一个基于信息量的属性约简的启发式算法,该算法的时间复杂性为O( A 3 U 2).通过例子分析,表明该算法是有效的.关键词: 粗糙集理论;信息系统;属性约简;算法复杂性中图分类号: T P18 文献标识码: A αR educti on of A ttribu te in Info rm ati on System sL I AN G J i2ye1,2,QU Kai2she2,XU Zong2ben1(1.In stitu te fo r Info rm ati on and System Science,Facu lty of Science,X i’an J iao tong U n iversity,X i’an 710049,Ch ina;2.D epartm en t of Compu ter Science,Shanx i U n iversity,T aiyuan030006,Ch ina)Abstract: Rough set theo ry is a new m athem atical too l to deal w ith vagueness anduncertain ty.R educti on of attribu te is one of the i m po rtan t top ics in the research onrough set theo ry.It has been p roved that finding the m in i m al reducti on of aninfo rm ati on system is a N P2hard p rob lem.In th is paper,an info rm ati on quan tity2basedheu ristic algo rithm fo r reducti on of attribu te is p ropo sed,the ti m e comp lex ity of th isalgo rithm is O( A 3 U 2).T hough runn ing an examp le,w e show that th is algo rithmis effective.Keywords: rough set theo ry;info rm ati on system s;reducti on of attribu te;comp lex ityof algo rithm1 引言粗糙集理论[1,2]是一种新的处理模糊和不确定知识的数学工具.其主要思想是,在保持信息系统的分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则.经过十几年的研究与发展,粗糙集理论已经在理论和实际应用上取得了长足的发展,特别是由于九十年代在知识发现等领域得到了成功的应用而受到国际学术界广泛关注.目前,它正在被广泛应用于机器学习、决策分析、过程控制、模式识别和数据挖掘等领域[3,4].属性约简是粗糙集理论中的重要内容之一[1]。
一种完备的最小属性约简方法
Doh 1.9 9 .s 0 03 2 . 1 . .1 O3 6 /i n10 —4 8 O 2 40 5 js 2 0
1 概 述
粗糙集理论是一种新型的处理模 糊和 不确 定知识 的数学
。
工具 ,属性约简是它的核心内容 之一 ,目前国内外 已经提 出
了许多属性约简方法。 基于差别矩 阵 的属性约简是属性约简 的方法之一 ,该
rd cint eig nrt ae ntepo a it fh tiue i i ent bet. l nma tiuerd cin r g trm mii l e ut e e eae b sdo rb blyo eatb ts c ds r ojcsAlmii l tb t e u t s e o o nma o r s d h i t r wh h c wo ar o a f
的,也就是说这 2 种属性约简是不等价的 ,文献 [】 8进一步研
究指 出产 生这个 问题 的根本原 因:由于决策表 信息系统的不 相容 性导致 了 H 的方法出错 ,因此对于一致决策表基于差 u 别矩阵的属性约筒与基于正 区域的属性 约简是等价 的。 对一 个信 息系统 ,一般而言求 出所有约简与求最小约筒 都是 N P难 问题 ,因此 ,常借助于某种启 发式信息来求近优 解 ,但很多方法都 是不完备 的。本文根据差别矩阵 的求核原
at i u e e u to r e T e r s l ft eme h d i o e o b o trb t sr d c i n te . h e u t t o s o h pr v d t ec mp ee a d mi i l l t n n ma
第3 8卷 第 4期
属性约简方法概述
属性约简方法概述属性约简又称维规约或特征选择,从数学的角度考虑,就是有p维数据x=(x1,x2……xp),通过某种方法,得到新的数据x’=(x’1,x’2……x’k),k≤p,新的数据在某种评判标准下,最大限度地保留原始数据的特征。
属性约简主要是为了解决高维数据计算的复杂性和准确性问题。
目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。
数据属性约简的意义主要从以下几个方面考虑:a)从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的;b)对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间;c)如果不进行属性约简,噪声或无关属性对分类的影响将与预期属性相同,这将对最终结果产生负面影响;d)当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。
为了描述属性约简方法,这里假设数据集合为d,d={x1,x2….xn},xi表示d中第i个实例,1≤i≤n,n为总的实例个数。
每个实例包含p个属性{|xi|=p}。
从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。
下面是几种常用的方法。
(1)主成分分析主成分概念是karlparson于1901年最先引进。
1933年,hotelling把它推广到随机变量。
主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。
通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。
主成分分析的基本思想是通过正交变换将具有成分相关性的原始随机变量转换为具有成分不相关性的新变量。
从代数的角度,将原始变量的协方差矩阵变换为对角矩阵;从几何角度来看,将原始变量系统转换为一个新的正交系统,指向样本点分布最广的正交方向,然后降低多维变量系统的维数[43]。
定义4-1[44]:设x?(x1,x2,...,xp)'为p维随机向量,它的第i主成分分量可表示yi?ui'x,i=1,2,…,p。
粗糙集理论中的属性约简方法介绍
粗糙集理论中的属性约简方法介绍粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、机器学习和模式识别等领域得到了广泛应用。
属性约简是粗糙集理论中的一个重要概念,它能够帮助我们从大量的属性中找到最为重要的属性,减少数据处理的复杂性。
本文将介绍粗糙集理论中的一些常用属性约简方法。
1. 正域约简方法正域约简方法是粗糙集理论中最为常用的一种属性约简方法。
其基本思想是通过比较不同属性对决策类别的区分能力,来确定最为重要的属性。
具体步骤如下:首先,计算每个属性与决策类别之间的依赖度,依赖度越大表示属性对决策类别的区分能力越强。
然后,根据依赖度的大小进行排序,选择依赖度最大的属性作为初始约简。
接下来,逐步添加其他属性,并计算约简后的属性集对决策类别的依赖度。
如果添加属性后的依赖度没有显著提高,则停止添加,得到最终的约简属性集。
2. 相关属性约简方法相关属性约简方法是一种基于属性之间相关性的约简方法。
它通过计算属性之间的相关系数或互信息量来评估属性之间的相关性,并选择相关性较低的属性进行约简。
具体步骤如下:首先,计算属性之间的相关系数或互信息量。
然后,根据相关系数或互信息量的大小进行排序,选择相关性较低的属性作为初始约简。
接下来,逐步添加其他属性,并计算约简后的属性集的相关系数或互信息量。
如果添加属性后的相关性没有显著提高,则停止添加,得到最终的约简属性集。
3. 基于粒计算的约简方法基于粒计算的约简方法是一种基于粒度理论的属性约简方法。
它通过将属性集划分为不同的粒度,来减少属性的数量。
具体步骤如下:首先,将属性集划分为不同的粒度。
每个粒度包含一组相关性较高的属性。
然后,选择每个粒度中最为重要的属性作为初始约简。
接下来,逐步添加其他粒度,并计算约简后的属性集的重要性。
如果添加粒度后的重要性没有显著提高,则停止添加,得到最终的约简属性集。
4. 基于遗传算法的约简方法基于遗传算法的约简方法是一种基于进化计算的属性约简方法。
属性约简实例
2)计算同时减少{a2,a3}的等价关系和正域
说明{a2,a3}同时是不可省略的。不可同时省略。
3)在{a2,a3}中只能删除一个属性
即存在两个约简:
从实例计算可以看出,信息表的属性约简是在保持条件属性相对决策属性的分类能力不变的条件下,删除不必要的或不重要的属性。一般来讲,条件属性对于决策属性的相对约简不是唯一的,即可能存在多个相对约简。
属性约简实例
气候信息表是4个条件属性(天气a1,温度a2,湿度a3,风a4)和1个决策属性(类别d),见表8.1。
NO.
属性
类别
天气
气温
湿度
风
1
晴
热
高
无风
N
2
晴
热
高
有风
N
3
多云
热
高
无风
P
4
雨
适中
高
无风
P
5
雨
冷
正常
无风
P
6
雨
冷
正常
有风
N
7
多云冷正常有风P8晴
适中
高
无风
N
9
晴
冷
正常
无风
P
10
雨
适中
正常
无风
用图说明正域、负域和边界,每一个小长方形表示一个等价类。
P
11
晴
适中
正常
有风
P
12
多云
适中
高
有风
P
13
多云
热
正常
无风
P
14
雨
适中
高
有风
N
令
1)计算缺少一个属性的等价关系
属性约简方法概述
属性约简方法概述 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT属性约简方法概述属性约简又称维规约或特征选择,从数学的角度考虑,就是有p 维数据 x =(x 1,x 2……x p ),通过某种方法,得到新的数据 x’=(x’1,x’2…… x’k ) , k ≤p , 新的数据在某种评判标准下,最大限度地保留原始数据的特征。
属性约简主要是为了解决高维数据计算的复杂性和准确性问题。
目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。
对数据进行属性约简的意义,主要从以下几个方面考虑:a) 从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的;b) 对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间;c) 假如不进行属性约简,噪音或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响;d) 当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。
为了描述属性约简方法,这里假设数据集合为D ,D ={x 1,x 2….x n }, x i 表示D 中第i 个实例,1≤i≤n ,n 为总的实例个数。
每个实例包含p 个属性{|x i |=p }。
从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。
下面是几种常用的方法。
(1) PCA 主成分分析主成分概念是Karl parson 于1901年最先引进。
1933年,Hotelling 把它推广到随机变量。
主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。
通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。
主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。
从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。
第四章 属性值约简(决策规则约简)
第四章属性值约简(决策规则约简)§1 属性值约简属性约简分两类,一类是信息表约简,一类是决策表约简。
信息系统S={U,A}的约简,是对整个属性集A进行约简,要求利用最少属性的属性集能提供与原属性集A同样多的信息,在此若是冗余属性,则是将a 去掉后则A-{a}与A具有同样的分类能力,即有下面相同的等价类族:若是独立的,即中任意去掉一个属性,都将改变其分类能力,则就是A的一个约简。
A的约简是A中独立的子集P并且P与A具有同样的分类能力,而中的属性对P来说都是冗余属性。
信息表的特点是属性集不再划分为条件属性集和决策属性集。
对于决策表来说,约简的情况不同,它不是针对整个属性集A进行的,约简的只是条件属性集。
决策表的约简分两部分:第一步:属性集约简若果,满足P是关于决策属性集D独立的,并且,则P是C的D约简。
C中的所有D约简的交称为C的核,记作。
第二步:属性值约简设是一致性决策表,是C的D约简。
值约简是针对相对约简而言的,或说属性值约简是对决策表上每一条决策规则来说的。
关于决策规则中属性值约简,下面例题提供了属性值约简的理论依据。
决策表上一条决策规则的条件属性值可以被约去,当且仅当约去该属性值后,仍然保持该条规则的一致性,即不出现与该条规则不一致的规则。
约简算法的步骤为:1 约简属性集;2 约简决策规则,即属性值约简;3 从算法中消去所有过剩决策规则。
关于决策表的属性约简和决策规则的属性值约简,看下面例子。
例1 简化给定决策表,其中为条件属性集,为决策属性集第一步:约简属性集:从决策表中,将属性A中的属性逐个移去,每移去一个属性立刻检查其决策表,如果决策表中的所有决策规则不出现新的不一致,则该属性是可以被约去的,否则,该属性不能被约去,称这种方法为属性约简的数据分析法。
解法1:从条件属性集中移去c列后,决策表不出现新的不一致,所以c列可约去;从中移去a或移去b,或移去d后,决策表中都出现新的不一致,故a,b,d都不能移去,即a,b,d都是C的D核属性。
属性序下的快速约简算法
中 图法 分 类 号
Quc d cinAlo i m ae nAt i ueO d r ik Re u t g rt B sd o t b t r e o h r
H U ng W AN G uo Y i Fe G — n
( n t u e f C mp trS in ea d Teh oo y, h n q n ie s y o o t a d T lc mmu i to s C o g i g 4 0 6 ) I si t o o ue ce c n c n lg C o g i gUn v ri f P ss n eeo t t nc in , h n qn 0 0 5 a ( c o l f I f r t n S in ea d T c n lg S uh s J a tn n v ri S h o n o ma i ce c n eh oo y, o t wet ioo g U ie s y,C e g u 6 0 3 ) o o t h n d 1 0 1
胡 峰 王国胤
重庆 成都 406) 0 0 5 603) 1 0 1 ( 庆 邮 电大 学 计 算 机 科 学 与技 术 研 究 所 重 ( 南交 通 大 学 信 息 科 学 与技 术 学 院 西
摘 要 将 分 治 法 的 思 想溶 人 R u h集 算 法 中 , og 在给 定 属 性 序 下 , 出 了基 于 分 治 策 略 的 属性 约简 算 法 . 用 该 算 提 利 法 可 以计 算 给 定 属 性 序 下 的 唯一 约简 , 能 快 速 得 到 海 量 数 据 的 属 性 约 简 . 一 次 性 将 决 策 表 的 所 有 数 据 调 入 计 并 在 算 机 内存 的 情 况 下 , 法 的 平 均 时 间 复 杂 度 为 O(u l I × (CI o j 1)空 间复 杂 度 为 O(ul l ) 仿 真 算 I × cI j +lgU ) , 1 + . c1 实验 结 果 说 明 了算 法 的 高 效 性 . 关键 词 粗 集 ; 治 ; 性 约 简 ; 性 序 分 属 属
属性约简
粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。
信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。
信息系统实现了粗糙集模型的知识表示。
定义 2.1.1[46] 设(,,,)S U A V f =为一个数据库,即信息系统,也称为知识表示系统。
其中12{,}U U x x x = 为一个非空的有限对象集,12{,,}A A a a a = 是属性的有限非空集合,a V V =⋃,a A ∈,a V 为属性a 的值域;定义信息函数:U V c a f A ⨯→ .例如表2.1.1是一个信息系统,其中12345{,,,,}U x x x x x =,1234{,,,}A a a a a =,123a a a V V V ==={0,1},4a V ={0,1,2}.表2.1.1 信息系统定义2.1.2[46] 对于a A ∀∈,x U ∀∈,(,)a f x a V ∈,对于P A ∀∅≠⊆,定义:{(,):(,)(,),}I x y U U f x q f y q q P =∈⨯=∀∈,I U 称为上的不可分辨关系。
(1)若(,)x y I ∈,则称:x y 和是不可分辨的。
(2)不可分辨关系是等价关系,具有:自反性:xIx ; 对称性:xIy yIx ⇒;传递性:,xIy yIz xIz ⇒ .(3) I 是U 上的一个等价关系,[]{,}I x y y U xIy =∈,12{[]}{,}I k U I x x U X X X =∈= ,12,k X X X 称为U 关于I 的一个划分。
(4)P I ∅≠⊆,1,2I I I ∈, 112{,}k U I X X X = ,212{,}l U I Y Y Y = ,12{,1,2,1,2}i j U I I X Y i k j l ⋂=⋂== ,()I Pind P I P ∈== ,则称:()ind P U 是上的一个等价关系,称为P 上的不可区分关系。
基于概念格的信息系统的属性约简
04
基于概念格的属性约简在 信息系统中的应用
信息系统数据预处理
01
02
03
清洗数据
去除重复、错误或不完整 的数据,确保数据质量。
标准化数据
将数据的格式和单位统一 ,便于后续处理。
特征提取
从数据中提取与目标概念 相关的特征,去除无关特 征。
构建概念格并约简属性
构建概念格
根据提取的特征,使用概念格理论构建 概念格,用于表示数据间的关系。
理论研究的深入
目前对于基于概念格的信息系统属性约简算法的理论研究还不够深 入,未来可以进一步深入研究该算法的理论基础和原理。
THANKS
感谢观看
02
概念格理论基础
概念格的基本概念
概念格
是一种用于表示信息系统中的概念和它们之间关 系的数据结构。
概念
是由一组对象组成的集合,这些对象具有相同的 特征。
属性
是用来描述对象特征的符号或数值。
概念格的构建方法
形式背景
是一个三元组(O, A, I),其中O是对象集合,A是属性集合 ,I是O和A之间的关系集合。
性的节点、删除只与一个节点相连的边等。
使用已知的属性集Red对优化后的概念格L'进行属性约简,得到
03
约简后的属性集。
算法性能评估
时间复杂度
评估算法执行时间,分析其在不同规模数据集上的性能表现。
空间复杂度
评估算法所需内存空间,分析其在不同规模数据集上的空间占用情 况。
正确性
评估算法的正确性,通过对比其他算法或专家评价进行验证。
02
提高系统性能的优化建议和策 略
03
基于概念格的属性约简算法的 未来研究方向和趋势
属性约简
粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。
信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。
信息系统实现了粗糙集模型的知识表示。
定义 2.1.1[46] 设(,,,)S U A V f =为一个数据库,即信息系统,也称为知识表示系统。
其中12{,}U U x x x = 为一个非空的有限对象集,12{,,}A A a a a = 是属性的有限非空集合,a V V =⋃,a A ∈,a V 为属性a 的值域;定义信息函数:U V c a f A ⨯→ .例如表2.1.1是一个信息系统,其中12345{,,,,}U x x x x x =,1234{,,,}A a a a a =,123a a a V V V ==={0,1},4a V ={0,1,2}.表2.1.1 信息系统定义2.1.2[46] 对于a A ∀∈,x U ∀∈,(,)a f x a V ∈,对于P A ∀∅≠⊆,定义:{(,):(,)(,),}I x y U U f x q f y q q P =∈⨯=∀∈,I U 称为上的不可分辨关系。
(1)若(,)x y I ∈,则称:x y 和是不可分辨的。
(2)不可分辨关系是等价关系,具有:自反性:xIx ; 对称性:xIy yIx ⇒;传递性:,xIy yIz xIz ⇒ .(3) I 是U 上的一个等价关系,[]{,}I x y y U xIy =∈,12{[]}{,}I k U I x x U X X X =∈= ,12,k X X X 称为U 关于I 的一个划分。
(4)P I ∅≠⊆,1,2I I I ∈, 112{,}k U I X X X = ,212{,}l U I Y Y Y = ,12{,1,2,1,2}i j U I I X Y i k j l ⋂=⋂== ,()I Pind P I P ∈== ,则称:()ind P U 是上的一个等价关系,称为P 上的不可区分关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
粗糙集的几种属性约简算法分析
分类:默认栏目
2006.6.16 10:32 作者:万富| 评论:0 | 阅读:1628
陈淑珍,基于粗集的几种属性约简算法分析,武汉工业学院学报,Vol.2 4No.3,Sep .20 05
1.1 利用差别矩阵求最小约简
差别矩阵(Discernibility Matrix)是由波兰华沙大学的著名数学家Skowron[21 提出来的,利用这个工具,可以将存在于复杂的信息系统中的全部不可区分关系表达出来。
利用差别矩阵求取最小约简的一个前提是:在数据表的预处理阶段要先对不相容的记录进行处理,即差别矩阵不处理不相容记录。
预处理的方法如将冲突的记录数除以记录总数,得到一个粗糙度的量度,该量度可以作为数据表的一个特征。
通过差别矩阵可以很方便地求取核属性,以核属性为出发点,再求取差别函数的最小析取范式,则求析取范式的运算就可以得到很大的简化。
而最后得到的每个析取分量对应着一个约简。
因此,一定可以得到最小约简。
但该算法的缺陷十分明显:首先,当论域的对象与属性的规模较大时,差别矩阵将占有大量的存储空间口(n的二次方);其次,差别函数的化简本身就是一个NP一hard问题,因此只要数据集稍大一点,就不具备可操作性。
1.2 基于属性依赖度约简算法
求取所有约简是一个NP一hard问题,因此运用启发信息来简化计算以找出最优或次优约简显然是一种可取的方法。
许多启发式约简算法的基本步骤都是:由信息系统或决策表的核为起始点,然后根据属性重要性的某种测度,依次选择最重要的属性加人核中,直到满足终止条件。
便得到信息系统或决策表的一个约简(更确切的说,是包含约简的一个属性集)。
一个信息系统中的所有属性对于决策来说并不是同等重要的,在粗集理论中,属性重要性可通过相依度来体现。
决策属性D对于属性R(R属于C)的相依度y(R,D)定义为[3]:显然有,O <,y(R,D), l,y(R,D)给出了决策D对属性R之间相依性的一种测度。
它反映了属性R对于决策D的重要程度。
在已知条件R的前提下,一个属性R对于决策D的重要度SGF(a,R,D)可以定义为如下的差值:SGF = (a ,R,D)=y(R+{a},D)一y(R,D),SG F= ( a,R,D)反映了把属性a加到R后,R
与D之间相依度的增长程度。
事实上,属性对于R与之间相依性的影响越强,则SGF= (a,R,D)的值就越大。
1.3 基于条件信息嫡约简算法
基于属性依赖度的启发式约简方法在实际应用中遇到的一个重大困难是属性间不确定关系的表达。
粗糙集约简表达的是属性间的确定性关系,正区域之外等价类族表达的属性间关系并不被粗糙集认可,因此除要求属性满足确定性关系外,挑选有强烈概率因果关系的属性集具有十分意义。
为了描述概率因果关系,人们在处理这类数据时,在约简算法中引人信息嫡来度量属性重要度。
事实上基于信息嫡与基于属性依赖度的启发式算法也是不完备的。
应当指出的是以上所分析的两种算法都只是搜索次优解的算法,采用属性重要性方法的约简算法并不能保证一定能够找到信息系统的最优解。
出现这种情况的原因在于属性的“组合爆炸”。
在信息系统中各个属性并不是孤立存在的,而是存在着互相之间的联系和影响。
某些属性虽然它们的单个重要性都很小,但是当这些属性组合在一起时,却能对整个信息系统的正确分类产生很大的作用,而这一点有时仅仅凭借单个属性的重要性评价方法是很难发现的,因为那些重要性很小的属性很难被约简算法所选择。
尽管采用每次属性扩张后都动态调整各属性重要性的办法能够在一定程度上克服这一问题,但还是无法从根本上解决问题。
利用启发式算法的确能够提高约简的求解速度,而且在解空间不复杂的情况下有可能得到最优解或次优解,但在解空间较复杂或属性间关系较为复杂的情况下,用这些方法找到的解极有可能陷人局部最优解,这种算法并非对所有的知识表达系统都适用。
1.4 基于遗传算法的属性约简
遗传遗传算法是一种自适应随机搜索方法,其搜索方式不是由单一的方向或结构,它将多个个体作为可能的解并考虑搜索空间全局范围内的抽样,从而导致以更大的可能性收敛到全局最优解,因此,人们把遗传算法引人粗集属性约简。
算法通过用计算机模拟生物进化过程,使群体不断优化,并在变化过程中找出最优解。
在遗传算法中,适应度函数的设计是整个GA 算法的核心步骤,由于几个遗传算子都依赖于染色体的适应度值,因此适应度函数的设计目标,在很大程度上决定着迭代收敛的方向。
而粗糙集的属性约简主要是为了求得最小的约简属性集。
这样,在保证属性集满足一定精度的情况下,使其属性个数最小,即最终所
需的结果是满足分类要求的最简属性集合。
所以适应函数设计的最终目的应包含了以下两个目标函数:①必须满足分类质量,通常要求必须是约简。
②这个约简所包含的属性个数要尽量少。
文献〔7〕所规定的适应度函数为m 一L Cscore( r) =se一一-r+子入
其中,。
为染色体的长度,Lr为染色体中1的个数,Cr为染色体所代表的属性约简与差别矩阵中的元素进行合取之后不为0的元素个数(若为某一项为0,表示该属性集不能区分该项所对应的两个对),K=nx ( n一1)/2 ,即差别矩阵的子项数。
该适应度函数体现了染色体追求两个目标的趋向,用染色体覆盖差别矩阵中元素的个数作为该染体相对于决策属性的分类能力的大小,再通过约简中包含属性的个数来控制染色体的长度。
但完成 c r运算的代价太高,要遍历整个差别矩阵,因此时间复杂度为0(mxn2),同时该算法要求保留差别矩阵,故空间开销为O(n2)。
文献【8] 所规定的适应度函数:m 一Lsco re ( r ) =一一一r+kPopsizex m x n x lo gen) 。
在迭代次数Gen和种群大小Popsize 已定的前提下,算法的运算时间是和论域大小n成近似线性的倍数增长,而不是平方数增长。
我们选择了UCI数据库中的部分测试数据,采用二进制编码方式得到了如表3的结果(这里迭代次数Gen=50,Popsize二30,交叉率p。
为0. 7,变异率pm为。
.05)。
通过对算法复杂度的分析和实验结果,可以证实随着论域个数的增大,运算时间是呈近似线性倍数增长。
但是由于遗传算法是一种自适应的随机搜索算法,其性能分析一直是该领域的研究重点。
相对于其鲜明的生物基础,其数学基础还不够完善,如缺乏完整的遗传算法收敛性理论,Holand的模式定理尚不能清楚地解释遗传算法的早熟现象和欺骗问题,遗传算法的搜索效率及其时间复杂性等。
因此基于遗传算法的粗糙集属性约简算法还有待于遗传算法自身理论的不断完善。
其中,R 为染色体所对应的属性集,D为决策属,k=袱R,D)即属性集R的依赖度。
该函数将属性依赖度引人适应度函数,而属性依赖度表明决策属性对染色体所对应属性集的依赖性,反映着属性的分类能力。
同时,该函数通过了Lr来控制染色体的长度,同样体现着两大准则。
我们知道,利用堆排序后的数据,可以使等价类运算的时间复杂度由。
(mxn2)降为。
(m x n x1092n) ,故求y(R,D)的时间复杂度就为0(mxnx1092n) 。
因此,相对于上面的方法,从计算时间上看,该算法有一定的优势,可行性更高。
设迭代次数为Gen,种群大小为Popsize,信息系统S=(U,A),则我们看遗传算子的运算时间,三个遗传算子都是基于概率思想的运算。
在染色体适应度值已求出来的情况下,它们的运算时间只和种群的大小Popsize,E( 及染色体的基因位数IAI= m相关,在最坏的情况下为。
(Posize x m十。
,),因此,这个算法效率的关键是适应度函数的求取。
而初始适应度函数的关键就是求取条件属性相对于决策属性的依赖度,其时间复杂度为0(mxnxlo gen) ,其中IAI = m,IUI= no 所以,整个GA算法的时间复杂度为0( Genx2 结论属性约简的目标就是求得最优约简,但找出一
个信息系统的最小约简是NP一hard问题。
对启发式算法的改进只是对属性重要度的评定准则的修改,并不能改变贪心算法易落人局部最优的趋向;而基于遗传算法的属性约简虽然做到了并行搜索,同时缩小了搜索空间,但其收敛方向的控制还是个棘手的问题,同时,该算法也并不能保证搜索方向不落人局部最优。
因此寻求快速的约简算法仍然是今后
的主要研究目标。