基于粒计算的信息系统规则提取方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于粒计算的信息系统规则提取方法
陈志恩;马旭
【摘要】根据关系的粒矩阵表示和矩阵运算简便直观的特点,计算条件属性集的粒关系包含度矩阵,并在该矩阵中获得满足给定阈值的决策规则集合;在保持该集合中
元素个数不变的前提下对决策信息系统进行属性约简,并在约简的属性集上提取具
有更高泛化能力的决策规则.理论证明和实例分析检验了该方法的可行性和有效性.【期刊名称】《西北师范大学学报(自然科学版)》
【年(卷),期】2018(054)004
【总页数】5页(P11-15)
【关键词】粒计算;粒关系矩阵;属性约简;规则提取
【作者】陈志恩;马旭
【作者单位】宁夏师范学院数学与计算机科学系,宁夏固原756000;宁夏师范学院
数学与计算机科学系,宁夏固原756000
【正文语种】中文
【中图分类】TP273
0 引言
数据挖掘技术始于20世纪80年代,是数据库技术的进一步扩展,它是从大型数
据库或数据仓库中储存的大量、不完整、有噪声的数据中发现潜在有用的、新颖的、最终能被用户理解的知识过程.目前,数据挖掘已经成为智能信息处理研究领域的
热点,并应用于许多科学与工程领域[1].然而,从复杂数据中获取的知识在很大程
度上都是以规则的形式给出,因而,规则获取方法的研究成为数据挖掘领域的重要课题之一.
在决策信息系统规则提取过程中,用粗糙集理论[2]挖掘规则的关键在于属性约简,即去掉决策表中相对于决策属性而言的冗余条件属性和属性值.从粒计算的角度来看,属性约简的目的就是在条件属性集中寻找一个属性子集,该子集对论域形成的划分空间是在保持某种属性重要度不变的前提下粒度最粗的划分空间.不管哪种属
性约简方法,其实质就是删除冗余属性.典型的约简算法有:基于布尔推理的最小
决策算法[3]、基于正区域和基于区分矩阵的属性约简算法[4-5]、利用信息熵作为启发式信息来获取最小约简或相对约简[6]等.本文借助关系的粒矩阵表示和矩阵运
算简便直观的特点,首先在粒关系包含度矩阵中获得给定阈值的初始决策规则集,然后以该决策规则集合中所包含的元素个数作为启发式信息对决策信息系统进行属性约简,最后在约简的属性集上提取适应性和应用价值较高的决策规则.与传统的
决策规则提取算法相比较,该算法通过构造合理的属性重要度函数进行属性约简,在一定程度上降低了算法的复杂度,提高了算法的效率.
1 基本概念
一般地,信息系统可以用一个四元组S=(U,A,V,f)来表示,其中U={x1,x2,…,xl}是非空有限对象集,称为论域;A={a1,a2,…,an}是属性集;是属性值的集合,Va是属性a的值域集;f:U×AV是信息函数,它指定U中每个对象x的属性值.
若A=C∪D且C∩D=∅,D≠∅,则称该信息系统为决策信息系统,有时也称为决策表,其中:C是条件属性集,D是决策属性集,决策信息系统中的每一行代表一条
决策规则.
对任意条件属性C′⊆C,定义一个U上的不可分辨关系:
其中IND(C′)是U上的等价关系,所有等价类的集合记为U/IND(C′).
定义1[7] 设S=(U,A,V,f)是一决策信息系统,若条件属性C′(C′⊂C)和决策属性D 对论域U的划分为:
则称等价类Xi,Xj为信息粒.分别用一个长度为l的二进制向量表示,即有
定义1将原始以个体为单位的决策信息系统转换为以信息粒(等价类)为单位的决策信息系统,系统的知识粒度变粗.
定义2[8] 对U的任意两个划分X,Y⊆2U,X={X1,…,Xi,…,Xm},Y={Y1,…,Yj,…,Ys},若令则D(X/Y)为U上的包含度,其中|·|表示集合的基数.
定义3[6] 定义粒矩阵MGr={Xm×l,Ys×l},其中
称矩阵X为条件粒矩阵(条件信息粒),称矩阵Y为决策粒矩阵(决策信息粒).
定义4[9] 设S=(U,C∪D,V,f)为一决策信息系统,矩阵X,Y分别为S的条件粒矩阵与决策粒矩阵,记
则MC称为矩阵X与Y的粒关系包含度矩阵.
注1:公式(7)中,元素
dij的大小反映了条件信息粒Xi包含于决策信息粒Yj的程度.不难验证dij满足:若dij=1,则表明条件信息粒Xi完全包含于决策信息粒Yj,YT表示决策粒矩阵Y 的转置.
2 基于粒计算的属性约简
在决策信息系统的属性约简过程中,研究者常常定义属性的一个重要度函数,并依
此函数作为启发式信息,首先计算核属性,然后在核属性基础上逐渐添加必要属性,直到得到相对约简结果为止.本文在定义4的基础上,通过挖掘粒关系包含度矩阵中隐含的信息作为启发式算子,给出了一种决策信息系统的属性约简方法.
根据定义4,对给定的阈值α,令集合
则表示信息系统S中条件信息粒(条件属性集C下的条件信息粒)对决策粒的包含度不小于阈值α的元素(Xi,Yj)的集合.
定义5 在决策信息系统S=(U,C∪D,V,f)中,P⊆C,对任意r∈P,若则称r为P中相对于D可省略的(不必要的);否则,称r为P中相对于D不可省略的(必要的),简称r为必要属性.P中所有必要属性所组成的集合称为P相对于D的核,记为CORE(P).
定义5中,为集合中元素(Xi,Yj)的个数.显然,的大小反映了条件属性P对论域U 形成的划分空间相对于决策属性D的近似程度,越大,近似程度越大,反之,近似程度越小.
性质1 在一个决策信息系统S=(U,C∪D,V,f)中,如果P⊆C,则对给定阈值的大小唯一确定.
证明对给定的条件属性子集P(P⊆C),相应粒矩阵X与Y的粒包含度矩阵MP唯一确定,从而取阈值α(0<α≤1),则在MP中满足dij≥α的元素
(Xi,Yj)(j=1,2,…,m,j=1,2,…,l)也唯一确定,于是根据公式(8),集合中元素的个数,即的大小唯一确定. 】
定义6[9] 在一个决策信息系统S=(U,C∪D,V,f)中,如果P⊆C,若P中的每一个r 都是P中相对于决策属性D不可省略的,则称P相对于决策属性D是独立的,简称P是独立的.
定义7[9] 给定决策信息系统S=(U,A,V,f),对任意B⊆C,若B满足下列条件:
( i )POSB(D)=POSC(D);
( ii )B相对于D是独立的.
则称B是该决策信息系统的一个相对约简.
定理1 在一个决策信息系统S=(U,C∪D,V,f)中,如果P⊆C,且P的独立子集
B(B⊂P)有则B为P的相对约简.
证明因为即所以有POSB(D)=POSP(D)成立.又因为P是B的独立子集,从而B
为P的相对约简. 】
3 基于粒计算的决策信息系统规则提取
属性约简和规则提取是知识获取的两个主要阶段,不同的研究者从不同的角度得到约简的决策规则,在文中第2节属性约简的基础上,给出一种决策信息系统的规
则提取方法.
定理2 设S=(U,C∪D,V,f)为一决策信息系统,如果P⊆C,且P是决策属性P的相对约简,则为决策信息系统S中阈值不小于α的决策规则集,其中中的元素(Xi,Yj)
表示从条件粒Xi到决策粒Yj的一条α决策规则.
证明分两种情况:
( i )当α=1时,根据公式(8)先计算既有对任意成立.因为aik,bkj要么取1要么取0,所以有aik=1且bkj=1,或者aik=0,bkj取1或0,显然这两种情况都满足
Xi⊆Yj,也即元素(Xi,Yj)描述了从条件粒Xi到决策粒Yj的一条决策规则,从而集合
为信息系统S的决策规则集.
( ii )当0.5≤α≤1时,由上述(i)的证明知,集合中,条件粒Xi以不小于阈值α的包含度包含于决策粒Yj中,从而集合中的元素(Xi,Yj)描述了从条件粒Xi到决策粒Yj 的一条阈值不小于α的决策规则. 】
下面举例说明定理2的规则提取方法.
例1 设决策信息系统S=(U,C∪D,V,f)如表1所示,其中{c1,c2,c2}为条件属性,{d}
为决策属性.
表1 决策信息系统Tab 1 Decision information
systemUc1c2c3dx11001x21001x30000x41100x51102x61102x72222
由表1计算得到决策属性{d}的粒矩阵为
条件属性P={c1,c2,c3}的粒矩阵X为
条件属性P1={c2,c3}的粒矩阵XP1为
条件属性P2={c1,c3}的粒矩阵XP2为
条件属性P3={c1,c2}的粒矩阵XP3为
由公式(7)计算可得粒矩阵X与Y的粒关系包含度矩阵为
同理,粒矩阵XP1,XP2,XP3分别与Y的粒关系包含度矩阵为
根据定理2,当取α=1时计算决策规则集为且的决策规则数为而的决策规则数分别
根据定义5知CORE(P)={c1,c2},令B={c1,c2},且有由定理1知属性集B为该决策信息系统S的一个约简.再根据定理2可得该决策信息系统S的约简决策规则为
同理,当取0.5≤α≤1时,计算得决策规则集为:且的决策规则数为而的决策规则
数分别根据定义5知CORE(P)={c1,c2},令B={c1,c2},且有则由定理1知,属性集B为该决策信息系统S的一个约简.但与决策规则集比较可知,元素(X3,Y3)进入决策规则集即在决策规则集基础上增加了决策规则(X3,Y3):c1=1∧c2=1→d=2(外延:x5,x6).
例1表明,在决策信息系统中,随着阈值α的减小,决策规则个数会逐渐增多,同时决策规则覆盖的范围会扩大;另外,借助粒矩阵这一代数运算能够有效降低决策规则提取的复杂度,提高算法的效率.
4 算法描述
下面给出基于上述粒计算的决策信息系统规则获取算法描述.
1)求核算法
输入:决策信息系统S=(U,C∪D,V,f),C为条件属性,D为决策属性.
输出:属性集C的核CORE(C).
第1步.设CORE(C)=∅;
第2步.生成条件属性集C(C={c1,c2,…,cn})的条件粒矩阵X和决策属性D的决策粒矩阵Y,并计算X与Y的粒关系包含度矩阵MC;对于给定的阈α(0<α≤1),在粒关系包含度矩阵MC中提取并计算
第3步.对任意Pi⊂C(Pi=C-{ci},i=1,2,…,n),分别计算属性集Pi的粒矩阵XPi及XPi与决策粒矩阵Y的粒关系包含度矩阵MPi;对于给定的阈值α,在MPi中提取集合并计算
第4步.比较并获得⊂C},输出CORE(C),算法结束.
2)属性约简算法
输入:决策信息系统S=(U,C∪D,V,f).
输出:属性集C的约简RED(C).
第1步.依照求核算法求出决策信息系统S的核CORE(C);
第2步.令B=CORE(C),并计算如果转入第5步,否则转入第3步.
第3步.对任意ci∈C/B,令B=B∪{ci}计算及
第4步.如果则转入第5步,否则转入第3步;
第5步.输出B∈RED(C),算法结束.
3)规则提取算法
输入:决策信息系统S=(U,C∪D,V,f).
输出:决策信息系统S的决策规则.
第1步.依照属性约简算法求出属性集C的相对约简B=RED(C);
第2步.根据约简后的决策规则集合输出相应的决策规则,算法结束.
该算法的复杂度主要在求核算法和属性约简算法,求核算法中信息粒的粒化过程的算法复杂度为O(n),属性约简算法中计算粒关系包含度矩阵的算法复杂度均为
O(n2).因此,整个规则提取过程的算法复杂度为O(n2).
5 结束语
运用关系粒矩阵的代数运算,在粒关系包含度矩阵中挖掘隐含的信息作为启发式算子对决策信息系统进行属性约简,然后在约简属性集的基础上提取相应的决策规则.与传统的决策规则提取算法相比,该算法借助粒矩阵计算这一代数工具,通过构造合理的属性重要度函数进行属性约简,在一定程度上降低了算法计算的复杂度,提高了算法的效率.另外,该算法容易在计算机上实现,这为借助矩阵工具研究信息系统规则提取提供了一种新的思路.
参考文献:
【相关文献】
[1] 苗夺谦,王国胤,刘清,等.粒计算:过去、现在与展望[M].北京:科学出版社,2007.
[2] 苗夺谦,张红云,李道国,等.基于主曲线的脱机手写数字识别[J].电子学报,2005,33(9):1639.
[3] PAWLAK Z.Rough Sets:Theoretical Aspects of Reasoning About
Data[M].Dordrecht:Kluwer Academic Publishers,1991:71.
[4] 刘少辉,盛秋戬,吴斌,等.Rough 集高效算法的研究[J].计算机学报,2003,26(5):524.
[5] 常犁云,王国胤,吴渝.一种基于Rough Set 理论的属性约简及规则提取方法[J].软件学
报,1999,10(11):1206.
[6] 苗夺谦,胡桂荣.知识约简的一种启发式算法[J].计算机研究与发展,1999,36(6):681.
[7] 陈泽华,张裕,谢刚.基于粒计算的最简决策规则挖掘算法[J].控制与决策,2015,30(1):143.
[8] 苗夺谦,李道国.粗糙集理论算法与应用[M].北京:清华大学出版社,2008.
[9] 陈志恩.基于粒包含度矩阵的属性约简[J].西北师范大学学报(自然科学版),2017,53(5):24.。