第八章 决策表值约简
决策表

0
0
━
1
0
━
━
0
P
P
P
练习
根据输入3条边(a,b,c)边长的值来判 断是否构成一个构成一个三角形,如果 是三角形,继续判断是一般三角形、等 腰三角形还是等边三角形。假定a、b、c 只能输入大于零的数,不考虑a、b、c为 负数和取零的情况。
试构造其决策表
NextDate函数的决策表测试用例设计
根据所执行的操作,可列出NextDate函数的动 作桩:
a1: 不可能; a2: day加1; a3: day复位; a4: month加1; a5: month复位; a6: year加1
考虑到决策表的规模,条件使用month、day、 year变量的等价类,在以下等价类集合上建立决策 表: 对于month变量的取值:
解法如下:
确定规则的个数。对于本题有2个条件(销售、库存),每 个条件可以有两个取值,故有22=4种规则。
列出所有的条件桩和动作桩。
填入条件项。
填入动作项,得到初始决策表
规则
选项
1
2
3
4
条件:
C1:销售好?
T
T
F
F
C2:库存低?
T
F
T
F
动作:
a1:增加生产
√
a2:继续生产
√
√
a3:停止生产
适用于使用决策表设计测试用例的条件
规格说明以决策表形式给出,或较容易转换为决 策表。
条件的排列顺序不会也不应影响执行的操作。 规则的排列顺序不会也不应影响执行的操作。
当某一规则的条件已经满足,并确定要执行的操 作后,不必检验别的规则。
基于粒计算的决策表属性约简与规则提取研究的开题报告

基于粒计算的决策表属性约简与规则提取研究的开题报告一、选题背景随着信息技术的快速发展,大数据时代已经来临,越来越多的数据被收集和存储。
人们需要从海量数据中提取有用的信息,数据挖掘成为研究的热点之一。
在数据挖掘中,决策表是一种常用的数据表示方式,它把数据表示为一个矩阵,其中每行表示一个数据实例,每列表示一个属性。
决策表的属性可能非常多,而有些属性可能并不对分类有影响,这些属性可以被称为冗余属性。
冗余属性不仅浪费计算资源,而且可能影响分类准确率。
因此,属性约简成为决策表挖掘中的重要问题。
传统的属性约简方法包括基于信息熵的算法、基于启发式算法的算法等,这些方法在减少决策表属性数量的同时并没有考虑属性之间可能存在的依存关系。
粒计算作为一种新兴的计算模型,提供了一个有效的方式来描述不确定和模糊信息,可以用来处理属性之间的依赖关系,进而提高约简质量。
同时,决策表的属性约简结果可以进一步转化为规则,帮助人们更好地理解数据。
在此基础上,本研究将探讨如何基于粒计算,进行决策表属性约简和规则提取。
二、研究内容与目标本研究计划采用粒计算方法,结合现有的属性约简算法,提出一种适用于决策表的属性约简方法,并将约简结果转化为规则。
具体内容如下:1. 综述现有的决策表属性约简算法,包括信息熵、启发式算法等,并分析存在的问题。
其在决策表属性约简中的应用。
3. 提出一种基于粒计算的决策表属性约简算法,包括属性粗糙化、属性划分和属性选择等步骤。
4. 将约简结果转化为规则,并给出规则提取算法,以便人们更好地理解数据。
5. 对所提出的方法进行算法复杂度分析和实验验证,比较本方法与现有方法的效果和优劣。
三、研究意义决策表属性约简是数据挖掘中的一个关键问题,能够大幅度降低决策表处理的复杂度,提高分类准确率。
与传统的属性约简方法相比,基于粒计算的方法更能反映属性之间的依赖关系,进而提高约简质量。
同时,将约简结果转化为规则,可以帮助人们更好地理解数据,进一步挖掘数据的价值。
一种非相容决策表的属性值与属性约简方法

Atrb t au n trb t e u t n meh d tiu e v le a d ati ue r d ci t o o
b s d o n o sse td c so a l s a e n i e n it n e iin tb e
D N h uh , I n 一 U N S — e , E G S a —o L ,G A uj WA a g Mi i N Fn
邓少波。 , 。 黎 敏 , 关素洁 万 , 芳
( .南 昌工程学 院 信 息工程 学院 ,南昌 3 0 9 2 1 30 9; .中国科 学院 计算技术研 究所 智能信 息处理 重点 实验 室,北 京 10 9 ;3 0 10 .中国科 学院 深圳 先进技 术研 究 院,广 东 深圳 5 8 5 ; .江 西师 范大 学 计算 机信 息工程 学 院, 10 5 4
( .Sho (  ̄r ainE gne n ,Y nh n stt o cal ) N nh n 3 09, hn ; .Kylbrt 厂neiet, ma 1 col h bm t nier g a cagI tu T h o g , acag3 0 9 C ia 2 e z ao 0Itl n , j o i n i ef e o  ̄o m lg — t nP oe i Isttf o p t gTcnl ) hns cdm Si cs Bin 0 10 hn 3 hnhnI tuefTcnl ) i rc s g,ntue Cm ui e o g ie Aa e ) o sn i n h o ,C e cne, eig10 9 ,C i e j a; .Seze n i ta eho g , st o c i Aa e >o S ec ,hnh G ag og5 8 5 C ia 4 oee C m ue / omai n i ei Jag i ord £ e i r w cdm , d ne S ez . nd n 10 5, hn ; .Clg o p t , r t nE gn r g, inx X ru r— l f r, f o e n r s
第七章决策表属性约简

第七章决策表属性约简第七章信息表属性约简基于Rough集理论的知识获取,主要是通过对原始决策表的约简,在保持决策表决策属性和条件属性之间的依赖关系不发⽣变化的前提下对决策表进⾏约简(简化),包括属性约简和值约简。
本章将对决策表的属性约简从代数集合观点和信息论的信息熵观点进⾏系统分析,并介绍⼏种有效的属性约简算法。
7.1决策表属性约简概述⼀个决策表就是⼀个决策信息系统,表中包含了⼤量领域样本(实例)的信息。
在第四章中,我们曾经对决策规则进⾏了讨论,决策表中的⼀个样本就代表⼀条基本决策规则,如果我们把所有这样的决策规则罗列出来,就可以得到⼀个决策规则集合,但是,这样的决策规则集合是没有什么⽤处的,因为其中的基本决策规则没有适应性,只是机械地记录了⼀个样本的情况,不能适应新的、其他的情况。
为了从决策表中抽取得到适应度⼤的规则,我们需要对决策表进⾏约简,使得经过约简处理的决策表中的⼀个记录就代表⼀类具有相同规律特性的样本,这样得到的决策规则就具有较⾼的适应性。
根据定义2.1-1,我们可以进⼀步讨论决策表中属性的必要性和相应的约简算法。
定义7.1-1 设U是⼀个论域,P是定义在U上的⼀个等价关系簇,R∈P。
如果IND(P-{R})=IND(P),则称关系R在P中是绝对不必要的(多余的);否则,称R在P中是绝对必要的。
绝对不必要的关系在知识库中是多余的,如果将它们从知识库中去掉,不会改变该知识库的分类能⼒。
相反,若知识库中去掉⼀个绝对必要的关系,则⼀定改变知识库的分类能⼒。
定义7.1-2 设U为⼀个论域,P为定义在U上的⼀个等价关系簇,R∈P。
如果每个关系R∈P在P中都是绝对必要的,则称关系簇P 是独⽴的;否则,称P是相互依赖的。
对于相互依赖的关系簇来说,其中包含有冗余关系,可以对其约简;⽽对于独⽴的关系簇,去掉其中任何⼀个关系都将破坏知识库的分类能⼒。
定义7.1-3 设U 为⼀个论域,P 为定义在U 上的⼀个等价关系簇,P 中所有绝对必要关系组成的集合,称为关系簇P 的绝对核,记作CORE(P)。
决策理论与方法教学作者罗党第八章粗糙集决策

决策理论与方法
( Decision Making Theory and Methods )
《决策理论与方法》编写组
《决策理论与方法》
第八章 粗糙集决策方法
第第 22页页
学习目的
《决策理论与方法》
▪ 了解知识、等价类、上近似、下近似、粗糙集、 属性约简和核的概念;
第第 1111页页
《决策理论与方法》
R(X ) x U [x]R X , R(X ) x U [x]R X
BN R ( X ) R( X ) R( X ),
NEGR ( X ) U R( X )
, 分别称为 X 的 R 边界域 、正域 和负域。
从上述定义,可得到 R 下近似和 R 上近似的性质:
POSCc3(D) POSC (D)
POSCc1,c2(D) x1, x4 POSC (D)
POSCc3,c2(D) POSC (D)
c1,c3 所以是条件属性集 C 的 D 约简。
第第 2266页页
《决策理论与方法》
确定性决策规则有: (c1,1) (c3 ,1) (d,0);
对于粗糙集可以近似地定义,我们使用粗糙集的
第第 1100页页
《决策理论与方法》
上近似和下近似来描述。 定义8.1.3 给定知识库 K, 对于每个子集 X U 和一个 等价关系 R, 定义两个子集:
R(X ) Y U / R Y X R(X ) Y U / R Y X
分别称它们为 X 的 R下近似和 R 上近似。 下近似和上近似也可以用下面的等式表达:
第第 44页页
8.1粗糙集理论的基本概念 《决策理论与方法》
基于决策强度的一种属性约简算法

基于决策强度的一种属性约简算法唐洪浪【摘要】属性约简是粗糙集理论研究的主要内容之一,目的在于获取优良的规则集合.利用数据挖掘中规则的支持度和置信度的概念,提出了决策表的决策强度的概念, 分析了在属性约简过程中,决策强度的变化趋势;然后给出一种基于决策强度的属性约简的启发式算法, 该算法的时间复杂度为O(|C|2| U|log|U|);最后用一个例子,说明算法的有效性.【期刊名称】《湛江师范学院学报》【年(卷),期】2007(028)006【总页数】5页(P65-69)【关键词】粗糙集;决策表;属性约简;决策强度;启发式算法【作者】唐洪浪【作者单位】湛江师范学院,数学与计算科学学院,广东,湛江,524048【正文语种】中文【中图分类】TB180 引言粗糙集(Rough Set)[1-2]理论是波兰数学家Z.Pawlak于1982年提出的一种处理模糊、不精确的分类问题的新型数学工具.其主要思想是,在保持信息系统分类能力不变的前提下,通过属性约简,导出问题的决策或分类规则.决策表属性约简的过程,就是从决策表的条件属性中去掉不必要的条件属性,从而分析所得约简中的条件属性对决策属性的决策规则.目前,许多学者从不同的角度提出了不同的约简算法,主要有(1)代数方法[1-3];(2)差别矩阵的方法[1-4];(3)信息论方法[5-9].用上述方法都可以求出决策表的一个约简或所有约简.然而,求决策表的所有约简或最优约简是一个NP-hard问题,解决这一问题通常采用启发式搜索方法[10].本文利用数据挖掘中决策规则的支持度和置信度等概念,给出了决策表的决策强度的概念, 证明了决策强度在属性约简过程中,其变化趋势是单调递减的;在此基础上, 提出了一种基于决策强度的属性约简启发式算法, 该算法的时间复杂度为O( |C|2|U|log|U|),最后通过例子分析,说明该算法是有效的.1 规则及规则度量下面简要介绍与本文相关的主要概念,其他概念可参考相关的文献.定义1[1-2] 决策表是一个四元组DT=<U,A,V,f >,其中U ={x1,x2,…,xn}为论域,A=C∪D表示属性集,C= {C1,C2,…,Cp}为条件属性集, D ={D1,D2,…,Dq}为决策属性集,为属性值的集合,Va表示属性a∈A的值域;f: U×A→V是一个信息函数,它指定U中每一个对象x的属性值,下文把决策表简记为DT=<U,C∪D > .对任意B⊆A ,记RB ={(xi,xj)|f(xi,b)=f(xj,b),∀b∈B},则RB是U上的等价关系,它们构成对U的划分,记为U/B={[x]B | x∈U},其中[x]B ={y∈U| (x,y)∈RB}.定义2[2] 对决策表DT=<U,C∪D >,若RC⊆RD ,则称决策表是一致的(协调的),否则称决策表是不一致的(不协调的).对一致决策表,当对象在条件属性集上取值相同时,决策属性值也必定相同;而不一致决策表,至少存在两个对象,它们在条件属性集上取值相同,但决策值却不相等.定义3(规则) 对决策表DT=<U,C∪D >, U/IND(C)为根据条件属性的论域分类,U/IND(D)为根据决策属性的论域分类,Xi∈U/IND(C),i=1,2,…,n,Yj∈U/IND(D),j=1,2,…,m,则决策表的一般规则形式为:rij:Xi→Yj iff Xi∩Yj≠Ø定义4[11](支持度) 给定决策表DT=<U,C∪D >,Xi∈U/IND(C),Yj∈U/IND(D),则有:≤supp(Xi,Yj)≤1称supp(Xi,Yj)为规则Xi→Yj的支持度.支持度表明了规则适用的对象数目,亦可理解为决策规则Xi→Yj的强度.支持度同时也反映了决策表的随机性,当一条规则的支持度很小时,我们可以认为它是一条随机规则,其对新对象的分类能力较差.定义5[11](置信度) 给定决策表DT=<U,C∪D >,Xi∈U/IND(C),Yj∈U/IND(D),则有:≤cer(Xi,Yj)≤1称cer(Xi,Yj)为规则Xi→Yj的置信度或确定性因子.当cer(Xi,Yj)=1(Xi⊆Yj)时,rij是确定性规则;当0<cer(Xi,Yj)<1(Xi∩Yj≠Ø)时,rij 是不确定规则.置信度反映了粗糙规则集的精确程度,规则集合的平均置信度越高,规则集合的一致性就好,精确度也高,相反粗糙规则的不确定性较大.以上讨论的是对单一规则的度量,是对单一决策规则的性质描述.然而,在实际中,有必要从整体上讨论一个决策表规则集合的整体性能,以此来衡量从一个样本集合得到的规则知识库的决策性能,并可对规则集合进行比较.定义6(决策强度) 给定决策表DT=<U,C∪D >,Xi∈U/IND(C),Yj∈U/IND(D),则有:称DP(C→D)为决策表规则集合的决策强度(或条件属性集C关于决策属性集D的决策强度).决策表规则集合的决策强度由所有规则的支持度与置信度共同决定的,体现了规则集合决策充分性判断的整体程度,也可理解为规则集合的平均置信度.当DP(C→D)=1,则决策表DT=<U,C∪D >为一致的决策表,否则为不一致的.定理1 设U为论域,某个等价关系C1在U上形成的划分为U/C1={X1,X2,…,Xn},而U/C2={X1, X2, …, Xi-1, Xi+1,…,Xj-1, Xj+1, …,Xn, Xi∪Xj}是将划分U/C1中的某两个等价块Xi与Xj合并为Xi∪Xj,而其余块不变得到的新划分,U/D={Y1,Y2,…,Ym}也是U上的一个划分,则DP(C1→D)≥DP(C2→D)证明DP(C2→D)则其中:设|Xi∩Yk|=a, |Xj∩Yk|=b, |Xi|=x, |Xj|=y;因为Xi,Xj中没有相同元素,则|Xi∩Xj|=0而|(Xi∪Xj)∩Yk|=|(Xi∩Yk)∪(Xj∩Yk)|=|Xi∩Yk|+|Xj∩Yk|-|(Xi∩Yk)∩(Xj∩Yk)|=|Xi∩Yk|+|Xj∩Yk|=a+b故则DP(C1→D)≥DP(C2→D)等式成立的条件为:ay=bx,即:隶属度相同.下面考虑决策表的情况,由定理1容易得到下列推论.推论1 设DT=<U,C∪D >是决策表,任意ai∈C , i=1,2,…,m ,(m=|C|) ,则有: DP({a1}→D)≤DP({a1}∪{a2}→D)≤…≤DP({a1} ∪…∪{am}→D)=DP(C→D)定理1及推论1说明,如果将属性集的分类进行合并,将可能导致决策表的决策强度的减少.从决策表属性约简的角度来看,当一个属性被约简掉,随着属性约简的进行, 条件属性集关于决策属性集的决策强度的变化规律呈现非严格单调递减.实际也体现了不确定性的增大,二者具有一致性.推论2 设DT=<U,C∪D >是决策表,B为属性约简后得到的条件属性集,C0是决策表的核.如果ai∈B-C0 是任意一个不能被约简的属性,则有:DP(C0→D)<DP(C0∪{a1}→D)< …<DP(C0∪{a1}∪{a2}→D )<… <DP(B→D)推论2说明,如果属性约简以决策表的核为起点,不断地增加非核属性,则决策强度的变化规律是单调递增的.2 基于决策强度的属性约简算法2.1 算法描述由定理1及两个推论,容易设计出两个属性约简算法,这里只给出一个算法,另一个算法的思想类似于文献[5-6]中的算法.由定理1知,如果一个属性a不能为属性子集C的分类增加任何信息,即DP(C∪{a}→D)= DP(C→D), 就可以将这个属性a约简. 算法以条件属性a∈C关于决策属性D的决策强度DP({a}→D) 的大小作为条件属性a对于决策的参考重要度, DP({a}→D)的值越小,属性a 对于决策的参考重要度越小, 算法的起点是初始条件属性集C, 采用逐步删除属性来达到约简的目的,它不需要计算属性的核.由于约简过程是分步进行的,假设被约简的属性序列为a1 ,a2 , …ai, …;则有:DP(C→D)=DP(C-{a1}→D)=DP((C-{a1}-{a2})→D)=…=DP(B→D);其中B 为最后得到的约简,也就是说约简后的决策表的决策强度等于初始决策表的决策强度,即DP(C→D)=DP(B→D),以此作为算法的终止条件.属性约简算法ARABDP(Attribute Reduction Algorithm Based on the Decision Power)输入: 一个决策表DT=<U,C∪D >,C为条件属性集,D为决策属性集.输出: 该决策表的一个相对约简BStep1. 计算决策表DT 中条件属性集C关于决策属性D的决策强度DP(C→D) Step2. 计算每个条件属性ai关于决策属性D的决策强度DP({ai}→D),将ai按DP({ai}→D) 升序排列Step3. 令B =C,按DP({ai}→D)递增的顺序对每个ai重复下述操作:Step3.1 计算条件属性集B在删掉ai后,关于决策属性集的决策强度DP(B-{ai}→D);Step3.2 如果DP(C→D)= DP(B-{ai}→D),则属性ai应约简,B=B-{ai};否则,属性ai不能被约简,B不变.2.2 算法的时间复杂度分析第1步求DP(C→D),需要计算U/C与U/D,按一般的快速排序算法,时间复杂度分别为O(|C||U|log|U|)与O(|D||U|log|U|);故第1步的时间复杂度为O(|A||U|log|U|);第2步计算DP({ai}→D),时间复杂度为O(|U|log|U|),共|C|次,故第2步的时间复杂度为O(|C||U|log|U|);同理第3.2步的时间复杂度为O((|B|-1)|U|log|U|),算法的第3步是一个循环过程,在最坏的情况下,时间复杂度为O([(|C|-1)+ (|C|-2)|+…+1]|U|log|U|)=O (|C|2|U|log|U|).一般而言,|D|《|C|,|A|≈|C|,故整个算法最坏的时间复杂度为O( |C|2| U|log|U|).3 实例分析例1 设有气象信息决策表[2](表1),用本算法求属性约简, 其中C={a1,a2,a3,a4},D={d}表1 气象信息决策表U(a1)outlook(a2)temperature(a3)humidity(a4)windyd1SunnyHotHighFalseN2SunnyHotHighTrueN3OvercastHotHighFalseP4RainMildHighFalseP5Rai nCoolNormalFalseP6RainCoolNormalTrueN7OvercastCoolNormalTrueP8SunnyMildHighFalseN9SunnyCoolNormalFalseP10RainMildNormalFalseP11S unnyMildNormalTrueP12OvercastMildHighTrueP13OvercastHotNormalFals eP14RainMildHighTrueN步骤1:计算DP(C→D);由于U/IND(C)={{1},{2}{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{13},{14}}=U;U/IND(D)={{1,2,6,8,14}, {3,4,5,7,9,10,11,12,13}}; 所以DP(C→D)=1;则决策表是一致的.步骤2:计算DP({ai}→D);DP({a1}→D)=23/35; DP({a2}→D)=47/84; DP({a3}→D)=31/49;DP({a4}→D)=4/7;故DP({a2}→D)< DP({a4}→D)< DP({a3}→D)< DP({a1}→D); 把a2选入.步骤3:令B=C,计算DP(B-{a2}→D),由于DP(B-{a2}→D)=DP({a1,a3,a4}→D)=1= DP(C→D);故{a2}被约简,令B=B-{a2}={a1,a3,a4};而对其余的ai , DP(B-{ai}→D)<1≠DP(C→D);不能被约简,因此最后约简为{a1,a3,a4},与文献[3]的结果一致.4 结论在数据挖掘中,支持度和置信度是对单个规则的衡量程度,本文综合了支持度和置信度的意义,定义了决策表的决策强度的概念,决策强度体现了整个决策表的规则集合的性质,而决策表的约简分析正是体现了规则集合度量(决策强度)的变化.本文证明了在决策表的属性约简过程中,决策强度的变化是单调递减的. 给出了一种基于决策强度的属性约简的启发式算法,分析了该算法的时间复杂性,例子分析表明该算法是有效的.[1]Pawlak Z. Rough set theoretical aspects of reasoning about date[M]. Poland : Warsaw,1991.[2]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2001.[3]张文修,梁怡,吴伟志.信息系统与知识发现[M].北京:科学出版社,2003.[4]叶东毅,陈昭炯.一个新的差别矩阵及其求核方法[J].电子学报,2002,30(7):1086-1088.[5]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002,25(7): 759-766.[6]刘振华,刘三阳,王珏.基于信息量的一种属性约简算法[J].西安电子科技大学学报,2003,30(6): 835-838.[7]桂现才,彭宏.决策表属性约简及其条件信息量表示[J].计算机工程与应用,2006,42(14): 197-199.[8]桂现才.基于相对熵的一种属性约简算法[J].计算机工程与应用,2006,42(33):197-199.[9]JiYe Liang, Chin K S, ChuangYin Dang,et al. A new mothod for measuring uncertainty and fuzziness in rough set theory[J]. International Journal of General System,2002,31(4):33-342.[10]苗夺谦,胡桂荣.知识约简的一种启发式算法[J].计算机研究与发展,1999,36(6):681-684.[11]王加阳,罗安,陈松乔.基于粗集的决策分析[J].模糊系统与数学,2006,20(5):136-143.。
决策表的一种知识约简与规则获取方法

收稿日期:2006-02-28作者简介:孙 胜(1978-),男,湖北黄冈人,博士研究生,研究方向为现代数据库理论与技术及系统实现;导师:王元珍,教授,博士生导师,主要研究方向为现代数据库理论及实现技术。
决策表的一种知识约简与规则获取方法孙 胜1,2(1.华中科技大学计算机学院,湖北武汉430074;2.黄石理工学院计算机学院,湖北黄石435003)摘 要:粗糙集理论是一种新型的数据挖掘和决策分析方法,利用粗糙集理论进行决策表的知识约简与决策规则挖掘已经成为研究热点。
文中介绍了粗糙集的基本理论,在此基础上运用该理论对从决策表中获取最小规则进行了研究,提出了决策表约简的启发式方法,并通过一个具体实例详细说明了决策规则获取过程,实例分析表明了其有效性。
关键词:粗糙集;决策表;决策规则;属性约简中图分类号:T P311.131 文献标识码:A 文章编号:1673-629X(2006)09-0035-03Knowledge Reduction and Rule Acquirement Method in Decision TableSUN Sheng 1,2(1.Schoo l of Computer Science,Huazhong U niv ersity of Science and T echnolog y,Wuhan 430074,China;2.School of Computer Science,Huangshi Institute of T echnolog y,Huangshi 435003,China)Abstract:Rough set theory is a new data mining and decision analysis method.Knowledge reduction and decision rule mining in decision table by using rough set theory has become a research hotspot.T he article introduces basic con cepts in rough set theory first.M inimal dec-i sion rule acquirement in deci sion table based on rough set theory i s researched.A heuristic approach for rule reduction is put forward,and the procedure of decisi on rule acquirem ent is i lluminated using an example.T he instance analysis show s its validity.Key words:rough set;deci sion table;decision rule;attribute reduction0 引 言粗糙集理论是由波兰科学家Z.Paw lak 教授于1982年提出的一种研究不精确、不确定性知识的数学工具[1,2]。
基于相似矩阵的连续域决策表属性约简算法

基于相似矩阵的连续域决策表属性约简算法黎仁国;钟勇;魏世博【摘要】把模糊集和粗糙集结合起来,对连续域决策表属性约简算法进行了研究.首先,使用三角隶属度函数将连续属性值转化为模糊值;然后定义了两模糊对象间的相似度、模糊对象的相似类以及连续属性在对象集上划分所形成的相似类集组成的特征向量;给出了连续型属性的数字特征向量,并以此为基础建立了连续属性间的相似矩阵;最后,提出了一个新的属性约简算法,并用实例进行了验证.【期刊名称】《情报杂志》【年(卷),期】2010(029)004【总页数】4页(P155-158)【关键词】模糊集;粗糙集;三角隶属度函数;相似矩阵;属性约简【作者】黎仁国;钟勇;魏世博【作者单位】西华师范大学计算机学院,南充,637009;中国科学院成都计算机应用研究所,成都,610040;解放军理工大学通信工程学院,南京,410000【正文语种】中文【中图分类】TP301粗糙集理论[1]是一种研究不精确、不确定性知识的数学工具,其主要思想和优点就是在保持分类能力不变的前提下,能够通过知识约简,导出问题的决策或分类规则。
属性约简就是该理论中一个非常重要的概念,它反映了一个决策表的本质信息,现已得到广泛的应用[2]。
在实际情况中,大多数数据集的属性值是连续型的。
这些连续型数据大多具有较强的模糊性,概念之间的界限并不十分明确。
由于传统粗糙集理论十分适合处理离散域属性决策表,对于连续域属性决策表的处理能力非常有限,这就大大限制了它的应用。
如果把粗糙集理论应用于连续型属性,那么在使用该理论之前就必须对连续属性进行离散化。
然而,离散化后的属性值没有保留属性值在实数值上存在的差异,这将导致某种程度的信息损失。
所以,粗糙集理论需要与其他能够处理不精确或不确定问题的理论结合起来,以扩展其应用范围。
模糊集理论也是一种用于在建模中针对一些实验数据中不确定性和模糊性问题的有力工具。
其优点在于:模糊集理论提供了系统的、以语言表示这类信息的计算工具,通过使用由隶属函数表示的语言变量,它还可以进行数值计算。
人工智能原理及其应用(王万森)第3版-课后习题答案

机终端进行会话。
测试开始后,由测试主持人向被测试对象提出各种具有智能性的问题,但不能询问测试者的物理特征。
被测试对象在回答问题时,都应尽量使测试者相信自己是“人”,而另一位是”机器”。
在这个前提下,要求测试主持人区分这两个被测试对象中哪个是人,哪个是机器。
如果无论如何更换测试主持人和被测试对象的人,测试主持人总能分辨出人和机器的概率都小于50%,则认为该机器具有了智能。
1.5人工智能的发展经历了哪几个阶段?解:孕育期,形成期,知识应用期,从学派分立走向综合,智能科学技术学科的兴起1.6人工智能研究的基本内容有哪些?解:与脑科学与认知科学的交叉研究智能模拟的方法和技术研究1.7人工智能有哪几个主要学派?各自的特点是什么?解:符号主义:又称为逻辑主义、心理学派或计算机学派,是基于物理符号系统假设和有限合理性原理的人工智能学派。
符号主义认为人工智能起源于数理逻辑,人类认知(智能)的基本元素是符号,认知过程是符号表示上的一种运算。
联结主义:又称为仿生学派或生理学派,是基于神经网络及网络间的联结机制与学习算法的人工智能学派。
联结主义认为人工智能起源于仿生学,特别是人脑模型的研究。
行为主义:又称进化主义或控制论学派,是基于控制论和“感知-动作”控制系统的人工智能学派。
行为主义认为人工智能起源于控制论,提出智能取决于感知和行为,取决于对外界复杂环境的适应,而不是表示和推理。
1.8人工智能有哪些主要研究和应用领域?其中哪些是新的研究热点?解:机器思维:推理、搜索、规划机器学习:符号学习、联结学习、知识发现和数据挖掘机器感知:机器视觉、模式识别、自然语言理解机器行为:智能控制、智能制造计算智能:神经计算、进化计算、模糊计算分布智能智能系统:专家系统、智能决策支持系统人工心理与人工情感研究热点:智能机器人、智能检索、智能游戏等。
1.9 人工智能未来发展有哪些值得思考和关注的重要问题?解:多学科交叉研究分布智能与社会智能研究集成智能研究智能网络研究认知计算与情感计算研究智能系统与智能服务第2章确定性知识系统参考答案2.1 什么是知识?有哪几种主要的知识分类方法?解:知识是人们在改造客观世界的实践中积累起来的认识和经验;知识是对信息进行智能性加工中形成的对客观世界规律性的认识。
第八章 粗糙集决策方法

第3 第 3页 页
本讲内容
《决策理论与方法》
粗糙集理论的基本概念 完备决策系统的粗糙决策分析方法 不完备决策系统的粗糙决策分析方法 基于优势关系的粗糙决策分析方法 基于扩展优势关系的粗糙决策分析方法
第4 第 4页 页
8.1粗糙集理论的基本概念
《决策理论与方法》
8.1.1知识与知识表示
(5) X Y R( X ) R(Y ),
(6)
R( X ) R(Y )
R( X ) R( X ), R( X ) R( X ) R(R( X )) R(R( X )) R( X )
(7) R(R( X )) R(R( X )) R( X ),
X粗糙集的概念可以用下面的示意图来表示:
U / c1
2 1 4 5 6 3 7 2 8 1 4 7 2 5 8 3 6
3
1
2
3
4
8
5
6
6
7
1
4
2
8
3
5
7
1
4
5
2
8
3
7
6
第9 第 9页 页
R
《决策理论与方法》
8.1.2近似与粗糙集
设 X U , R 为U 上的等价关系,当 X 能表示为某 些基本范畴并时,称是 R 可定义集;否则称 X 是 R 不可定义集。 R 可定义集是论域的子集,它可在知识 库中精确地定义,而 R 不可定义集不能在这个知识
POSC ( D) POSC a ( D)
S (U , C D,V , f ), 若
则称属性 a 为 C 中 D 可省略,否则
属性 a 为
基于近似分类质量的决策表属性约简算法

舒
兰 2
成都 605 ) 104
740 ;2 电子科技大学应用数学学院 , 300 . 四川
要 :文章提 出 了一种基 于近似 分 类质 量 的决 策表属 性 约 简算 法 ,该 原 算 法 以空 集作 为初 始属 性 约
简 ,逐 步增加使 近似 分类质量 增加最 大的属 性 ,直 至约 简的近似分 类质 量等 于所有 条件属 性 的近 似分 类质 量
非空有限论域,A=CUD,C 和D分别为条件属性 集和决策 属性集,D≠ ,且CnD≠ ,对 于每 个子集 和 不
旦 ) 量 ) ( ( ( , ) E 证明 。 ・ 。
() .
E ・【】 【】 ’ £ ・
收稿 日期:2 0 . 11 0 1.8 5
1 )初始化 :G( =0 D)
【kn ≠
‘ . .
∈B( ), E( 故 )
() .
2 / ) D={ y, y) / ,2 …,刖 R={ , , } X …,
3) f ri om o t =l
性 质 22 给 定决策表 S=( A , . U, ) 其中 为 非 空 有 限 论域 ,A=CU D,c 分别为条件属性集和决策属性集 , 和D
∈ ( ) .
者 已提 出了各种启 发式属性约简算法 .如文 提 出 的 基
于互信息量 的知识约简算法 :文 提 出的基 于差 别矩 阵 和差别 函数的逻辑化 简求法 .但这些算法计算都较复杂 .
定义2阁 设集合簇 = ,: , ) = ) . 2 (. , U 是 …
l 引 言
分 明关系 , 的上近似和下近似分别可 以由 的基本 集定 义如下,
粗 糙集理 论是波 兰科学家 P wlk在18 a a 9 2年提 出的一
基于知识量的决策表约简算法

础 上 , 设 计 了一 种 基 于知 识 量 的 约 简 算 法 , 实例 分 析 表 明 该 算 法 能 够 有 效 得 到 决 策表 的 约 简 。
关 键 字 :粗 糙 集 理 论 ;属 性 约 简 ; 知 识 量 ;相 对 知 识 量
中 图 分 类 号 :T 3 1 6 P 0 .
文 献标 识 码 :A
文 章 编 号 :1 7 —1 1 (0 7 0—2 40 6 18 5 2 0 ) 20 1—4
De iin Ta l d cin Alo ih B sd o o e g a tt cso b eRe u to g rt m a e n Kn wld eQu n i y
Ll ANG u — u tal Ch n h a e ,
粗糙集 理论 _ 是 1 8 1 9 2年 由 Z a a .P wl k提 出 的一种 处 理不 确定 性知 识 和模糊 数 据 的分析 工具 。
有 限集 合 , { 。口 , , ) : U A一 口 , 。 … 口 ;
a ∈ A i 。
; 是属
‘
性口 的值 域 ; 示 U×A— V 是 一 个 信 息 函数 , f表
属 性 P决定 的划 分 U/ P= { , , , X。 X。 … X ), 则属 性 P具 有 的知识 量 K ( P)定义 为 :
属 性 ,从 而得 到 约简 中 的条 件 属 性 对 决 策 属性 的
决策 规则 。
K( P)
∑ I f I x u—x I
定 理 1 S一 ( [设 4 U,A) 是 一 个 信 息 系 统 ,
维普资讯
J St . lANXIAGRI UNI C. V.( t r lSce c Na u a in eEdiin) to
基于链表的不完备决策表属性约简算法

基于链表的不完备决策表属性约简算法陈炼;吴灵芝【摘要】差别矩阵作为决策信息系统属性约简的方法是有效的;但空间利用率不高.通过对算法空间利用率及时间效率进行研究,提出基于链表的改进算法;并引入链表的基本运算.该算法通过使用链表的节点存储基于限制容差关系下有效的差别矩阵元素,并在约简过程中通过不断删除不必要的节点以节省时间.通过理论与实例证明其有效性和正确性.【期刊名称】《科学技术与工程》【年(卷),期】2015(015)003【总页数】4页(P250-253)【关键词】差别矩阵;空间利用率;链表;限制相容关系【作者】陈炼;吴灵芝【作者单位】南昌大学计算中心,南昌330031;南昌大学计算中心,南昌330031【正文语种】中文【中图分类】TP301.6粗糙集理论是由波兰数学家Pawlak教授20世纪80年代提出的,它是一种处理不确定性和模糊性数据的工具,能有效地分析不确定、不一致、不完备等各种不完备信息[1]。
属性约简一直是Rough集理论研究的核心内容之一,在完备信息系统中,属性约简技术已经取得巨大的成功,但缺失、遗漏信息的存在使得信息系统往往不完备,如何在不完备的环境下进行属性约简具有更强的实践意义。
近年来,基于不完备信息系统的约简方法也受到了越来越多的关注:文献[2]介绍了不完备信息系统中的几种关系模型并研究了其各自的特点并给出了处理不可分辨关系的拓展模型。
文献[3]提出基于联系度的拓展模型,通过引入阀值对不完备信息系统进行划分,再利用联系度的容差关系确定类的方法。
文献[4]引入集对相似度和相似容差关系,进一步给出了一种基于集成相似度的粗集拓展模型,该模型的方法是通过引入了差异度系数、空值相等与确定值相等之间的差别,利用相似度容差关系与差异度系统确定数据对象的领域。
该模型阀值的确定是根据人的主观要求的。
文献[5]基于相似关系定义了属性的相对重要度和属性重要度,提出寻找不完备决策表的分配协调集和分配约简的算法。
第八章 决策表值约简

第八章信息表值约简值约简是在属性约简的基础上对决策表的进一步简化。
本章将就决策表的值约简问题进行系统分析,并介绍几种主要的值约简算法。
8.1 决策表值约简概述在第7章中,我们介绍了决策信息表的属性约简,通过属性约简,可以将决策表中对决策分类不必要的属性省略,从而实现决策表的简化,这有利于从决策表中分析发现对决策分类起作用的属性。
但是,属性约简只是在一定程度上去掉了决策表中的冗余属性,但是还没有充分去掉决策表中的冗余信息。
例如,在表7.3-1所示的关于气象信息的决策表表的属性约简结果中,如果在条件Outlook=Sunny∧Temperature=Hot下,决策属性的取值肯定是N,而无需考虑条件属性Windy的取值是True还是False。
显然,这个属性约简结果,对于决策分类来说,仍然包含冗余信息。
根据第四章中介绍的决策规则,我们不能够直接从该表中得到满意的决策规则。
这就是说我们还需要进一步对决策表进行处理,得到更加简化的决策表,这就是我们本章将要讨论的决策表值约简问题。
与属性约简中的属性核一样,值约简中也可以定义相应的值核。
决策表S=(U,C,D,V,f),对于任意的x∈U,用d x表示决策规则,即d x:des([x]C)⇒des([x]D),d x(a)=a(x),a∈C⋃D,且d x|C、d x|D分别称为d x的条件和决策。
定义8.1-1 考虑一个相容知识表达系统S,对决策规则d x有[x]C⊆[x]D。
若∀r∈C,有[x]C-{r}⊄[x]D,则r为d x的核值属性,r为d x中不可省略的;若[x]C-{r}⊆[x]D,则r不是d x的核值属性,r为d x中可省略的。
8.2 决策表值约简算法8.2.1 一般值约简算法对于一个经过属性约简而得到的决策表,我们可以对应其中的每一个样本形成一条决策规则。
因此,我们可以将决策表中的样本用规则来表示,这样,约简后的决策表,实际上就是一个规则集合。
第二讲 决策表的正域约简

d
, A( X ) B( X ).
d
,
A( X ) {x [ x] A X }, B( X ) {x [ x]B X },
因 [ x]A [ x]B ,故 B( X ) A( X ). 若存在 x U ,使 x B( X ) 且
x A( X ) ,则 [ x]A X ,故 x X . 对于任意 Y U d , Y X ,有 Y X ,
( x, y )
x , yU
区分函数是一个布尔逻辑公式,其中元素为布尔变量。
定理 设 S (U , A {d},V , f ) 是决策表且 B A 。则 posA (d ) posB (d ) 当且仅当:对于任意 X U 证明 充分性是显然的。 必要性:设 posA (d ) posB (d ) ,对于任意 X U
经过计算可得:
U
ind (A )
{{x1 , x5},{x2 , x8},{x3},{x4},{x6},{x7 }} ,
U U
ind ({R2 , R3}) ind ({R1 , R3})
{{x1 , x5},{x2 , x7 , x8},{x3},{x4},{x6}} , U ind ({R1 , R2}) U ind (A ) .
例 设 S (U , A,V , f ) 为一个信息系统,其中 U {xi ;1 i 8} , A {R1 , R2 , R3} 且
U U U
R1 R2 R3
{{x1 , x4 , x5},{x2 , x8},{x3},{x6 , x7 }} , {{x1 , x3 , x5},{x2 , x4 , x7 , x8},{x6}} , {{x1 , x5},{x2 , x7 , x8},{x3 , x4},{x6}}.
决策表属性约简算法及其在行人检测中的应用

收金项目:国家自然科学基金项目(11871259, 11871289,61379021,11701258),福建省自然科学基金项目(2019J01748)。
作者简介:何秋红(1977-),女,福建漳州,硕士生,闽南师范大学计算机学院。
E-mail:57437947@DOI :10.19551/ki.issn1672-9129.2019.09.002决策表属性约简算法及其在行人检测中的应用何秋红1*,余滨2,3,4,李绍滋2,3,苏松志2,3(1.闽南师范大学计算机学院,福建漳州,363000;2.厦门大学信息科学与技术学院,福建厦门,361005)(3.厦门大学福建省仿脑智能系统重点实验室,福建厦门,361005;4.贵州师范大学数学与计算机科学学院,贵州贵阳,550001)摘要:由于行人集刚性特性和柔性特性于一身,使行人检测成为继人脸检测之后计算机视觉的又一研究难点和热点。
但现有行人检测技术中普遍采用的梯度方向直方图特征存在维度高、特征冗余计算慢和存储量大等缺陷。
针对上述缺陷,引入粗集属性约简理论来降低该特征的维度,以提高行人检测的性能和速度,降低行人特征的存储量,从而应对目前大数据计算以及低存储能力和低计算能力的移动设备中进行实时行人检测的需要。
基本思路如下:首先,利用一个知识对另一个知识的正域概念来刻画属性的重要度,即属性重要度值越大,则该属性对分类越有帮助;反之则对分类帮助较小;然后,引入粗集属性约简理论,删除原始决策表中属性重要度值小的冗余属性。
实验结果表明:将该算法引入行人检测,在维度下降到原来的18.52%仍然保持95.88%的准确率和召回率,同时也提升了检测速度,降低了行人特征的储存量,验证了粗集约简理论在行人检测中的有效性。
关键词:粗糙集;降维;行人检测;梯度方向直方图中图分类号:TP391 文献标识码:A 文章编号:1672-9129(2019)09-0005-08The Decision Table Attribute Reduction Algorithm and Its Application for Pedestrian Detection HE Qiu-hong 1*,YU Bin 2,3,4,LI Shao-zi 2,3,SU Song-zhi 2,3(1.School of Computer Science, Minnan Normal University, Zhangzhou Fujian 363000, China; 2.School of Information Science and Technology, Xiamen University, Xiamen Fujian 361005, China;3.Fujian Key Laboratory of the Brain-like Intelligent Systems, Xiamen University, Xiamen Fujian 361005, China;4.Mathematics and computer science institute, Guizhou Normal University, Guiyang Guizhou 550001, China)Abstract: Pedestrian has both the characteristic of rigid and non-rigid, which make pedestrian detection become another active area of research with challenge in computer vision after face detection.At present, histogram of oriented gradient (HOG) descriptors are widely used in the pedestrian detection technology. But they have the following disadvantages such as high dimension, existing redundancy value, slow calculation and large storage. Hence, the rough set attribute reduction algorithm is proposed to solve the above disadvantages. The algorithm can improve the performance of the pedestrian detection in pedestrian dataset via selecting the most discriminative attributes. In addition, it can reduce the storage of pedestrian features via reducing the dimensions of HOG. What's more, it can speed up detection process because more dimensions lead to computational overload. Therefore, the algorithm can satisfy the market need of real-time pedestrian detection in mobile devices which have low storage capacity and low computation complexity. The basic idea of the algorithm is as following. First, by using the positive domain conception of knowledge relative to another one to depict attribute importance, the greater the value of attribute importance indicates that the attribute is more helpful for classification. On the contrary, the smaller one is less helpful. Then delete redundancy attributes in original decision table because their importance value is small. The experiment results show that the algorithm keeps 95.88% precision and recall of pedestrian detection via selecting 18.52% the most discriminative attributes. What's more, it has improved the detection speed. At the same time, it has reduced the storage of pedestrian features. The application results verify the efficiency of the rough set attribute reduction theory.Keywords: Rough Set; Dimensionality reduction; Pedestrian detection; Histogram of oriented gradient (HOG)1 引言粗糙集(rough set ,简称粗集RS)是波兰科学家Z.Pawlak于1982年提出的一种能够定量分析处理不精确、不确定、不一致、不完整信息与知识的数学工具[1]。
区间值决策表的决策风险最小化属性约简

区间值决策表的决策风险最小化属性约简徐菲菲【摘要】针对目前海量数据分析较多情况下从传统的单条记录转变为一个区间对象,将决策粗糙集中风险的概念引入至区间值决策表中,给出了区间值决策表决策风险的定义,并提出了决策风险最小化的属性约简方法.该方法可以保证所得到的约简集合相对于决策属性具有较强的分类能力,同时保证约简集合的决策风险最小.区间值决策表的决策风险最小化约简使得定义的约简具有更强的理论性和可解释性.【期刊名称】《上海电力学院学报》【年(卷),期】2017(033)005【总页数】6页(P471-476)【关键词】区间值决策表;决策粗糙集;风险最小化;属性约简【作者】徐菲菲【作者单位】上海电力学院计算机科学与技术学院,上海200090【正文语种】中文【中图分类】TP18;TP273.24现实生活中获得的数据集通常复杂多样,特别对于很多测量值数据,大多表现为一定范围内的连续值.对于这类数据来说,如果需要构建某种分类模型,仅依靠某一条数据判定其类别信息,不仅物理意义难以解释,而且耗费大量的时间.处理这类数据应主要考虑时间段内的整体数据特征,将一条数据单独作为一个对象的传统数据处理方式已不适合用来处理这类数据.有学者提出采用均匀时间段内的最大值和最小值来近似替代该连续区间中的所有对象,将整个数据集转换成区间值形式.经典粗糙集理论是PAWLAK Z[1]于1982年提出的一种处理不精确、不一致、不完整数据的数学工具,已在人工智能、机器学习、模式识别等领域得到广泛应用,并获得普遍认可,成为研究热点.然而PAWLAK Z粗糙集模型所要求的条件过于严格,导致容错能力较差,并不能处理复杂的实际问题.因此,有学者将严格的等价关系变成概率包含关系,提出了概率粗糙集模型[2-6].变精度粗糙集[2](Variable Pawlak Rough Sets,VPRS)作为概率粗糙集的典型代表之一,受到了众多学者的关注.VPRS 通过调整参数,大大提高了分类精度.然而对VPRS参数的语义缺乏合理的解释.YAO Y Y引入了Bayes风险理论,通过Bayes风险理论对VPRS的参数进行了解释,并给出相应的推导方法,从而提出了决策粗糙集(Decision-Theoretic RoughSets,DTRS)模型[3].属性约简是粗糙集理论所要研究的核心内容之一.YAO Y Y等人[7]最早对DTRS的属性约简进行了探讨,得出了DTRS约简过程中正域、负域和边界域均不具备单调性的结论;JIA X Y等人[8]指出DTRS应以风险代价作为约简的启发式因子;LI H X 等人[9]定义了一种新的α-正域约简,指出约简前后的正域只需要保持非减性;MA X A等人[10]研究了决策粗糙集的多类问题;CHEBROLU S和SANJEEVI S G[11]将遗传算法引入到DTRS中,通过优化算法得到参数值;LIU J B等人[12]提出了测试代价最优下的正域属性约简算法.上述所有的研究和方法都是基于传统的数据.而在实际生活中存在大量的区间值数据,本文将DTRS理论引入至区间值决策表中,构建区间值决策表下的DTRS模型,继而给出区间值决策表中风险损失的计算方法以及约简的定义,最后以风险损失最小化作为启发式信息提出其相应的属性约简方法.对于大多数区间值数据集,类别信息通常都是离散的.因此,本文讨论的是条件属性为区间值、而决策属性为离散值的情况.定义1 设有区间值决策表[13]DT=<U,C∪D,V,f>,其中C∪D表示非空有限属性集合,包括条件属性集C={a1,a2,a3,…,am}和决策属性集D={d}两部分;V=V C∪VD,其中VC表示条件属性值集合,VD表示决策属性值集合; f:U×C→VC是区间值映射, f:U×D→VD为单值映射.表1为一张区间值决策表,其中论域U={u1,u2,u3,…,u10};条件属性集C={a1,a2,a3,a4,a5};决策属性集D={d};条件属性值是区间值,如f(a2,u3)=[7.03,8.94];决策属性值d(ui)是单值,如d(u3)=2.在区间值决策表中,如果采用经典粗糙集的严格等价关系,很难对论域形成合理的划分,完全取值相同的区间最大最小值才能形成一个等价类,由此得到的等价关系过于苛刻.因此,我们将相似度的概念引入区间值决策表中,用来度量区间之间的相似程度,从而采用相似关系替代严格的等价关系,增强模型的实际应用能力.定义2 设有区间值决策表其中如果说明对象ui在属性ak上这一时间段内的取值均为同一常数.若对任意的ui和任意的条件属性ak,均满足则该决策表即为传统的决策表.定义对象ui与uj关于属性ak的相似度[14]为:式中,card()表示区间值的长度.显然,0≤.如果则条件属性值f(ak,ui)与f(ak,uj)相离;若则条件属性值f(ak,ui)与f(ak,uj)部分相离或真包含;若则条件属性值f(ak,ui)与f(ak,uj)是完全不可分辨的.从区间值的相似度定义可以看出,该定义实际上衡量的是区间值决策表下不同区间值对象之间的等价程度.值越大,说明两个区间的等价程度越高值越小,说明两个区间相交部分越少,即两个区间等价程度越低.定义3 设有区间值决策表DT=<U,C∪D,V,f>,给定一参数水平λ∈[0,1],任意的条件属性子集A⊆C,定义U上的一个二元关系∀ak∈A},称之为关于A的λ-容差关系[14].性质1 设DT=<U,C∪D,V,f>是一区间值决策表,给定一参数水平λ∈[0,1],任意的条件属性子集A⊆C,显然是自反的和对称的,但不一定是传递的.性质2 设DT=<U,C∪D,V,f>是一区间值决策表,给定一参数水平λ∈[0,1],任意属性子集A⊆C,有记表示区间值对象ui在属性集A下的λ-相容类.以表1为例,当λ=0.7,A=a1时,根据定义2和定义3计算可得}.有了上述区间值决策表的基本概念和性质,我们可以将决策粗糙集引入至区间值决策表中,给出区间值决策表的上下近似概念.定义4 设有区间值决策表DT=<U,C∪D,V, f>,给定一参数水平λ∈[0,1],任意属性子集A⊆C,X⊆U,定义X关于A的粗糙上、下近似为:⊄};⊆X}.根据区间值决策表上下近似的概念,我们可以定义区间值对象子集X关于任意属性子集A的正域、负域、边界域.定义5 设有区间值决策表DT=<U,C∪D,V,f>,给定一参数水平λ∈[0,1],任意属性子集A⊆C,X⊆U,定义X关于A的正域⊆X},负域⊄},边界域⊄∧⊆X)}.与经典决策粗糙集相同,给定一参数水平λ∈[0,1]和任意属性子集A⊆C,当区间值对象ui∈U属于对象子集S时,λPP,λBP,λNP分别表示将一个区间值对象划分到相应的的损失函数.类似地,当区间值对象ui∈U不属于S时,λPN,λBN,λNN分别表示将一个区间值对象划分到相应的的损失函数.如果区间值对象ui∈U属于S,则将其划分到正域的风险应该最小,其次是将其划分到边界域的风险,而划分到负域的风险最大;同理,如果区间值对象ui不属于S,则其划分到S的负域的风险应该最小,划分到S的正域的风险最大.因此,我们可以假设损失函数满足:令:γ=β=由于损失函数满足式(1)的关系,根据YAO Y Y的三支决策语义规则[3],可以推导出α∈(0,1],γ∈(0,1),β∈[0,1).设有区间值决策表DT=<U,C∪D,V,f>,给定一参数水平λ∈[0,1],任意的条件属性子集A⊆C,可以得到U上的一个二元关系导出的最简覆盖为决策属性集D在U上导出的划分为:Y={Y1,Y2,Y3,…,Yj,…,Yv}.状态集合表示λ-相容类对象属于或不属于决策类Yj,由此,λ-相容类属于Yj和不属于Yj的条件概率分别为:P(|(ui))=1-P(Yj|(ui))因此,我们可以推导出如下决策规则:(1) 如果则(2) 如果则(3) 如果则).表示ui∈U在条件属性子集A上得到的λ-相容类,Yj表示决策属性集在U上导出的等价类Y.根据上述决策规则,我们可以将区间值对象ui划分到相应的区域.定义6 设有区间值决策表DT=<U,C∪D,V,f>,给定一参数水平λ∈[0,1],对属性子集A⊆C的决策风险定义为:由于正确分类的风险为零,即λPP=λNN=0,则有:式中⊆C.定义6表示区间值决策表中的决策风险应该是每个区间值对象ul在参数水平λ下根据规则划分到相应区域产生的所有风险的总和.定义7 设有区间值决策表DT=<U,C∪D,V,f>,给定一参数水平λ∈[0,1],属性子集A⊆C是C的一个决策风险最小化约简,当且仅当:(1) A=arg(minA⊆C(CostA));(2) ∀A′⊆A,CostA′>CostA.在经典粗糙集下,我们对属性约简的定义基本都保持整个决策表正域不变.实际上,保持正域不变,而负域又为空集,也就相当于保证了整个决策表的边界域不变,即3个区域均不变.而在决策粗糙集中,无论正域、边界域还是负域在属性增减过程中的变化都是非单调的.通过分析发现,决策粗糙集中,每一个对象被划分的区域应该由风险决定.划分到哪一个区域的风险最小,就将该对象划到相应的区域.因此,我们应该依据风险最小化原则进行决策.同样,在区间值决策表中研究约简问题,也应以风险最小化原则为基准,计算约简时不必关注约简前后区域的变化,而应考虑区域变化后所带来的决策风险是否减小.即添加一个属性使得整个区间值决策表的决策风险总和减少,则认为该属性属于约简子集.条件属性子集相对于决策属性的分类能力可以通过属性重要度反映,属性重要度越高,条件属性子集对决策属性的分类能力应该越强,反之亦然.已有学者基于风险最小提出了决策粗糙集的属性约简算法.如文献[8]给出了决策风险最小化的定义,并以此作为启发式算子提出了相应的约简算法,然而该定义并没有考虑所选属性的分类能力,仅考虑了决策风险因子.文献[15]在文献[8]的基础上增加了属性重要度的概念,考虑风险代价的同时考虑到所选属性的分类能力,然而该方法仅仅考虑单个属性的重要性,并没有考虑到属性之间的强相关性.两个具有强分类能力的属性在一起并不一定能增加其分类能力.文献[16]给出了联合属性重要度的定义.以上研究均是针对传统的决策粗糙集模型,无法直接用于区间值决策表.因此,本文给出区间值决策表下的属性重要度定义.设DT=<U,C∪D,V,f>是一区间值决策表,给定一参数水平λ∈[0,1],任意的条件属性子集A⊆C,可以得到U上的一个二元关系导出的最简覆盖决策属性集D在U上导出的划分为:Y={Y1,Y2,Y3,…,Yj,…,Yv}.如果u∈,则在条件属性子集A下的λ-相容类对决策属性集D下划分的等价类Yj的条件概率大小用P(u)表示:P(u)反映的是在条件属性子集A下的λ-相容类对决策属性分类能力的大小.式(6)中取最大值是希望确定性程度最大,这样取值符合概率统计的实际意义.定义8 设有区间值决策表DT=<U,C∪D,V,f>,论域U={u1,u2,u3,…,un},给定一参数水平λ∈[0,1],任意的条件属性子集A⊆C,可以得到U上的一个二元关系导出的最简覆盖决策属性集D在U上导出的划分为:Y={Y1,Y2,Y3,…,Yj,…,Yv}.如果则条件属性子集A下的重要度SGF(A)定义为:j=1,2,3,…,v,l=1,2,3,…,n定义8表明区间值决策表中的属性重要度的计算是通过求论域中所有区间值对象的λ-相容类相对于决策的分类能力总和.即考察的对象是整个论域U,因此对每个区间值对象的条件概率P(ul)求和.在现实应用中,计算约简往往采用启发式属性约简算法.相比于差别矩阵方法,虽然启发式约简只能得到一个约简结果,但可以大大地提高约简效率.启发式约简主要有前向添加,后向删除,以及两者结合3种方法.当条件属性较多时,采用后向删除法耗费大量的时间.因此,本文采用前向添加属性的方法,提出了一种区间值决策表的决策风险最小化属性约简算法(Attribute Reduction Based on Minimum Decision Cost in Interval-Valued Decision Tables).算法的主要思想是:首先根据定义8,选择属性重要度最大的一个条件属性添加到约简子集中,计算决策表的风险代价总和.在该属性基础上,计算每个属性联合该属性的整体重要度,选出重要度最大的联合属性子集,计算代价.如果添加后决策表的风险代价比未添加前的小,说明此属性可以帮助减小决策表的风险代价,同时该属性对决策具有强分类能力.反之,算法结束,得到的属性子集即为约简结果.算法描述如下.输入:区间值决策表DT=<U,C∪D,V,f>,参数α,β,λ.输出:属性约简集合A.步骤1 置A=Ø.步骤2 根据定义8和输入的λ,先计算单个条件属性ak∈C的重要度SGF({ak}),k=1,2,3,…,m,将SGF({ak})值最大的条件属性ak添加到约简集合A中(若存在多个区间值属性同时达到最大值,则选λ-相容类个数最少的属性作为ak).步骤3 计算CostA:(1) 计算论域U中的每个区间值对象ul的P(ul)值,l=1,2,3,…,n;(2) 根据决策规则以及输入的α和β值将区间值对象ul划分到正域,边界域,负域中;(3) 根据式(6)计算CostA.步骤4 对区间值条件属性集C-A重复:(1) 对每个区间值条件属性ak∈C-A,计算联合重要度SGF(A∪{ak});(2) 选择SGF(A∪{ak})值最大的条件属性ak(若存在多个条件属性同时达到最大值,则将λ-相容类个数最少的属性作为ak);(3) 令A′=A∪{ak},计算CostA′;(4) 如果CostA′≤CostA,则A=A′;否则终止.步骤5 最后得到的A就是区间值条件属性C相对于D的一个决策风险最小化约简. 该算法从空集开始,逐个添加区间值条件属性至约简集合中.在添加区间值条件属性时,同时考虑到已有的约简子集,保证每次添加的属性都是在现有约简子集条件下最重要的,并且保证添加该条件属性后该决策表的风险代价比未添加前的要小,即该属性的添加不会增加决策表的风险代价;否则算法结束,得到的条件属性子集A即为最终的约简结果.(1) 本文给出了区间值决策表下的属性重要度计算方法,通过对每个区间值对象的条件概率P(ul)求和,得到论域中所有区间值对象的λ-相容类相对于决策的分类能力总和,符合概率统计的实际意义.(2) 本文所提方法不仅可以保证所得到的约简集合相对于决策属性具有较强的分类能力,同时保证约简集合的决策风险最小.区间值决策表的决策风险最小化约简使得定义的约简具有更强的理论性和可解释性.【相关文献】[1] PAWLAK Z.Rough sets[J].International Journal of Computer & Information Sciences,1982,11(5):341-356.[2] ZIAKO W.Variable precision rough set mode[J].Journal of Computer and System Sciences,1993,46(1):39-59.[3] YAO Y Y.Decision-theoretic rough set models[C]//Proceedings of the 2th International Conference on Rough Sets and Knowledge Technology.LNAI.Heidelberg:Springrt,2007:1-12.[4] HU Q H,ZHANG L,CHEN D G,et al.Gaussian kernel based fuzzy roughsets:model,uncertainty measures and applications[J].International Journal of Approximate Reasoning,2010,51(4):453-471.[5] SLZAK D.Rough sets and bayes factor[M]//SKOWRONA P J F.Transactions on Rough Sets.Berlin:Springer,2005:202-229.[6] HERBERT J P,YAO J T.Game-theoretic risk analysis in decision-theoretic roughsets[C]//Proceedings of the 3th International Conference on Rough Sets and Knowledge Technology,Chengdu,China,2008:132-139.[7] YAO Y Y,ZHAO Y.Attribute reduction in decision-theoretic roughsetmodels[J].Information Sciences,2008,178(17):3 356-3 373.[8] JIA X Y,LIAO W H,TANG Z M,et al.Minimum cost attributereduction in decision-theoretic rough set models[J].Information Sciences,2013,219(1):151-167.[9] LI H X,ZHOU X Z,ZHAO J B,et al.Attribute reduction in decision-theoretic rough set model:a further investigation[C]//Proceedings of the 6th International Conference on Rough Sets and Knowledge Technology,Banff,Canada,2011:466-475.[10] MA X A,WANG G Y,YU H,et al.Decision region distribution preservation reduction in decision-theoretic rough set model[J].Information Sciences,2014,278(10):614-640. [11] CHEBROLU S,SANJEEVI S G.Attribute reduction in decision-theoretic rough set models using genetic algorithm[C]//Proceedings of the 2th International Conference on the Swarm Evolutionary and Memetic Computing,Visakhapatnam,India,2011:307-314. [12] LIU J B,MIN F,LIAO S J,et al.Minimal test cost feature selection with positive region constraint[C]//Proceedings of the 8thInternational Conference on Rough Sets and Current Trends in Computing,Chengdu,China,2012:259-266.[13] 徐菲菲,雷景生,毕忠勤,等.大数据环境下多决策表的区间值全局近似约简[J].软件学报,2014,25(9):2 119-2 135.[14] 郭庆,刘文军,焦贤发,等.一种基于模糊聚类的区间值属性约简算法[J].模糊系统与数学.2013,27(1):149-153.[15] 徐菲菲,毕忠勤,雷景生.基于联合属性重要度的决策风险最小化属性约简[J].计算机科学,2016,43(s1):40-43.[16] 于洪,姚园,赵军.一种有效的基于风险最小化的属性约简算法[J].南京大学学报(自科科学版),2013,49(2):133-141.。
基于相对可辨识矩阵的决策表属性约简算法

基于相对可辨识矩阵的决策表属性约简算法
汪凌;吴洁;黄丹
【期刊名称】《计算机工程与设计》
【年(卷),期】2010(031)011
【摘要】针对现有属性约简算法存在的问题,利用信息论和粗糙集理论,提出一种基于相对可辨识矩阵的决策表属性约简算法.该算法以核属性为基础,通过建立相对可辨识矩阵,利用条件信息熵作为启发式信息,减少属性约简过程中的搜索空间,逐个添加条件信息熵最大的属性,直到找出最小约简为止,并分析了该算法的时间复杂度.实例分析结果表明,该算法能有效地对决策表属性进行约简.
【总页数】4页(P2536-2538,2542)
【作者】汪凌;吴洁;黄丹
【作者单位】西南交通大学经济管理学院,四川,成都,610031;华东交通大学,理工学院,江西,南昌,330100;华东交通大学,理工学院,江西,南昌,330100
【正文语种】中文
【中图分类】TP18
【相关文献】
1.不完备决策表中基于相对知识量的属性约简 [J], 韩晓琴;孙士保;张瑞玲
2.水平划分多决策表下基于相对粒度的隐私保护属性约简算法 [J], 叶明全;伍长荣
3.基于可辨识矩阵的属性约简算法及应用 [J], 陈志恩;田彦山;马旭
4.区间值决策表中基于相对知识粒度的属性约简 [J], 唐鹏飞;莫智文;谢鑫
5.区间值决策表中基于相对知识粒度的属性约简 [J], 唐鹏飞;莫智文;谢鑫
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章信息表值约简值约简是在属性约简的基础上对决策表的进一步简化。
本章将就决策表的值约简问题进行系统分析,并介绍几种主要的值约简算法。
8.1 决策表值约简概述在第7章中,我们介绍了决策信息表的属性约简,通过属性约简,可以将决策表中对决策分类不必要的属性省略,从而实现决策表的简化,这有利于从决策表中分析发现对决策分类起作用的属性。
但是,属性约简只是在一定程度上去掉了决策表中的冗余属性,但是还没有充分去掉决策表中的冗余信息。
例如,在表7.3-1所示的关于气象信息的决策表表的属性约简结果中,如果在条件Outlook=Sunny∧Temperature=Hot下,决策属性的取值肯定是N,而无需考虑条件属性Windy的取值是True还是False。
显然,这个属性约简结果,对于决策分类来说,仍然包含冗余信息。
根据第四章中介绍的决策规则,我们不能够直接从该表中得到满意的决策规则。
这就是说我们还需要进一步对决策表进行处理,得到更加简化的决策表,这就是我们本章将要讨论的决策表值约简问题。
与属性约简中的属性核一样,值约简中也可以定义相应的值核。
决策表S=(U,C,D,V,f),对于任意的x∈U,用d x表示决策规则,即d x:des([x]C)⇒des([x]D),d x(a)=a(x),a∈C⋃D,且d x|C、d x|D分别称为d x的条件和决策。
定义8.1-1 考虑一个相容知识表达系统S,对决策规则d x有[x]C⊆[x]D。
若∀r∈C,有[x]C-{r}⊄[x]D,则r为d x的核值属性,r为d x中不可省略的;若[x]C-{r}⊆[x]D,则r不是d x的核值属性,r为d x中可省略的。
8.2 决策表值约简算法8.2.1 一般值约简算法对于一个经过属性约简而得到的决策表,我们可以对应其中的每一个样本形成一条决策规则。
因此,我们可以将决策表中的样本用规则来表示,这样,约简后的决策表,实际上就是一个规则集合。
对于这个规则集合,我们可以利用如下算法来进行简化:对于规则集合中的每条规则对于该规则中的任意条件属性如果去掉该条件属性,该规则不和规则集中的其它规则冲突,则可以从该规则中去掉该条件属性;经过这样处理得到的规则集合中的所有规则都不含有冗余条件属性,也就是说,规则的条件属性数目已经被尽可能减少了。
但是,这个算法的实现有很多任意性,比如,由于处理规则的顺序不同,或者处理规则中条件属性的顺序不同,我们都可以得到不同的值约简结果,得到的规则集合就会有所不同。
因此,我们往往需要一些启发式知识来指导这一过程的进行。
8.2.2 归纳值约简算法我们在7.3.3一节中对归纳属性约简进行了介绍,这里对归纳值约简加以讨论。
由核值的定义,求得每个规则d x的核值属性,就可形成决策表的条件属性核值表。
但是,这样做的工作量太大。
为了介绍归纳值约简算法,先看如下命题。
命题8.2-1 对相容知识表达系统S=(U,C,D,V,f),则以属性a为核值属性的决策规则集合为core(a)={d x|x∈(U-pos C-{a}(D))}。
证明:∀a∈C,令B=pos C-{a}(D)。
对∀x∈U-B,如果规则d x:des([x]C-{a}) ⇒des([x]D)为不相容决策规则,则必存在一决策规则d x’,使得d x’|(C-{a}) =d x|(C-{a}),而d x’|D≠d x|D,即x’∈[x]C-{a},但x’∉[x]D,因此[x]C-{a}⊄[x]D。
所以a 为决策规则d x 的核值属性,即core(a)={d x |x ∈(U-pos C-{a}(D))}。
根据上述命题,可以方便地求取任意条件属性a 的core(a),从而得到决策表的条件属性核值表。
在此基础上,我们来计算决策规则属性值的简化。
令U/D={y 1,y 2,⋯,y n }表示论域U 上由决策属性划分的决策类集,对每一个决策等价类,定义决策规则类DRC 为DRC(y)={d x :des([x]C )⇒des([x]D )|x ∈U 且[x]C ⊆y},∀y ∈U/D 。
求解知识表达系统决策表的最小决策算法,可通过分别求解各个决策类的最小决策算法来实现。
各决策类的最小决策算法则通过删除决策规则类中决策规则的冗余属性值及冗余规则来实现。
用core(y),∀y ∈U/D 表示决策类y 的核值属性集,core(d x )表示决策规则d x 的核值属性集,则有core(y)⊆C ,core(d x ) ⊆C ,且)()()(y DRC d xx dcore y core ∈=。
下面给出求取决策类y 的最小决策算法步骤: 1)任取d x ∈DRC(y); 2)如果yx x d core ⊆)(][,则输出决策规则d x :)()(]/[)()(),]([)]([x x d core D d core x y DRC y DRC x des x des =⇒,转9);其中,)(]/[)()(x d core x y DRC y DRC =表示从DRC(y)中删除规则d x ’:des([x ’]C )⇒des([x ’]D ),这里,x ’∈)(][x d core x 。
3)令A 1=c o r e (y)-c o r e (d x ),A 2=C -c o r e (y),在测度函数 w(a)=|pos C-{a}(D)|/|U|下对A 1、A 2中元素排序,得有序集OA 1、OA 2,则有序集OA=OA 1⋃OA 2且|OA|=m ,OA 的m 个有序幂子集分别为T 1(OA),T 2(OA),⋯,T m (OA),相应的元素个数为n 1,n 2,⋯,n m 。
4)j=1; 5)i=1;6)令B=core(d x )⋃)(OA Ti j,如果[x]B ⊆y ,输出d x :des([x]B )⇒des([x]D ),B x y DRC y DRC ]/[)()(=,转9);7)i=i+1,如果i ≤n j ,转6); 8)j=j+1,如果j ≤m ,转5); 9)如果DRC(y)≠φ,转1); 10)结束。
根据上述步骤,依次求得各决策类y ∈U/D 的最小决策算法,就可以得到整个决策表的最小决策算法。
8.2.3 启发式值约简算法分析最小值约简,也可以从值核入手。
算法输入:信息系统T (假定系统有n 条记录,m-1个条件属性,1个决策属性)。
算法输出:T 的值约简T ’。
第一步 对信息表中条件属性进行逐列考察。
删除该列后,若产生冲突记录,则保留冲突记录的原该属性值;否则,如果有重复记录,则将重复记录的该属性值标记为“*”;对于其他记录,将该属性值标记为“?”。
For(j=1 To m-1)For(i=1 To n) { If))?)*(((,,T T T T T T km im kl il il il l k m l j l i k ≠∧==→≠∧≠∧≠∧≠∧≠∀∃T T ijij=,;Elseif))?*((',T T T T kl il il il l k j l i k ==→≠∧≠∧≠∧≠∀∃*,=Tij;Else ?,=Tij;} For(i=1 To n) T Tim im=,;第二步 删除可能产生的重复记录,并考察每条含有标记“?”的记录。
若仅由未被标记的属性值即可以判断出决策,则将标记“?”改为“*”;否则,将标记“?”修改为原属性值;若某条记录的所有条件属性均被标记,则标记“?”修改为原属性值。
For(j=1 To m-1)For(i=1 To n) { If?,==Tij{If*))?((,,==∨==→≠∀T Til illm lT T ijij=,;ElseIf))*?((,,T T T T T Tkm im kl il il illkm l ==→==→≠∧≠∧≠∀∀*,=T ij;Else T Tij ij=,;}}第三步 删除所有条件属性均被标记为“*”的记录及可能产生的重复记录(假定Card(T ’)=n ’)。
第四步 如果两条记录仅有一个条件属性值不同,且其中一条记录该属性被标记为“*”,那么,对该记录如果可由未被标记的属性值判断出决策,则删除另外一条记录;否则,删除本记录。
For each tuple (i ) in T ’{If ))(*(,,,,,T T T T Tkj ij j il kl illkl j m l ==→≠∧==∧≠∧≠∀∃∃{If))*)(((,,,T T T T Tim hm ij hj ijj hm j ==→==→≠∧≠∀∀删除记录k ; Else 删除记录i ;}Else If))(*(,,,,,T T T T Tkj ij j kl kl illkl j m l ==→≠∧==∧≠∧≠∀∃∃{If ))*)(((,,,T T T T T km hm kj hj kj j h m j ==→==→≠∧≠∀∀删除记录i ; Else 删除记录k ;}}经过上述值约简之后得到的新信息表,所有属性值均为该表的值核,所有记录均对应为一条决策规则。
8.2.4 基于决策矩阵的值约简算法这里对Ziarko 等人用于获取具有最大适应度(一般化)规则的值约简算法进行介绍,采用的是可变精度Rough 集模型。
对于一个属性约简结果信息表RED ,令+i X (i=1,2,⋯,γ)、-j X (j=1,2,⋯,ρ)表示关系R *(RED)的等价类,)(Y POS X RED i β⊆+,)(Y NEG X RED j β⊆-,决策矩阵M=(M ij )γ⨯ρ定义为:{}),(),(,:)),(,(a X f a X f RED a a X f a M j i i ij -++≠∈=。
也就是说,M ij 包含了在等价类+i X 和-j X 上具有不同值的所有属性值对。
给定等价类+i X ,将M ij 的各个元素作为一个布尔表达式,决策规则集合可以表达为如下形式的布尔函数:)(ij ji M B ∨∧=。
可以看出,布尔函数B i 的基本蕴含实际上是属于正域)(Y POS RED β的等价类+i X 的最大一般化规则。
因此,通过发现所有决策函数B i (i=1,2,⋯,γ)的基本蕴含,就可以计算出正域)(Y POS RED β的所有最大一般化规则。
Ziarko 等人将此算法成功地应用于一个水资源调度系统的设计中,有关内容可以参考本书10.1节。
8.3 缺省规则获取算法前面对属性约简和值约简的算法进行了介绍,经过约简,得到的结果就直接和决策规则对应,因此也就是得到了决策规则。
对于决策表,我们也不一定需要通过约简来学习得到决策规则。
下面介绍Skowron 提出的一种通过投影得到缺省决策规则的算法。