一种最小测试代价约简的改进算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种最小测试代价约简的改进算法
何华平;陈光建
【摘要】传统属性约简的目标是在决策表中的所有条件属性中,选择一组分类代价最小的约简,算法构建了测试代价最小的约简.以往的测试代价约简算法查找成功率不够理想,性能不稳定,提出了一种改进的测试代价约简算法.通过运行2个UCI数据集实验,证明算法是有效的,并为提高测试代价约简算法性能提供了新途径.
【期刊名称】《郑州大学学报(理学版)》
【年(卷),期】2015(047)001
【总页数】5页(P74-77,86)
【关键词】代价敏感学习;属性约简;最小测试代价
【作者】何华平;陈光建
【作者单位】四川理工学院计算机学院四川自贡643000;四川理工学院计算机学院四川自贡643000
【正文语种】中文
【中图分类】TP181
在数据挖掘中,要删除冗余数据是十分困难的,属性约简是目前最广泛采用的方法之一[1-3].以前的一些约简算法在大多数情况下是可以找到最小约简的,但性能和稳定性不够好[4].文[5]解释了测试代价敏感约简,定义并实现了该算法.测试代价敏感约简算法与传统约简算法相比具有更强的通用性,该算法关心测试代价,而不再像传统算法只关注分类的精度.测试代价在很多应用场合是很重要的,不同的约简
产生相同的分类精度,而测试代价各不相同.文[6]提出了算法框架用于解决该问题.测试代价敏感约简算法的性能总是不能令人满意.本文提出了一种算法:首先利用
条件信息熵找出核,再把除核之外的属性添加到核集中,形成(N-L)个集合(N代表决策属性数,L代表决策属性中除核之外的属性数),然后对每个集合使用文[6]的
框架算法求最小代价约简,最后把(N-L)个可能的最小代价约简进行比较,找出测
试代价最小的约简作为本次约简的结果.通过2个UCI数据集实验,把改进的算法和文[6]的算法进行比较,结果表明不管是在查找成功率、最大超出率和平均超出
率上均有大幅的提高,稳定性大大增强.
1.1 测试代价独立决策系统
文[7]定义了一个测试代价独立决策系统(TCI-DS)S,它是一个6元组,
其中,U是一个有穷对象集,称为域,C是条件属性集合,D是决策属性集合,
Va是a ∈ C ∪ D的所有值的集合,Ia:U→Va,a ∈ C ∪D的一个信息功能,c:C→R+ ∪ {0}是测试代价功能.
任何的φ⊂A ⊆C,可以使用公式
式(2)表明所有属性测试代价之间是相互独立的.例如,如果医生给病人做测体温和
量血压两项测试,假设测试代价相应为5.00元和10.00元,那么总的测试代价为5.00+10.00=15.00元.
1.2 最小测试代价约简
本文只考虑最基本的概念,例如基于正区域的约简算法[8].为了提出定义,需要明白粗糙集理论的一些基本概念.任何的φ≠ B ⊆C∪D决定了在域U上的一个关系I(B).一个被B决定的分割记为U/I(B),或者简写为U/B.把B(X)记为X的下近似,则把B ⊆C,D的正区域定义为:POS B (D) = ∪ X∈U/D B(X).
定义1 任何B⊆C是S的一个决策关系约简,当且仅当:
1) POS B (D)=POS C (D);
2) ∀a ∈ B, POS B{a} (D)⊂POS C (D).
定义1的条件表明,该约简是充分的,必须维持决策系统的特有特性[5].S上所有可能的约简记为Red(S).约简的核是所有约简的共有属性集合,即
Core(S)=∩Red(S)[8].
定义2 任何的R∈Red(S),当c(R),则R称为一个最小代价约简.本文要解决的问题就是在TCI-DS中查找最小代价约简.
文[6]提出了一种通用的测试代价感知约简算法代码框架,该算法主要分为3个主要步骤:1)通过计算各条件信息熵的办法,找出约简的核;2)以核为基础再把其余的属性添加进去,计算各属性的加权信息增益,把最大的添加进去,直到POS B (D) ≠POS C (D);3)把冗余的属性去掉,剩下的就是此次查找成功的最小代价约简.该算发是启发式算法,查找到的约简可能是最终最小代价约简,也可能失败.通过分析文[8]中的实例,发现:第1)步骤都是成功的,第3)步骤总是能剔出候选约简中的冗余属性,查找失败总是发生在第2)步骤.在通过加权的信息增益添加属性到候选约简中,算法基于这样一种假设:前一轮添加的是信息增益大属性,那么后面一定添加信息增益大的属性,则一定得到的约简是最小代价约简.当所有属性测试代价相等时,这种假设是成立的,但测试代价是随机产生的,它的大小影响了属性代价函数,使前面的假设不成立,所以可能产生失败.
基于前面的分析,本文把算法框架的第2)步骤,即在核上直接开始执行根据信息增益的约简,直到该约简具有原决策系统的完备性,修改为在核上直接添加一个其余的非核属性,得到多个集合.例如:有8个决策属性{a,b,c,d,e,f,g,h},其中核属性有2个Core={a,c},则可以得到{a,b,c},{a,c,d},{a,c,e},{a,c,f},{a,c,g},{a,c,h}.然后分别基于每个集合进行约简及去冗余属性,再分别计算最小代价.最后再选择代价最小的作为最终的结果.
式(1)定义的决策系统中,设它的核为,
定义3 Ri=Core∪ {ai}, ai∈C,i=1,2,…,N-L.Ri为核属性再增加一个非核属性的关系,i为关系编号.
定义4 Reducti=Reduction(Ri),i=1,2,…,N-L.Reducti为定义3中的用文[5]算法
查找到的最小代价约简关系Ri.
定义5 Mj=Re ductj,j=minimal(c(Reducti)), i=1,2,…,N-L;c为式(2)定义的函数,Mj就是本文改进算法所得到的最小代价约简.算法的描述如下:
Output: A reduct with sub-minimal test-cost
Method: tcs-reduction
1: B0 ←∅
3: if (POSC→{ai} (D)≠POSC (D)) then
4: B0←B0∪{ai}//ai is a core attribute
5: end if
6: end for
8: Bj= B0∪{ak}//ak∉B0,and ak∈C
9: while (POS Bj(D) ≠ POSC (D)) do
10: a=an element of (C-Bj) such that f(B, a, c, gc) is maximal
11: Bj=Bj ∪{a}
12: end while
14: if (ai∈Bj && POSBj-{ai} (D)=POS Bj(D)) then
15: Bj=Bj - {ai}//remove redundant attributes
16: end if
17: end for
18: end for
19: B0=minmal{test-cost(Bj)}//test-cost(P)属性集P计算测试代价,
20: return B0.
3.1 数据集
本文特意从UCI数据集中选择了2个数据集进行实验.它们的基本信息见表1,其中,是属性数,是样本总数,D是决策属性名称,是约简的总数.Red(S)是通过文[8]中穷尽算法运算得到的,也可通过RSES轻松获得.
3.2 测试代价的设定和结果评价
本文把各属性的测试代价的值限定在[1, 100]范围的整数,通过一个随机发生器产生并把它们送给各属性作为测试代价.
实验结果的评价指标有:查找成功率,最大超出率和平均超出率[6].设实验总次数
为K,通过实验能成功找到最小测试代价约简的次数为k,则该算法查找成功率(FOF)定义为,op = k/K.设R′是算法查找到的约简,C*(X)是约简X的测试代价,则约简R的超出率ef(R)=(C*(R)- C*(R′))/C*(R).最大超出率MEF定义为,
MEF=max(ef(Ri))(1<i<K);平均超出率AEF定义为,.为了便于比较说明,本文
把文[6]中的算法称为test-cost,把本文的算法称为new test-cost.实验数据见图1,2,3.
本文提出了一种最小测试代价约简的改进算法.实验结果表明,它比原算法有更高
的性能和稳定性.从2个UCI数据集的实验结果证明,该改进算法具有更高的查找成功率,最大超出率和平均超出率均低于原算法.实验结果表明,实验数据的曲线
更加平滑,算法的性能更加稳定.实际应用过程中可以进行多级构建来进一步提高
性能,但同时算法的时间复杂度会大量增加,在构建算法过程中可以采用折中的办法来解决.
【相关文献】
[1] 毛华,赵小娜,史田敏,等.多部图的最大匹配算法[J].郑州大学学报:理学版,2013,
45(1):27-29.
[2] 王瑜.NMF方法在遮挡人耳识别中的应用[J].郑州大学学报:理学版,2013,45(1):61-64.
[3] 王长明,聂建军.基于遗传算法的二次曲面提取技术研究[J].郑州大学学报:理学版,2013,45(1):65-68.
[4] 申雪芬,谢珺,刘海峰,等.一种改进的基于相对正域的增量式属性约简算法[J].广西师范大
学学报:自然科学版,2013,31(3):45-49.
[5] Yao J T, Yao Y rmation granulation for web based information retrieval support systems[C]// Proceedings of SPIE.Florida,2003:138-146.
[6] Min F,Liu Q. A hierarchical model for test-cost-sensitive decision systems[J]. Information Sciences, 2009, 179(14): 2442-2452.
[7] Pawlak Z. Rough sets[J].International Journal of Computer and Information Sciences, 1982, 11(2):341-356.
[8] 许长志,闵帆.带权约简及其在汉语词性标注自动校对中的应用[J].控制与决策,2007, 22(7): 740-744.。