CCA三支决策模型的边界域样本处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

张燕平,邹慧锦,邢航,等.CCA三支决策模型的边界域样本处理[J].计算机科学与探索,2014,8(5):593-600.

ISSN1673-9418CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology 1673-9418/2014/08(05)-0593-08

doi:10.3778/j.issn.1673-9418.1307018E-mail:fcst@

Tel:+86-10-89056056

CCA三支决策模型的边界域样本处理*

张燕平1,2,邹慧锦1,2,邢航1,2,赵姝1,2+

1.安徽大学计算机科学与技术学院,合肥230601

2.安徽大学计算智能与信号处理教育部重点实验室,合肥230601

Dealing with Samples in Boundary Regions of Three-Way Decisions Model Based on CCA

ZHANG Yanping1,2,ZOU Huijin1,2,XING Hang1,2,ZHAO Shu1,2+

1.School of Computer Science and Technology,Anhui University,Hefei230601,China

2.Key Laboratory of Intelligent Computing and Signal Processing of Ministry of Education,Anhui University,Hefei

230601,China

+Corresponding author:E-mail:zhaoshuzs2002@

ZHANG Yanping,ZOU Huijin,XING Hang,et al.Dealing with samples in boundary regions of three-way decisions model based on CCA.Journal of Frontiers of Computer Science and Technology,2014,8(5):593-600.

Abstract:The three-way decisions model based on constructive covering algorithm(CCA)produces automatically three regions:positive regions(POS),negative regions(NEG)and boundary regions(BND)according to the distri-bution characteristic of samples.The model provides a new idea to deal with samples in BND for the theory of three-way decisions.This paper proposes two methods to deal with samples in BND:The first method deals with all sam-ples in BND,which gives three principles,nearest to the center principle,nearest to the boundary principle and grav-ity principle;The second one deals with part of samples in BND,i.e.,the samples which satisfy some conditions are dealt with,and the rest samples are still in the BND.The second method promotes the accuracy.This paper com-pares the two methods on five datasets using10-fold cross-validation.The experimental results show that the ef-

*The National Natural Science Foundation of China under Grant Nos.61073117,61175046(国家自然科学基金);the Natural Science Foundation of Anhui Province of China under Grant No.11040606M145(安徽省自然科学基金);the Science Research Program of Higher Education Institutions of Anhui Province under Grant No.KJ2013A016(安徽省教育厅科学基金);the Student Research Training Program of Anhui University(安徽大学大学生科研训练计划).

Received2013-05,Accepted2013-07.

CNKI网络优先出版:2013-10-08,/kcms/detail/11.5602.TP.20131008.1636.005.html

Journal of Frontiers of Computer Science and Technology计算机科学与探索2014,8(5)

1引言

三支决策理论将传统的正域、负域的二支决策语义拓展为正域、边界域和负域的三支决策语义,是Yao在粗糙集和决策粗糙集研究中提出[1-3]的。与传统的二支决策理论不同的是,三支决策除了使用正域表示赞同、负域表示反对外,还增加了边界域表示犹豫不决或延迟决策。目前的三支决策模型主要基于粗糙集,即决策粗糙集理论模型(decision-theoretic rough set model,DTRSM)。许多学者也对其进行了研究,Yu等人研究了基于DTRS的聚类[4-6]。Jia等人研究了决策风险最小化情形下的属性约简和基于三支决策的属性约简[7]。Li和Miao等人提出了基于决策粗糙集的文本分类方法[8]。李华雄等人研究了决策粗糙集的三支决策语义,并提出了三支决策粗糙集模型[9-11]。Liu等人将两类决策粗糙集拓展为多类决策粗糙集模型[12-13]。近十多年来,三支决策粗糙集模型将决策粗糙集引入到不完备系统和多智能体系统中,应用于投资决策[14]、医疗决策[15]、垃圾邮件等领域[16-17],取得了很大成效。但是在决策粗糙集模型中,很少对边界域样本作进一步处理,这是目前需要解决的问题之一。

构造性覆盖算法(constructive covering algorithm,CCA)由中国学者张铃、张钹提出[18]。基于构造性覆盖的三支决策,在学习过程中,构造性地形成了分类识别问题的正域、负域和边界域。其中边界域包括不能确定分类的空白域以及被正域、负域重叠覆盖的区域。相比于决策粗糙集模型,基于覆盖的构造性覆盖算法不必人为决定关键参数,使得DTRSM中损失函数λ、阈值α、β的取值问题得以解决,而且能够对边界域样本进行处理。

本文重点讨论了落入边界域样本的两种决策方案:第一种为处理全部的边界域样本,给出了基于覆盖中心距离、覆盖边界距离、万有引力3种方法;第二种为处理部分的边界域样本,即先由构造性覆盖算法自动形成正域、负域和边界域,再选出满足一定条件的边界域样本进行处理,保留了部分的边界域样本。根据距某边界域样本最近的两个覆盖的距离的比例,决定是否对该边界域样本进行处理。这样就只对边界域相对确定的样本进行再次划分,其余的样本仍归在边界域样本中,从而减少了边界域样本的个数,提高了对边界域样本处理的正确率。

本文组织结构如下:第2章介绍了构造性覆盖算法形成3个域的过程;第3章给出了落入边界域样本的处理策略;第4章通过实验证明了本文处理策略的有效性;第5章总结全文。

2构造性覆盖算法形成3个域的过程

假设样本集X={(x

1

y

1

) (x

2

y

2

) (x

p

y

p

)} X是n维欧氏空间的点集,共有p个样本,分为m类,其中

x

i

=(x1

i

x2

i

x n

i

)表示第i个样本的n维特征属性;

fect and accuracy of dealing with part of samples in BND are better than those of dealing with all samples in BND. Key words:constructive covering algorithm(CCA);dealing with samples in boundary regions;three-way decisions

摘要:构造性覆盖算法(constructive covering algorithm,CCA)三支决策模型在学习过程中根据样本分布特征,自动产生正域、负域和边界域。该模型为边界域样本处理问题提供了新的思路。重点讨论了基于CCA的三支决策的边界域样本处理问题。对边界域样本处理提出了两种决策方案:一种为处理全部的边界域样本,给出了距中心最近原则、距边界最近原则、万有引力原则3种方法;另一种为处理部分的边界域样本,即只对满足一定条件的边界域样本作进一步的划分,这样使不满足条件的边界域样本仍保留在边界域,提高了边界域样本处理的正确率。用十字交叉法在5组数据集上对这两种决策方案进行了对比,实验结果表明,处理部分边界域样本时正确率更高,效果更好。

关键词:构造性覆盖算法(CCA);边界域样本处理;三支决策

文献标志码:A中图分类号:TP181

594

相关文档
最新文档