基于决策树生成及剪枝的数据集优化及其应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018年1月计算机工程与设计Ja n.2018
第 39 卷第1 期 C O M P U T E R E N G IN E E R IN G A N D D E S I G N V o l.39 N o.1
基于决策树生成及剪枝的数据集优化及其应用
李国和123,王峰12,郑阳12,吴卫江123,洪云峰3,周晓明3
(1.中国石油大学(北京$地球物理与信息工程学院,北京102249#
2.中国石油大学(北京$油气数据挖掘北京市重点实验室,北京102249#
3.北京兆信信息技术股份有限公司石大兆信数字身份管理与物联网技术研究院,北京100029)
摘要:为提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修正。在进行数据集和决策树形式化描述的基础上,将基尼指数增益率作为确定连续条件属性最优二分原则,采用递归算法
生成叶节点中对象为同一类别的二叉决策树。利用信息熵评价决策树剪除叶节点中对象的类别分布效果,实现数据集类别
异常的类别修正。决策树的生成和剪枝本质上是完成基于基尼指数和信息熵的连续条件属性数据空间分割和合并类别修正。实验和实际应用验证了决策树生成和剪枝是数据集类别优化的有效方法。
关键词:信息熵#基尼指数#决策树#剪枝#数据优化
中图法分类号!T P181 文献标识号:A文章编号%1000-7024 (2018)01-0205-07
d o i: 10. 16208/1. is s n l000-7024. 2018. 01. 036
O ptim ization of d ata set and its application based on
co n stru ctio n and pruning of decision tree
LI Guohe1’2’3,WANG Feng1’2,ZHENG Yang1’2,WUWe-iang1’2’3,HONG Yun-feng3,ZHOU Xiao-ming3
(1.C o lle g e o f G e o p h ysics and In fo rm a tio n E n g in e e rin g’C h in a U n iv e r s ity o f P e tro le u m (B e ijin g)’B e ijin g 102249’C h in a;
2.B e ijin g K e y L a b o f D a ta M in in g fo r P e tro le u m D a ta’C h in a U n iv e r s ity o f P e tro le u m (B e ijin g)’B e ijin g 102249’C h in a;
3.PanP ass In s t it u te o f D ig ita l Id e n tific a tio n M a n a g e m e n t and In te rn e t o f T h in g s’B e ijin g PanP ass In fo rm a tio n
T e c h n o lo g y L im ite d C o rp o ra tio n’B e ijin g 100029’C h in a)
A b s tra c t:T o im p ro v e th e re c o g n itio n accu racy and th e g e n e ra tio n a b ility o f in te llig e n t m o d e ls’i t is ne cessary to d e te ct and re vise th e a b n o rm a lity o f o b je cts in th e d a ta se t used to c o n s tru c t th e in te llig e n t m o d e ls.O n th e basis o f th e fo rm a l d e s c rip tio n o f d a taset and d e cisio n tre e’th e G in i-in d e x g a in w as used as b is e c tio n c rite rio n fo r c o n tin u o u s c o n d itio n a ttr ib u te s’and th e c o n s tru c tio n
o f b in a ry d e cisio n tre e w as based on th e re c u rs iv e a lg o r ith m’a ll th e o b je cts in a ll w h o se le a f node m a tio n e n tro p y w as a p p lie d to e va lu a te th e d is tr ib u tio n o f o b je cts b y th e ir la b e ls in th e le a f nodes o f p ru n e d de cisio n tr e e’to imp le m e n t th e re v is io n o f th e a b n o rm a l labe ls o f o b je cts.In n a tu re’th e c o n s tru c tio n and p ru n in g o f d e cisio n tre e w e re th e d iv is io n and m e rg in g o f co n tin u o u s d a ta space o f c o n d itio n a ttrib u te s u s in g G in i-in d e x and in fo rm a tio n e n tro p y to re vise th e o b je c ts)lab e ls.A l l th e e x p e rim e n ts and a p p lic a tio n s v e r ify th a t th e c o n s tru c tio n and p ru n in g o f d e cisio n tre e are e ffe c tiv e’w h ic h are succe ssful m e th o d s fo r o p tim iz a tio n o f th e o b je c ts)la b e ls.
K e y w o rd s:in fo rm a tio n e n tro p y;G in i in d e x;d e cisio n tre e;tre e p r u n in g;d a ta o p tim iz a tio n
收稿日期:2016-11-30;修订日期:2017-02-14
基金项目:国家863高技术研究发展计划基金项目(2009AA062802);国家自然科学基金项目(60473125);中国石油(CNPC)石油科技 中青年创新基金项目(05E7013);国家重大专项子课题基金项目(G5800-08-ZS-WX);中国石油大学(北京)克拉玛依校区科研启动基金 项目(RCYJ2016B03-001)
作者简介:李国和(1965 -),男,福建漳州人,博士,教授,博士生导师,研究方向为人工智能、机器学习、知识发现;王峰(1992-),男,山东济南人,硕士研究生,CCF会员,研究方向为数据挖掘与知识发现;郑阳(1991-),男,陕西咸阳人,硕士研究生,研究方向为 数据挖掘与知识发现;吴卫江$971-),男,河北唐山人,博士研究生,副教授,研究方向为人工智能、知识发现;洪云峰(1966 -),男,福建龙岩人,高级工程师,研究方向为ERP与数据管理;周晓明(1963 -),男,湖北武汉人,高级工程师,研究方向为信息管理系 统、决策支持。E-mail:98211650l@