CART决策树的两种改进及应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ab s t r a c t .F a y y a d b o u n d a r y p o i n t d e t e r mi n a t i o n p r i n c i p l e wa s u s e d t O i mp r o v e t h e me t h o d o f c h o o s i n g c o n t i n u o u  ̄v a l u e d a t t r i - b u t e s ’s e g me n t a t i o n t h r e s h o l d i n CA R T d e c i s i o n t r e e .Th r o u g h F a y y a d b o u n d a r y p o i n t d e t e r mi n a t i o n p r i n c i p l e ,i n t h e p r o c e s s o f
s e s we r e c h e c k e d ,i n s t e a d o f g e t t i n g e v e r y s p l i t p o i n t c h e c k e d .An d t h e k e y d e c i s i o n f a c t o r wa s u s e d t o i mp r o v e t h e c l a s s i f i c a t i o n a c c u r a c y wh e n t h e ma i n c l a s s e s o f s a mp l e s e t d i s t r i b u t e d i mb a l a n c e d .C R T A c l a s s i f i e r wa s c o n s t r u c t e d b a s e d o n t h e s e me t h o d s . Th e e x p e r i me n t a l r e s u l t s h o ws t h a t Fa y y a d b o u n d a r y p o i n t d e t e m i r n a t i o n p r i n c i p l e i s a p p r o p r i a t e f o r C R T A a l g o r i t h m ,t h e e f f i — c i e n c y o f b u i l d i n g d e c i s i o n t r e e i s i mp r o v e d b y a b o u t 4 5 p e r c e n t ,a n d wh e n t h e ma i n c l a s s e s o f s a mp l e s e t d i s t r i b u t e i mb a l a n c e d , t h e c l a s s i f i c a t i o n a c c u r a c y o f t h e i mp r o v e d a l g o r i t h m i s h i g h e r t h a n t h a t o f t h e o r i g i n a l o n e . Ke y wo r d s :d e c i s i o n t r e e ;C R A s i o n f a c t o r T a l g o r i t h m ;s e g me n t a t i o n t h r e s h o l d;Fa y y a d b o u n d a r y p o i n t d e t e m i r n a t i o n p r i n c i p l e ;k e y d e c i -
ZHANG Li a n g,NI NG Qi a n
( S c h o o l o f El e c t r o n i c s a n d I n f o r ma t i o n,S i c h u a n Un i v e r s i t y ,Ch e n g d u 6 1 0 0 6 5 ,Ch i n a )
d o i :1 0 . 1 6 2 0 8 / j . i s s n l 0 0 0 — 7 0 2 4 . 2 0 1 5 . 0 5 . 0 1 8
Two i mp r o v e me n t s o n CART d e c i s i o n t r e e a n d i t s a p p l i c a t i o n
s e l e c t i n g c o n t i n u o u s — v a l u e d a t t r i b u t e s ’s e g me n t a t i o n t h r e s h o l d,a d j a c e n t b o u n d a r y p o i n t s wh i c h we r e s o r t e d a n d i n d i f f e r e n t c l a s —
2 0 1 5 年 5 月
计 算机 工 程 与 设 计
C0M PUTE R E NGI NE ERI NG AND DES I GN
M ay 2 015
第 3 6卷
第 5 期
Vo 1 . 3 6 NO . 5
C A R T决 策 树 的两 种 改 进 及 应 用
张 亮 ,宁 芊 ( 四 川 大学 电子 信 息学 院 ,四 川 成 都 6 1 0 0 6 5 )
C A RT算 法,利用改进 后的 C R T算 法生成 决策树的效率提 高了近 4 A 5 ,在样本集主类 类属 分布 不平衡 的情况下 ,分类准
确率也略有提 高。 关键 词 : 决策 树 ;C AR T 算 法 ;分 割 阈值 ;F a y y a d边 界 点 判 定 定 理 ;关 键 度 度 量 中 图 法 分 类 号 :TP 3 0 1 . 6 文 献 标 识 号 :A 文 章 编 号 :1 0 0 0 — 7 0 2 4( 2 0 1 5 )0 5 - 1 2 0 9 — 0 5
摘
Fra Baidu bibliotek
・
要 :利用 F a y y a d边界点判定原理对 C AR T决策树选取连 续属性 的分割阈值的方法进行 改进 ,由 F a y y a d边界点判 定原
理 可知 ,建树过程 中选取连 续属性的分割 阈值 时,不需要检 查每 一个分割 点 ,只要检 查样本排序后 ,该属性相 邻不 同类别 的分界点 即可;针 对样 本集主类类属分布 不平衡 时,样本量 占相 对 少数 的小类 属样本 不能很 好地对 分类进行 表 决的情 况, 采用关键度度量 的方法 进行 改进 。基 于这 两点 改进 构建 C R T分 类 器。实验 结果 表 明,F A a y y a d边 界 点判 定原 理 适 用于
s e s we r e c h e c k e d ,i n s t e a d o f g e t t i n g e v e r y s p l i t p o i n t c h e c k e d .An d t h e k e y d e c i s i o n f a c t o r wa s u s e d t o i mp r o v e t h e c l a s s i f i c a t i o n a c c u r a c y wh e n t h e ma i n c l a s s e s o f s a mp l e s e t d i s t r i b u t e d i mb a l a n c e d .C R T A c l a s s i f i e r wa s c o n s t r u c t e d b a s e d o n t h e s e me t h o d s . Th e e x p e r i me n t a l r e s u l t s h o ws t h a t Fa y y a d b o u n d a r y p o i n t d e t e m i r n a t i o n p r i n c i p l e i s a p p r o p r i a t e f o r C R T A a l g o r i t h m ,t h e e f f i — c i e n c y o f b u i l d i n g d e c i s i o n t r e e i s i mp r o v e d b y a b o u t 4 5 p e r c e n t ,a n d wh e n t h e ma i n c l a s s e s o f s a mp l e s e t d i s t r i b u t e i mb a l a n c e d , t h e c l a s s i f i c a t i o n a c c u r a c y o f t h e i mp r o v e d a l g o r i t h m i s h i g h e r t h a n t h a t o f t h e o r i g i n a l o n e . Ke y wo r d s :d e c i s i o n t r e e ;C R A s i o n f a c t o r T a l g o r i t h m ;s e g me n t a t i o n t h r e s h o l d;Fa y y a d b o u n d a r y p o i n t d e t e m i r n a t i o n p r i n c i p l e ;k e y d e c i -
ZHANG Li a n g,NI NG Qi a n
( S c h o o l o f El e c t r o n i c s a n d I n f o r ma t i o n,S i c h u a n Un i v e r s i t y ,Ch e n g d u 6 1 0 0 6 5 ,Ch i n a )
d o i :1 0 . 1 6 2 0 8 / j . i s s n l 0 0 0 — 7 0 2 4 . 2 0 1 5 . 0 5 . 0 1 8
Two i mp r o v e me n t s o n CART d e c i s i o n t r e e a n d i t s a p p l i c a t i o n
s e l e c t i n g c o n t i n u o u s — v a l u e d a t t r i b u t e s ’s e g me n t a t i o n t h r e s h o l d,a d j a c e n t b o u n d a r y p o i n t s wh i c h we r e s o r t e d a n d i n d i f f e r e n t c l a s —
2 0 1 5 年 5 月
计 算机 工 程 与 设 计
C0M PUTE R E NGI NE ERI NG AND DES I GN
M ay 2 015
第 3 6卷
第 5 期
Vo 1 . 3 6 NO . 5
C A R T决 策 树 的两 种 改 进 及 应 用
张 亮 ,宁 芊 ( 四 川 大学 电子 信 息学 院 ,四 川 成 都 6 1 0 0 6 5 )
C A RT算 法,利用改进 后的 C R T算 法生成 决策树的效率提 高了近 4 A 5 ,在样本集主类 类属 分布 不平衡 的情况下 ,分类准
确率也略有提 高。 关键 词 : 决策 树 ;C AR T 算 法 ;分 割 阈值 ;F a y y a d边 界 点 判 定 定 理 ;关 键 度 度 量 中 图 法 分 类 号 :TP 3 0 1 . 6 文 献 标 识 号 :A 文 章 编 号 :1 0 0 0 — 7 0 2 4( 2 0 1 5 )0 5 - 1 2 0 9 — 0 5
摘
Fra Baidu bibliotek
・
要 :利用 F a y y a d边界点判定原理对 C AR T决策树选取连 续属性 的分割阈值的方法进行 改进 ,由 F a y y a d边界点判 定原
理 可知 ,建树过程 中选取连 续属性的分割 阈值 时,不需要检 查每 一个分割 点 ,只要检 查样本排序后 ,该属性相 邻不 同类别 的分界点 即可;针 对样 本集主类类属分布 不平衡 时,样本量 占相 对 少数 的小类 属样本 不能很 好地对 分类进行 表 决的情 况, 采用关键度度量 的方法 进行 改进 。基 于这 两点 改进 构建 C R T分 类 器。实验 结果 表 明,F A a y y a d边 界 点判 定原 理 适 用于