数据挖掘决策树算法的改进与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算该属性的信 息增益量 ,选取信息增益最大的属性为节点, 按该属性 的值划分数据集 合:白 ( 月龄)= n o( ,5 E( / f 9 )- 月
龄 )= . 4 — .9 = . 4 : 0 90 0 63 0 2 7
分类算法可 以分为决策树分类算法 、遗传算法、神经网络方法、K 一 最近邻分类算法等。这里 ,以疾病 防控与儿童免疫管理系统中决策
பைடு நூலகம்
Da a M i i g De ii n Tr eI p o e e t mp e n a i n t n n cso e m r v m n &I lme t t o
Xi Y nZ o a h n , n o g a a , h uXio o g Wa g D n
随着数据库技术 的不断发展及数据库 管理系统 的广泛应用,数 据库 中存储 的数据量急剧增大, 大量的数据背后隐藏着 许多重要 在
的信 息,如果能把这些信息从数据库中抽取出来 ,将会产生重要 的 作用。
二 、生成决策树
对训练集的每一个属 性,计算其信息增益 。以 “ 月龄”属性为
例 ,每个结点中的正反例 的个数分别为 [ ,3 、[ ,2 、 [,0 , 2 ] 3 ] 4 ] 分别计算如下: if [ ,3=2l i1 = . 7 ; n o 2 ] i o i 3 o 09 1 +g2 ・g
白 ( 常住 地 ) n ̄( , ) E 常住 地 ) O 9 2 0 9 10 0 0 =/ / 2 3 一 ( o = . 7 — . 5= .2 :
同理考虑 “ 月龄> ”的情况 ,由于 “ 5 月龄 > ”时 ,各个节 点都 5 是纯节 点,所 以不再划分。
( a g h nT c n lg l g , a g h n 1 0 3 , i a Ch n c u e h oo y Col eCh n c 3 0 3Ch n ) e n
Ab t a tTh u h r s u e n e i t g Da a M i i g d c so r e c a s c t n m eh d b s d o he p a t a p f a o a d s r c : e a t o t did o x s n t n n e ii n te l s i a o t o a e n t r c c l a p c f n,n i i f i i i i a p e o t e s t m ,c i v d ad cs o u p r d l . p f d t yse a h e e e ii n s p o mo u e i h t Ke wor s Daa M i i g; c so e l o i m ; r v ; h e e y d : t n n De i i n t e ag rt r h I mp o e Ac i v
摘 要 :本文作者从实际应用 出 ,对现存数据挖掘决策树分类方法进行了研究,并应用到 系统当中,实 了决策支持模块 。 发 现 关链 词:数掘挖掘 ;决策树算法 ;改进 ;实现
中图分类号 : P0. T 31 6
文献标识码 :A
文章编号 :10— 59 ( 00 0— 13 0 07 99 21 ) 4 00~ 2
计 算机 光盘软件 与应 用
2 1 年第 4期 00 Cm u e DS f w r n p l c to s o p t rC o t a ea dA p a i n i 软件设计开发
数据挖掘决策树算法的改进与实现
夏 琰 ,周 晓 红 ,王 东
( 长春职业技 术学院,长春
1 03 3 03)
儿童编号 月龄 出生状态 常住地 上 次注射
后 反 应
通过对各属 性信息增益 的计算结果, 选择 “ 月龄 ” 属性作为根节点,
然后划分 “ 月龄< 2 = ”的所有可 能性 。计 算当 “ 月龄<2 = ”时,“ 注 射反应” 出生状态 ” 常住地 ”的信息增益值 : 、“ 、“ i( n 注射反应 ) n o 2 3 一 ( =If ( , )E 注射反应 )0 9 1 0 40 5 1 = . 7 — .= .7 ; ( 出生状态 ) n o 2 3 一 ( =/ f ( , ) E 出生状态 ) 0 9 1 00 9 1 : . 7 — = .7 ;
支持子系统 的开发过程为例 ,对决策树分类算法的改进及在 实际中 的应用进行阐述 。


数据选取和数据预处理
同理 ,对 “ 注射反应 ”属性、“ 出生状态 ”属性、“ 常住地 ”属 性都可计算每个结 点的正反例的个数 ( 由于篇幅有限,不作计算) 。
在本系统中,以预防接种中遇 到异常反应后记录的 “ 异常反应 调查表 ”中的数据为例进行说 明。具体实现过程详细说明:首先输 入训练集 ,由于在真实的 SL S re Q ev r数据库当中,为了降低存储 要求和减少存储时间,并非真正存储 每个数据项 的属性值,而是用 存储数字来对应相应 的意义 ,如在数据库 的数 据表 中,“ 性别 ”字 段 中 “ ”代表 “ ” 2 l 男 、“ ”代表 “ ,反应 到程 序页面时再映射 女” 回原来的值,为 了说理清晰又限于篇幅 ,这里 只将所有数据集中有 代表性的十几组数据作 为分类模型创建的输 入训练集 。 表 1 判断是否需要计划外加强免疫的属性表
因此,数据挖掘涉及 的学科领域逐渐扩大,数据挖掘的方法 也
在不断地改进和提高 。分类在数据挖掘 中是一项非常重要的任 务,
i o3 2 ;%; ’: 091 if[ ] ; n [, ] l8 .7; no4 = f = io = g ,o o 计算信息 熵: 月 E( 龄): 4o3云 蜘 ) 06 ;  ̄n2 蜘() 1() f, ∞ =.3 9
相关文档
最新文档