决策树1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

C4.5算法应用实例
C4.5分类算法在硕士研究生智育测评中的应用 • 采用某高校硕士研究生一年级的20名学生的期末考试成绩作为数据集,其中 的课程有英语精读、英语听说等英语类课程、自然辩证法、科学社会主义 等政治类课程,还有数据挖掘概论、数据库原理、并行计算导论等专业性课 程。 在建立决策树的过程中,我们将按以下方式分类:政治成绩(包括自然辩证法 和科学社会主义) ,英语成绩(包括英语精读、英语听说和专业外语) ,核心 专业课成绩(与本专业培养目标最紧密的课程) ,一般专业课成绩(除核心专 业课外的专业课) 。 将这四个属性作为决策属性,定义成绩大于等于85分为“优”;大于等于80, 小于85分为“良”;大于等于70,小于80为“中”。将四个属性的和作为智 育成绩,并按智育测评的标准,将训练样本中智育成绩由高到低按比例分类: 10%为优、30%为良、40%为中等、剩余为及格四个标准,并将这四个标准作 为分类属性(如表1所示) 。
英语 核心专业课 一般专业课 80. 5 85. 14 86. 53 86. 5 91. 13 90. 41 84 89. 33 89. 56 85. 67 91 81. 53 85. 5 88. 17 82. 26 85 86. 86 86. 89 86. 17 89 88. 75 83. 83 78. 29 89. 38 86. 67 94. 29 87. 94 79. 17 87. 83 80. 72
C4.5算法应用实例
建立决策树 智育成绩中达到优、良、中等、及格四类标准的子集数分别为: r1 = 2、r2 = 6、r3 = 8、r4 = 4,首先计算 集合T分类的信息熵: I(r1 、r2 、r3 、r4,)=I(2,6,8,4) = - 2 log 2 2 - 6 log 2 6 - 8 log 2 8 - 4 log 2 4
CART算法
CART采用一种二分递归分割的技术,将当前的样本集 分为两个子样本集,使得生成的决策树的每个非叶子节 点都有两个分支。CART算法生成的决策树是结构简洁 的二叉树。 CART与C4.5/C5.0算法最大的区别是:其在每一个节点 上都采用二分法,也就是一次只能够有两个子节点, C4.5/C5.0则在每一个节点上可产生不同数量的分枝。 另外,它与ID系列算法和C4.5的另一个不同是使用的 属性度量标准是Gini指标, Gini值越小,表明样本的 “纯净度”越高。
20 20 20 20 20 20 20 20
=1. 9464393 然后计算每个决策属性的期望信息量(即熵值) ,以决策属性“政治成 绩”为例,分别计算它为优、良、中三个类别时的期望信息量,最终 得出它的信息增益率。
C4.5算法应用实例
(1) 当“ 政治成绩 ” 为优时, I( u11 , u21 , u31 , u41 ) = I(1, 0, 0, 0) =0.225; (2) 当“ 政治成绩 ” 为良时 , I( u12 , u22 , u32 , u42 ) = I(1, 4, 4, 0)
英语 核心专业课 一般专业课 83. 33 88. 14 86 83. 67 94. 86 86. 44 91. 33 90. 43 87. 06 82. 5 93. 33 88. 2 78. 17 90. 86 85. 93 79. 67 87. 14 80 80. 83 90 87. 32 82. 67 88. 71 82. 28 81. 33 87. 5 83. 13 84. 83 81. 29 87. 78
ID3算法
信息增益
Example(Gain)
n=16 n1=4
I(16,4)=-((4/16)*log2(4/16)+(12/16)*log2(12/16))=0.8113 E(年龄)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946 Gain(年龄)=I(16,4)-E(年龄)=0.0167
课程要求
1. 完成作业要求 2. 缺课不能多于一次
参考书
数据挖掘:概念与技术(原书第3版)(美)韩家炜(Han,J.) 等著,范明 等译,机械工业出版社 数据挖掘导论(完整版) ,(美)陈封能,(美)斯坦巴赫,(美 )库玛尔 著,范明 等译,人民邮电出版社 基于Clementine的数据挖掘,薛薇 等编著,中国人民大学出版 社 数据挖掘Clementine应用实务 ,谢邦昌 主编,机械工业出版社
纯净度度量——GINI
对于一个给定的结点t:
GINI (t ) 1 [ p( j t )]
j
2
是结点t中类j的相对频率 最大值:(1 - 1/nc),记录在所有类中等分布 最小值:0,所有记录属于同一个类
CART算法实例
训 练 集
选择最佳分割点
数值型变量
对记录的值从小到大排序,计算每个值作为临界点产生的子节点的 异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。
I(9,1)=-((1/9)*log2(1/9)+(8/9)*log2(8/9))=0.5032
7

Gain(年龄)=0.281

Gain(家庭所得)=0.5032
Example(end)ID3算法
ห้องสมุดไป่ตู้
资料

Decision Tree
分类规则:
IF性别=Female AND家庭所得= 低所得THEN购买RV房车=否 IF性别=Female AND家庭所得= 小康THEN购买RV房车=否
C4.5算法应用实例
所以政治成绩的期望信息量为: 1 9 E (政治成绩) I(u11 , u 21 , u31 , u 41 ) I (u12 , u 22 , u32 , u 42 ) 20 20 10 I (u13 , u 23 , u33 , u 43 ) 1.387 20

Gain(年龄)=0.0167


Gain(性别)=0.0972

Gain(家庭所得)=0.0177
Max:作为第一个分类依据
Example(续)
I(7,3)=-((3/7)*log2(3/7)+(4/7)*log2(4/7))=0.9852

Gain(年龄)=0.9852

Gain(家庭所得)=0.3059
(3) 在智育成绩为“ 良 ” 以上的同学中 ,他们的核心专业课成绩都是 “ 优 ” 。说明这种课程设置方式 ,使智育成绩优异的同学 ,核心专业课成 绩也非常优秀 ,这是研究生教育管理者最希望看到的结果。 (4) 政治成绩的好坏 ,对于英语成绩、 专业课成绩的好坏没有必然的联 系。这些规则 ,可以帮助硕士研究生认清课程间的联系 ,指导他们在学习过 程中 ,做出最有利于自身发展的选择。
分类型变量
列出划分为两个子集的所有可能组合,计算每种组合下生成子节点 的异质性。同样,找到使异质性减小程度最大的组合作为最佳划分点。
Gini(t1)=1-(3/3)²-(0/3)²=0 Gini(t2)=1-(4/7)²-(3/7)²=0.4898 Gini=0.3×0+0.7×0.4898=0.343
作业一:决策树
以实例解释下列算法
ID3 C4.5 CART CHAID
决策树剪枝的一个具体实例
ID3算法
ID3 决策树建立算法 1 决定分类属性; 2 对目前的数据表,建立一个节点N; 3 如果数据库中的数据都属于同一个类,N就是树叶,在树叶上标 出所属的类; 4 如果数据表中没有其他属性可以考虑,则N也是树叶,按照少数 服从多数的原则在树叶上标出所属类别; 5 否则,根据平均信息期望值E或GAIN值选出一个最佳属性作为 节点N的测试属性 6 节点属性选定后,对于该属性中的每个值:从N生成一个分支, 并将数据表中与该分支有关的数据收集形成分支节点的数据表, 在表中删除节点属性那一栏,如果分支数据表非空,则运用以上 算法从该节点建立子树。
C4.5算法应用实例
表1
编号 政治 11 77. 33 12 75. 67 13 81. 33 14 84. 33 15 82 16 79. 67 17 79 18 78. 67 19 85. 67 20 79. 33
决策树训练样本集
智育成绩 329. 50 343. 71 344. 22 342. 53 337. 93 338. 42 342. 92 330. 17 354. 57 327. 05
IF性别=Female AND家庭所得= 高所得THEN购买RV房车=是
IF性别=Male AND年龄<35 THEN购买RV房车=否 IF性别=Male AND年龄≧35 THEN购买RV房车=是
C4.5算法
C4.5算法也是机器学习算法中的一种分类决策树算法, 此算法用信息增益率来选择决策属性,其核心算法是 ID3算法。它继承了ID3算法的全部优点,并在ID3的基 础上增加了对连续属性的离散化、对未知属性的处理和 产生规则等功能,克服了ID3算法的不足。


C4.5算法应用实例
表1
编号 政治 1 78. 67 2 81 3 83. 33 4 81. 33 5 71. 33 6 83. 33 7 79 8 82 9 72. 67 10 81. 33
决策树训练样本集
智育成绩 336. 14 345. 97 352. 15 345. 36 326. 29 330. 14 337. 15 335. 66 324. 63 335. 23
1 1 4 4 4 4 - log 2 - log 2 - log 2 1 . 392 20 20 20 20 20 20
(3) 当“ 政治成绩 ” 为中时 ,
I(u13 , u23 , u33 , u43 ) I (0,2,4,4) 2 2 4 4 4 4 log2 log2 log2 1.522 20 20 20 20 20 20
Gini(t1)=1-(2/4)²-(2/4)²=0.5 单身 已婚 离异 Gini(t2)=1-(0/4)²-(4/4)²=0 4 1 否 2 Gini(t3)=1-(1/2)²-(1/2)²=0.5 0 1 是 2 Gini=4/10×0.5+4/10×0+2/10×0.5=0.3 单身或已婚 离异 Gini(t1)=1-(6/8)²-(2/8)²=0.375 6 1 Gini(t2)=1-(1/2)²-(1/2)²=0.5 否 Gini=8/10×0.375+2/10×0.5=0.4 2 1 是 单身或离异 已婚 Gini(t1)=1-(3/6)²-(3/6)²=0.5 3 4 Gini(t2)=1-(4/4)²-(0/4)²=0 否 Gini=6/10×0.5+4/10×0=0.3 3 0 是 离异或已婚 单身 Gini(t1)=1-(5/6)²-(1/6)²=0.2778 5 2 Gini(t2)=1-(2/4)²-(2/4)²=0.5 否 Gini=6/10×0.2778+4/10×0.5=0.367 1 2 是
C4.5算法应用实例
C4.5算法应用实例
由此决策树可知: (1) 英语成绩为优的情况下 ,核心专业课成绩全为优 ,一般专业课成绩 为优的概率是 71 . 4%。说明英语水平的提高对计算机专业课程的学习有很 大的帮助 ,对于出色的完成培养目标具有至关重要的作用。
(2) 核心专业课成绩为优的情况下 ,一般专业课成绩为优的概率是 66 . 7%。说明核心专业课成绩的提高对一般专业课成绩的提高是正相关的。
政治成绩的信息增益为:
Gain(政治成绩) I(r 1, r 2, r 3 ,r 4 ) E (政治成绩) 0.559
政治成绩的信息增益率为: Gain(政治成绩) Ratio(政治成绩) 0.4029096 E(政治成绩)
C4.5算法应用实例
同理,得出决策属性“英语成绩”、“核心专业课成绩 ”、“一般专业课成绩”的信息增益率分别为:
Gain(英语成绩) Ratio(英语成绩) 0.366 E(英语成绩)
Ratio(核心专业) Gain(核心专业) 0.144 E(核心专业)
Ratio(一般专业课)
Gain(一般专业课) 0.117 E(一般专业课)
C4.5算法应用实例
决策属性“政治成绩 ” 的信息增益率最大,因此将此 作为决策树的根节点,对于每个分支按上述步骤,根据信 息增益率由大到小,建立从根节点到叶节点的决策树。
相关文档
最新文档