决策树算法2-决策树分类原理2.4-基尼值和基尼指数

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

决策树算法2-决策树分类原理2.4-基尼值和基尼指数
1 概念
CART 决策树使⽤"基尼指数" (Gini index)来选择划分属性,分类和回归任务都可⽤。

基尼值Gini (D ):从数据集D 中随机抽取两个样本,其类别标记不⼀致的概率
Gini (D )值越⼩,数据集D 的纯度越⾼。

2 计算
数据集 D 的纯度可⽤基尼值来度量:
p k =c k
D ,D 为样本的所有数量,c k 为第k 类样本的数量。

基尼指数Gini_index (D ):⼀般,选择使划分后基尼系数最⼩的属性作为最优化分属性。

3 案例
请根据下图列表,按照基尼指数的划分依据,做出决策树。

序号是否有房婚姻状况年收⼊是否拖⽋贷款
1
yes single 125k no 2
no married 100k no 3
no single 70k no 4
yes married 120k no 5
no divorced 95k yes 6
no married 60k no 7
yes divorced 220k
no 8
no single 85k yes 9
no married 75k no 10No Single 90k Yes 1、对数据集⾮序列标号属性{是否有房,婚姻状况,年收⼊}分别计算它们的Gini 指数,取Gini 指数最⼩的属性作为决策树的根节点属性。

2、根节点的Gini 值为:
3、当根据是否有房来进⾏划分时,Gini 指数计算过程为:
4、若按婚姻状况属性来划分,属性婚姻状况有三个可能的取值{married ,single ,divorced},分别计算划分后的Gini 系数增益。

对⽐计算结果,根据婚姻状况属性来划分根节点时取Gini指数最⼩的分组作为划分结果{married} | {single,divorced}。

5、同理可得年收⼊Gini:
对于年收⼊属性为数值型属性,⾸先需要对数据按升序排序,然后从⼩到⼤依次⽤相邻值的中间值作为分隔将样本划分为两组。

例如当⾯对年收⼊为60和70这两个值时,我们算得其中间值为65。

以中间值65作为分割点求出Gini指数。

根据计算知道,三个属性划分根节点的指数最⼩的有两个:年收⼊属性和婚姻状况,他们的指数都为0.3。

此时,选取⾸先出现的属性【married】作为第⼀次划分。

6、接下来,采⽤同样的⽅法,分别计算剩下属性,其中根节点的Gini系数为(此时是否拖⽋贷款的各有3个records)
7、接下来,采⽤同样的⽅法,分别计算剩下属性,其中根节点的Gini系数为(此时是否拖⽋贷款的各有3个records)
8、对于年收⼊属性则有:
经过如上流程,构建的决策树,如下图:
4 CART算法流程
while(当前节点"不纯"):
1.遍历每个变量的每⼀种分割⽅式,找到最好的分割点
2.分割成两个节点N1和N2
end while
每个节点⾜够“纯”为⽌
Processing math: 100%。

相关文档
最新文档