CART算法介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基尼系数 Gene coefficient
Part Five 分类树生成算法
05 Part Five 分类树生成算法
(1)计算现有特征对该数据集的基尼指数,对 于每一个特征A,可以对样本点A是否为a可 以将数据集D分成数据集D1,D2D1,D2 (2)对于所有的特征A和所有可能的切分点a, 选择基尼指数最小的特征以及相对应的切分 点作为最优特征和最佳切分点。 (3)对最优子树递归调用(1)(2),直到满足停 止条件。 (4)生成CART分类树。
Part Two 基本思想
02 Part Two 基本思想
CART算法采用的是一种二分递归 分割的技术,将当前样本分成两 个子样本集,使得生成的非叶子 节点都有两个分支。因此CART实 际上是一颗二叉树。
Part Three 回归树的生成
03 Part Three 回归树的生成
输入:训练数据集D 输出:回归树f(x)f(x) 在训练数据集所在的输入空间中,递归得将每一 个区域分为两个子区域并决定每个子区域上的输 出值,构建二叉决策树: (1)选择最优切分变量j和切分点s,求解 :
04 Part Four 分类树的生成
对于给定的样本集合D,其基尼指数为
其中,Ck是D中属于第k类的样本子集,K是类的个数。 |Ck|和D分别表示子集的个数和样本的个数。 如果样本集合D根据特征A是否取某一可能的值α被分 割成D1和D2,即
所以在特征A的条件下集合D的基尼指数为
其中基尼指数Gini(D)表示集合的不确定性,基尼指 数G(D,A)表示A=a分解后集合的不决定性。基尼指数 越大,样本集合的不确定性越大。
Part Four 分类树的生成
04 Part Four 分类树的生成
分类树是用基尼指数百度文库择最优特征, 同时决定该特征的最优二值切分点。
基尼指数
分类问题中,假设有K个类,样本点属于第K 类的概率为pk,则概率分布的基尼指数定义 为
对于二分类问题来说,若样本点属于第一类 的·概率为p,则概率分布的基尼指数为
THANK YOU FOR WATCHING
CART算法——分类决策树算法
目录
01CART 02基本思想 03CART树的特点 04回归树的生成 05分类树的生成及算法 06剪枝处理
Part One CART
01 Part One CART
分类回归树模型由Breiman 等人在1984年提出,是应用 广泛的决策树学习方法。 CART同样由特征选择、树的 生成以及剪枝组成,既可以 用于分类也可以用于回归。 同样属于决策树的一种。
Part Six 剪枝处理
06 Part Six 剪枝处理
剪枝是决策树学习算法中对付过拟合的主要手段。主 要是从已生成的书中剪掉一些子树或者叶子节点,并 将根节点或者父节点作为新的叶子节点,从而简化分 类树模型。
具体流程: (1)计算每一个结点的经验熵Ta (2)递归的从叶子节点开始往上遍历,减掉叶子节点, 然后判断损失函数的值是否减少,如果减少,则将父 节点作为新的叶子节点。 (3)重复(2),直到完全不能剪枝。
遍历变量j,对固定的切分变量j扫描切分点s,选 择使上式达到误差最小的变量(j,s),其中 R1和R2表示的是划分之后的空间。
03 Part Three 回归树的生成
(2)用选定的(j,s)划分区域并决定响应的输出值。
(3)继续对两个子区域调用步骤(1),(2),直到满足停止条件。
(4)将输入空间划分为M个区域R1,R2,R3....RM,生成决策 树: