基于决策树的集成学习算法随机森林
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
标记?
分支数目
• 同一个节点分出去的分支的数目称为分支系数或 分支率(branching ratio)
• 任意决策树都可以用分支系数为2的决策树(即二 叉树)来表示
• 二叉树是最常用的决策树形式
分支数目
பைடு நூலகம்
分支数目
测试的选取
• 决策树设计的核心问题之一 • 基本思想:
使后继结点的数据尽可能的“纯粹” • 节点N的不纯度(impurity)i(N)
• 利用合取式和析取式获得某个类别的明确描述
• 苹果=(绿色 AND 中等大小)OR(红色 AND 中等大小)
• 分类速度快
• 只需一系列简单查询即可对模式的类别做出判断
• 可以很自然的嵌入专家的先验知识
决策树学习算法
• 决策树研究历史
• 第一个决策树算法称为CLS (Concept Learning System)
[L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone’s book “Classification and Regression Trees” published by Wadsworth in 1984]
• 基于决策树的集成学习算法:随机森林 (Random Forests)
• 当N节点上的所有模式都来自同一类时,i(N)=0; • 当N节点上的模式类别分布均匀时,i(N)应很大
测试的选取
• 常用不纯度度量
• 熵不纯度(entropy impurity)
P( j
)
属于
的样本个数
j
样本总个数
• Gini不纯度
• 误分类不纯度
测试的选取
• 常用不纯度度量
测试的选取
• 决策树的构成
• 根节点(root) • 分支(branch) • 叶节点(leaf)
决策树
决策树
• 决策树分类过程
• 从根节点开始,首先对某一属性的取值提问
• Color?
• 与根节点相连的不同分支,对应这个属性的不同取值
• green; yellow; red;
• 根据不同的回答,转向相应的分支
• :节点N上样本总个数
• :其中属于i 类的样本个数(i=1,2, …, m)
• :属性A的第j个取值(j=1,2, …, v)
• 该节点处的熵不纯度
E (S )
m i1
Si S
log2
Si S
• 属性A将S划分为v个子集 • 中属于i 类的样本个数为
信息增益
• 信息增益(information gain)
• green
• 在新到达的节点处做同样的分支判断
• Size? – big.
• 这一过程持续,直到到达某个叶节点,输出该叶节点的 类别标记
• Watermelon
决策树
• 决策树的判决面
决策树
• 决策树的优势
• 语义可表示性
• 从根节点到叶节点表示为合取式
• (颜色=黄)AND(形状=细长)
香蕉
• 最流行的决策树算法C4.5
[J. R. Quinlan’s book “C4.5: Programs for Machine Learning” published by Morgan Kaufmann in 1993]
决策树学习算法
• 决策树研究历史
• 通用的决策树算法CART (Classification and Regression Tree)
[E. B. Hunt, J. Marin, and P. T. Stone’s book “Experiments in Induction”published by Academic Press in 1966]
• 真正引发决策树研究热潮的算法是ID3
[J. R. Quinlan’s paper in a book “Expert Systems in the Micro Electronic Age” edited by D. Michie, published by Edinburgh University Press in 1979]
特征类型
• 数值数据(numerical data)
• 例:{1.2, 4.5, 3.3} • 模式间可以计算距离度量 • 基于度量的模式分类方法
• 标称数据 (nominal data)
• 例:{红色,有光泽,甜,小} • 模式间没有距离的概念 • 非度量方法
决策树
• 什么是决策树?
• 决策树是一种类似流程图的树形结构,每个内部节点表 示一个测试(查询),该节点的每个分支表示该测试的 一个结果,每个叶节点表示一个类别
[L. Breiman’s MLJ’01 paper “Random Forests”]
构造决策树
• 基本过程
• 从上到下,分而治之(divide-and-conquer),递归生 长
• 最初,所有的样本都在根节点 • 所有属性都是标称型的(如果是连续数值型的,则需要
预先离散化)
• 所有样本根据每次选择出的属性递归的逐渐划分开来
• 对N节点如何选择查询?
使不纯度下降最快的那个查询!
• 和 分别为左、右子节点
•
和
分别为左、右子节点的不纯度
• 是N节点的模式划分到 的比例
• 如果采用熵不纯度,则不纯度下降差就是本次查询所能提供的 信息增益(information gain)
信息增益
• 信息增益(information gain)
• 没有任何样本落入某一节点
该节点成为叶节点,类别标签为落入父节点的多数样本所属的类别
CART
• 分类和回归树(Classification And Regression Tree, CART)
• CART为通用的树生长算法框架,涉及如下问题:
• 属性的值是二值的还是多值的?即节点可以有几个分支? • 如何确定某节点处应该测试哪个属性? • 何时令某个节点为叶节点? • 如果树生长的过大,如何使其变小变简单,即如何剪枝? • 如果落入叶节点的样本不都属于同一类,如何给该叶节点赋类别
选择出来的属性称为一个划分(split)或测试(test)或查询 (query)
• 查询的选择基于启发式或者统计特征
构造决策树
• 基本过程
• 满足如下条件之一时,划分操作停止
• 所有落入某一节点的样本均属于同一类别
该节点成为叶节点,标记为该类别
• 没有特征能够进一步用于划分样本集
该节点成为叶节点,类别标签为落入该节点的多数样本所属的类别
分支数目
• 同一个节点分出去的分支的数目称为分支系数或 分支率(branching ratio)
• 任意决策树都可以用分支系数为2的决策树(即二 叉树)来表示
• 二叉树是最常用的决策树形式
分支数目
பைடு நூலகம்
分支数目
测试的选取
• 决策树设计的核心问题之一 • 基本思想:
使后继结点的数据尽可能的“纯粹” • 节点N的不纯度(impurity)i(N)
• 利用合取式和析取式获得某个类别的明确描述
• 苹果=(绿色 AND 中等大小)OR(红色 AND 中等大小)
• 分类速度快
• 只需一系列简单查询即可对模式的类别做出判断
• 可以很自然的嵌入专家的先验知识
决策树学习算法
• 决策树研究历史
• 第一个决策树算法称为CLS (Concept Learning System)
[L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone’s book “Classification and Regression Trees” published by Wadsworth in 1984]
• 基于决策树的集成学习算法:随机森林 (Random Forests)
• 当N节点上的所有模式都来自同一类时,i(N)=0; • 当N节点上的模式类别分布均匀时,i(N)应很大
测试的选取
• 常用不纯度度量
• 熵不纯度(entropy impurity)
P( j
)
属于
的样本个数
j
样本总个数
• Gini不纯度
• 误分类不纯度
测试的选取
• 常用不纯度度量
测试的选取
• 决策树的构成
• 根节点(root) • 分支(branch) • 叶节点(leaf)
决策树
决策树
• 决策树分类过程
• 从根节点开始,首先对某一属性的取值提问
• Color?
• 与根节点相连的不同分支,对应这个属性的不同取值
• green; yellow; red;
• 根据不同的回答,转向相应的分支
• :节点N上样本总个数
• :其中属于i 类的样本个数(i=1,2, …, m)
• :属性A的第j个取值(j=1,2, …, v)
• 该节点处的熵不纯度
E (S )
m i1
Si S
log2
Si S
• 属性A将S划分为v个子集 • 中属于i 类的样本个数为
信息增益
• 信息增益(information gain)
• green
• 在新到达的节点处做同样的分支判断
• Size? – big.
• 这一过程持续,直到到达某个叶节点,输出该叶节点的 类别标记
• Watermelon
决策树
• 决策树的判决面
决策树
• 决策树的优势
• 语义可表示性
• 从根节点到叶节点表示为合取式
• (颜色=黄)AND(形状=细长)
香蕉
• 最流行的决策树算法C4.5
[J. R. Quinlan’s book “C4.5: Programs for Machine Learning” published by Morgan Kaufmann in 1993]
决策树学习算法
• 决策树研究历史
• 通用的决策树算法CART (Classification and Regression Tree)
[E. B. Hunt, J. Marin, and P. T. Stone’s book “Experiments in Induction”published by Academic Press in 1966]
• 真正引发决策树研究热潮的算法是ID3
[J. R. Quinlan’s paper in a book “Expert Systems in the Micro Electronic Age” edited by D. Michie, published by Edinburgh University Press in 1979]
特征类型
• 数值数据(numerical data)
• 例:{1.2, 4.5, 3.3} • 模式间可以计算距离度量 • 基于度量的模式分类方法
• 标称数据 (nominal data)
• 例:{红色,有光泽,甜,小} • 模式间没有距离的概念 • 非度量方法
决策树
• 什么是决策树?
• 决策树是一种类似流程图的树形结构,每个内部节点表 示一个测试(查询),该节点的每个分支表示该测试的 一个结果,每个叶节点表示一个类别
[L. Breiman’s MLJ’01 paper “Random Forests”]
构造决策树
• 基本过程
• 从上到下,分而治之(divide-and-conquer),递归生 长
• 最初,所有的样本都在根节点 • 所有属性都是标称型的(如果是连续数值型的,则需要
预先离散化)
• 所有样本根据每次选择出的属性递归的逐渐划分开来
• 对N节点如何选择查询?
使不纯度下降最快的那个查询!
• 和 分别为左、右子节点
•
和
分别为左、右子节点的不纯度
• 是N节点的模式划分到 的比例
• 如果采用熵不纯度,则不纯度下降差就是本次查询所能提供的 信息增益(information gain)
信息增益
• 信息增益(information gain)
• 没有任何样本落入某一节点
该节点成为叶节点,类别标签为落入父节点的多数样本所属的类别
CART
• 分类和回归树(Classification And Regression Tree, CART)
• CART为通用的树生长算法框架,涉及如下问题:
• 属性的值是二值的还是多值的?即节点可以有几个分支? • 如何确定某节点处应该测试哪个属性? • 何时令某个节点为叶节点? • 如果树生长的过大,如何使其变小变简单,即如何剪枝? • 如果落入叶节点的样本不都属于同一类,如何给该叶节点赋类别
选择出来的属性称为一个划分(split)或测试(test)或查询 (query)
• 查询的选择基于启发式或者统计特征
构造决策树
• 基本过程
• 满足如下条件之一时,划分操作停止
• 所有落入某一节点的样本均属于同一类别
该节点成为叶节点,标记为该类别
• 没有特征能够进一步用于划分样本集
该节点成为叶节点,类别标签为落入该节点的多数样本所属的类别