决策树与随机森林

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

决策树与随机森林
决策树的实例(Weka自带测试数据)
PPT文档演模板
•注:Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非 商业化(与之对应的是SPSS公司商业数据挖掘产品-Clementine )的,基于JAVA环境下开源的机器学习 (machine learning)以及数据挖掘(data minining)软件。它 和它的源代码可在其官方网站下载。
PPT文档演模板
决策树与随机森林
信息增益的计算方法
o 计算数据集D的经验熵 o 计算特征A对数据集D的经验条件熵H(D|A) o 计算信息增益:g(D,A)=H(D) – H(D|A)
o I(X,Y)=D(P(X,Y) || P(X)P(Y))
PPT文档演模板
决策树与随机森林
计算H(X)-I(X,Y)
PPT文档演模板
决策树与随机森林
整理得到的等式
o H(X|Y) = H(X,Y) - H(Y) n 条件熵定义
o H(X|Y) = H(X) - I(X,Y) n 根据互信息定义展开得到 n 有些文献将I(X,Y)=H(Y) – H(Y|X)作为互信息的定义式
决策树与随机森林
复习:熵
o 将离散随机变量X的概率分布为P(X=xi),则定义熵 为:
o 若P为连续随机变量,则概率分布变成概率密度函 数,求和符号变成积分符号。
o 在不引起混淆的情况下,下面谈到的“概率分布函 数”,其含义是:
n 1、若X为离散随机变量,则该名称为概率分布函数;
n 2、若X为连续随机变量,则该名称为概率密度函数。
PPT文档演模板
决策树与随机森林
信息增益
o 概念:当熵和条件熵中的概率由数据估计(特别是 极大似然估计)得到时,所对应的熵和条件熵分别 称为经验熵和经验条件熵。
o 信息增益表示得知特征A的信息而使得类X的信息 的不确定性减少的程度。
o 定义:特征A对训练数据集D的信息增益g(D,A), 定义为集合D的经验熵H(D)与特征A给定条件下D 的经验条件熵H(D|A)之差,即:
n g(D,A)=H(D) – H(D|A) n 显然,这即为训练数据集D和特征A的互信息。
PPT文档演模板
决策树与随机森林
基本记号
o 设训练数据集为D,|D|表示其容量,即样本 个数。设有K个类Ck,k=1,2,…,K,|Ck|为属 于类Ck的样本个数。Σk|Ck|=|D|。设特征A有 n个不同的取值{a1,a2…an},根据特征A的取 值将D划分为n个子集D1,D2,…Dn,|Di|为Di的 样本个数,Σi|Di|=D。记子集Di中属于类Ck 的样本的集合为Dik,|Dik|为Dik的样本个数。
强大的Venn图:帮助记忆
PPT文档演模板
决策树与随机森林
决策树示意图
PPT文档演模板
决策树与随机森林
决策树 (Decision Tree)
o 决策树是一种树型结构,其中每个内部结点 表示在一个属性上的测试,每个分支代表一 个测试输出,每个叶结点代表一种类别。
o 决策树学习是以实例为基础的归纳学习。 o 决策树学习采用的是自顶向下的递归方法,
决策树与随机森林
PPT文档演模板
2020/11/10
决策树与随机森林
目标任务与主要内容
o 复习信息熵
n 熵、联合熵、条件熵、互信息
o 决策树学习算法
n 信息增益 n ID3、C4.5、CART
o Bagging与随机森林的思想
n 投票机制
o 分类算法的评价指标
n ROC曲线和AUC值
PPT文档演模板
n 显然,属于有监督学习。 n 从一类无序、无规则的事物(概念)中推理出决策
树表示的分类规则。
PPT文档演模板
决策树与随机森林
决策树学习的生成算法
o 建立决策树的关键,即在当前状态下选择哪 个属性作为分类依据。根据不同的目标函数, 建立决策树主要有一下三种算法。
n ID3 n C4.5 n CART
o 条件熵H(X|Y) = H(X,Y) – H(Y)
PPT文档演模板
决策树与随机森林
推导条件熵的定义式
PPT文档演模板
决策树与随机森林
相wenku.baidu.com熵
o 相对熵,又称互熵,交叉熵,鉴别信息,Kullback 熵,Kullback-Leible散度等
o 设p(x)、q(x)是X中取值的两个概率分布,则p对q的 相对熵是
o 说明:
n 相对熵可以度量两个随机变量的“距离” o 在“贝叶斯网络”、“变分推导”章节使用过
n 一般的,D(p||q) ≠D(q||p) n D(p||q)≥0、 D(q||p) ≥0 提示:凸函数中的Jensen不等式
PPT文档演模板
决策树与随机森林
互信息
o 两个随机变量X,Y的互信息,定义为X,Y 的联合分布和独立分布乘积的相对熵。
PPT文档演模板
决策树与随机森林
对熵的理解
o 熵是随机变量不确定性的度量,不确定性越 大,熵值越大;若随机变量退化成定值,熵 为0
n 均匀分布是“最不确定”的分布
o 熵其实定义了一个函数(概率分布函数)到一 个值(信息熵)的映射。
n P(x)H (函数数值) n 泛函
o 回忆一下关于“变分推导”章节中对于泛函的内容。
PPT文档演模板
决策树与随机森林
联合熵和条件熵
o 两个随机变量X,Y的联合分布,可以形成 联合熵Joint Entropy,用H(X,Y)表示
o H(X,Y) – H(Y)
n (X,Y)发生所包含的信息熵,减去Y单独发生包 含的信息熵——在Y发生的前提下,X发生“新” 带来的信息熵
n 该式子定义为Y发生前提下,X的熵:
o 对偶式 n H(Y|X)= H(X,Y) - H(X) n H(Y|X)= H(Y) - I(X,Y)
o I(X,Y)= H(X) + H(Y) - H(X,Y) n 有些文献将该式作为互信息的定义式
o 试证明:H(X|Y) ≤H(X) ,H(Y|X) ≤H(Y)
PPT文档演模板
决策树与随机森林
其基本思想是以信息熵为度量构造一棵熵值 下降最快的树,到叶子节点处的熵值为零, 此时每个叶节点中的实例都属于同一类。
PPT文档演模板
决策树与随机森林
决策树学习算法的特点
o 决策树学习算法的最大优点是,它可以自学 习。在学习的过程中,不需要使用者了解过 多背景知识,只需要对训练实例进行较好的 标注,就能够进行学习。
相关文档
最新文档