决策树算法(PPT36页)
决策树分析方法ppt
全局最优
通过剪枝等技术来优化决 策树,以获得全局最优解 (最小损失函数值)。
决策树的预测原理
特征选择
使用训练好的决策树模型对新 的样本进行预测时,需要根据 模型中保存的特征选择规则进
行预测。
路径搜索
从根节点开始,根据模型中保存 的分裂准则和分裂点信息,沿着 树结构向下搜索,直到到达叶子 节点或无法继续分裂的节点。
CART算法步骤
划分数据集、对每个属性计算其划分能力、选择划分能力最大的属性、生成决策 节点、递归生成决策树。
随机森林算法
随机森林算法原理
基于多棵决策树的投票策略,通过训练多棵决策树,然后对 结果进行投票,以得到更加准确的结果。
随机森林算法步骤
数据集随机化、生成多棵决策树、对结果进行投票、选择票 数最多的结果作为输出。
01
02
03
04
总结词:差异对比、应用场景
线性回归是一种基于因变量和 一个或多个自变量之间关系的 预测模型,通常适用于连续目 标变量。
决策树是一种基于自上而下的 贪心搜索算法,将数据集划分 成若干个不相交的子集,每个 子集对应一个决策节点,从而 形成一棵树状结构。
在回归问题上,决策树不如线 性回归表现稳定,但在分类问 题上,决策树表现更优秀,可 以很好地处理非线性关系和异 常值。
C4.5算法
C4.5算法原理
在ID3算法的基础上,增加了剪枝、处理缺失值和连续属性等处理,以得到 更加准确的决策树。
C4.5算法步骤
计算各个属性的信息增益率、选择信息增益率最大的属性、生成决策节点、 递归生成决策树、剪枝处理。
CART算法
CART算法原理
基于二叉树的贪心策略,将数据集划分为两个子集,然后对每个子集递归生成决 策树。
决策树--PPT
1.1.2 决策树与if-then规则
• 由决策树的根结点到叶结点的每一条路径构建一条规则; • 路径上内部结点的特征对应着规则的条件,而叶结点的类对应着 规则的结论。 • If-then规则集合的一重要性质:互斥并且完备
• (3)否则,计算A中各特征对D的信息增益,选择信息增益最大的特征������������ ;
• (4)如果������������ 的信息增益小于阈值ε,则置T为单结点树,并将D中实例数最大的类������������ 作为该 结点的类标记,返回T; • (5)否则,对������������ 的每一个可能值������������ , 依������������ =������������ 将D分割为若干个非空子集������������ , 将������������ 中实例数最 大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T; • (6)对第������ 个子结点,以������������ 为训练集,以������ − {������������ }为特征集,递归地调用步(1)~(5),得到子树 ������������ , 返回������������ .
决策树学习算法的特点
决策树学习算法的最大优点是,它可以自学习。 在学习的过程中,不需要使用者了解过多背景知识, 只需要对训练实例进行较好的标注,就能够进行学习。 显然,它属于有监督学习。 从一类无序、无规则的事物(概念)中推理出决策树 表示的分类规则。
决策树学习的主要算法
建立决策树的关键,即在当前状态下选择哪个
决策树ID3算法ppt课件
决策树基本概念
决策树的优点
1、推理过程容易理解,决策推理过程可以表示成If Then形式;
2、推理过程完全依赖于属性变量的取值特点;
3、可自动忽略目标变量没有贡献的属性变量,也为判断属性 变量的重要性,减少变量的数目提供参考。
第6章 决策树 在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确
第6章 决策树
关于分类问题
决策树基本概念
名称 人类
体温 恒温
表皮覆 盖
毛发
胎生 是
水生动 物
否
飞行动 物
否
有腿 是
冬眠 否
海龟 冷血 鳞片
否
半
否
是
否
鸽子 恒温 羽毛
否
否
是
是
否
鲸
恒温 毛发
是
是
否
否
否
X
分类与回归 分类目标属性y是离散的,回归目标属性y是连续的
类标号
哺乳动 物
爬行类 鸟类 哺乳类
y
在整堂课的教学中,刘教师总是让学 生带着 问题来 学习, 而问题 的设置 具有一 定的梯 度,由 浅入深 ,所提 出的问 题也很 明确
第6章 决策树 在整堂课的教学中,刘教师总是让学生带着问题来学习,而问题的设置具有一定的梯度,由浅入深,所提出的问题也很明确
决策树基本概念
关于归纳学习(2)
归纳学习的过程就是寻找一般化描述的过程。这种一般性 描述能够解释给定的输入数据,并可以用来预测新的数据。
锐角三角形内角和等于180度; 钝角三角形内角和等于180度; 直角三角形内角和等于180度;
1、模型构建(归纳) 通过对训练集合的归纳,建立分类模型。
决策树ppt课件
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。
决策树ppt
三 实例
决策树算法
2.条件熵计算 ui ui H(U V) P(v ) P( ) log P( 条件熵: j vj 2 vj)
j i
P( ) 属性A1取值vj时,类别ui的条件概率: v v A1=天气的取值:v1=晴,v2=多云,v3=雨 在A1处取值“晴”的例子5个,取值“多云” 的例子4个,取值“雨”的例子5个,故:
决策树简介
划分数据集的大原则就是将无序的 数据变得更加有序。
划分数据集前后信息发生的变化成 为信息增益。
决策树简介
集合信息的度量方式称为香农熵 (熵)
H(U)=- P(u i )log 2 P(u i )
条件熵
H(U V) P(v j ) P(
j i
ui
vj
) log 2 P(
ui
果
—60
A2
状 态
结
0.3
120
点
30
决策树简介
状 态 决策 状 态
代表备选方案 的 经济效果
结
将 每个方案 在 各种 自然状态下 取得的 损益值 标注于 结果节点 的 右端
果
结
最后选择 的 最佳方案
点
决策树简介
决策树的一般流程: (1)收集数据 (2)准备数据 (3)分析数据 (4)训练算法 (5)测试算法 (6)使用算法
某天早晨气候描述为:天气-多云;气温-冷; 湿度-正常;风-无风。 它属于哪类气候呢?要解决这个问题,需要用某 个原则来判定,这个原则来自于大量的实际例子, 从例子中总结出原则,有了原则就可以判定任何 一天的气候了。 每个实体在世界中属于不同的类别,为简单起见, 假定仅有两个类别,分别为P、N。在这种两个类 别的归纳任务中,P类和N类的实体分别称为概念 的正例和反例。将一些已知正例和反例放在一起 便得到训练集。
决策树法PPT课件
• 它以决策结点为出发点,引出若干方案分枝、每条
方案分枝代表一个方案,方案分枝末端是一个状态
结点,状态结点后引出若干概率分枝,每条概率分
枝代表一种自然状态,概率分枝上标明每种状态的
概率和损益值。这样从左往右,层层展开,形如树
状,由此得名决策树.
2021/6/16
3
•计算期望值
•将各自然状况的概率及损益值标于概率 分枝上,计算时要按照决策树图从右至
决策树法是风险性决策的常用方法
●风险型决策,是根据预测各种事件可能发生的先验 概率,然后再采用期望效果最好的方案作为最优决策 方案.
●其特点是已知方案的各种可能状态及其发生的可能 性大小。而决策的标准是期望值。因此决策树法是 风险性决策的常用方法。
2021/6/16
1
◎决策树法
●决策树分析法是一种运用概率与图论中的树对决策中的不同 方案进行比较,从而获得最优方案的风险型决策方法。
●其实剪枝的准则是如何确定决策树的规模,可以参考的剪枝思路有以 下几个: 1:使用训练集合(Training Set)和验证集合(Validation Set),来评估 剪枝方法在修剪结点上的效用 2:使用所有的训练集合进行训练,但是用统计测试来估计修剪特定结 点是否会改善训练集合外的数据的评估性能,如使用Chi-Square (Quinlan ,1986)测试来进一步扩展结点是否能改善整个分类数据 的性能,还是仅仅改善了当前训练集合数据上的性能。 3:使用明确的标准来衡量训练样例和决策树的复杂度,当编码长度最 小时,停止202树1/6/1增6 长,如MDL(Minimum Description Lengt7h)准则。
左依次进行,最后将期望值标于该方案 对应的状态结点上。
决策树(完整)ppt课件
是7 否
Ent(D)[147Ent(Dt)1173Ent(Dt)]
是8
0.263
;.
28
与离散属性不同,若当前结 点划分属性为连续属性,该连续属 性还可被再次选作后代结点的最优 划分属性。
选择“纹理”作为根结点划分属性
;.
29
现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。 出于成本和隐私的考虑
;.
30
1. 属性值缺失时,如何进行划分属性选择?(如何计算信息增益) 2. 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
(对于缺失属性值的样本如何将它从父结点划分到子结点中)
D : D : 训练集
训练集中在属性a上没有缺失值的样本子集
D D v :
被属性a划分后的样本子集
D D k :
{8}和{10}同时进入三个分支中,权值分别为:
7,5,3 15 15 15
;.
36
每个属性
~
d个属性描述的样本
~
对样本分类
~
坐标空间中的一个坐标轴 d维空间中的一个数据点 在坐标空间中寻找不同类样本之间的分类边界
决策树形成的分类边界的明显特点:轴平行,分类边界由若干个与坐标轴平行的分段组 成。
优点:学习结果解释性强,每个划分都对应一个属性取值
;.
1
第4章 决策树
根据训练数据是否拥有标记信息
学习任务
监督学习(supervised learning)
无监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)
第四章-决策树PPT课件
34
可解释性
➢ 决策边界是平行坐标轴的 ➢ 对于过于复杂的问题,会导致很多小的划分
35
总结
优点
生成可理解的规则
分类时计算代价很小
能够选出对分类比较重要的属性
对长方形分布的样本处理很好
缺点
+++----------------+++----------------+++--------+++-------- ++++++++---++++++++------++++++++------+++++++++++++++----+++----++++----+++----+++++++----++++
纹理(15个样本) :{1, 2, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17} 稍糊(5个样本): {7,9,13,14,17} 清晰(7个样本): {1,2,3,4,5,6,15} 模糊(3个样本): {11,12,16} 缺失纹理属性取值的样本:{8,10}
• Wikipedia page for decision tree: /wiki/Decision_tree_learning
决策树ppt课件
试用决策树法选出合理的决策方案。 经过市场调查, 市场销路好的概率为0.7,销路不好的概率为0.3。
15
680万元 2
建大厂
该承包商过去也承包过与A、B类似的工程,根 据统计资料,每种方案的利润和出现的概率如 下表所示。投标不中时,则对A损失50万元, 对B损失100万元。根据上述情况,试画出决 策树
11
方案 A高 A低 B高 B低
效果
优 一般 赔 优 一般 赔 优 一般 赔 优 一般 赔
可能的利润(万元)
5000 1000 -3000 4000 500 -4000 7000 2000 -3000 6000 1000 -1000
10
例2
某承包商拥有的资源有限,只能在A和B两个工 程中选A或B进行投标,或者对这两项工程都不 参加投标。
但根据过去该承包商投标经验资料,他对A或B 投标又有两种策略:一种是投高标,中标的机会 是0.3;另一种是投低标,中标的机会是0.5。 这样共有A高、A低、不投、B高和B低五种方 案。
叫做方案枝; C、在每个方案枝的末端画一个圆圈,这个圆
圈称为概率分叉点,或自然状态点; D、从自然状态点引出代表各自然状态的分枝,
称为概率分枝; E、如果问题只需要一级决策,则概率分枝末
端画三角形,表示终点 。
3
1
决策 结点
概率分叉点
(自然状态点) 概率枝
方案分枝 2
概率枝
方案分枝
概率枝
益期望值分别为125、0、620和1100。 至此,承包商可做出决策,如投A工程,
决策树算法演示文稿
益比率,以保证选择的划分使得增益最大。
第9章 决策树算法
28 第28页,共65页。
9.2.2.3 C4.5对缺失数据的处理
为了评估属性A是否是决策节点n的最佳测试属性,要计算决策树 在该节点的信息增益Gain(D,A)。假定< , c( )>是S中di的一d个i 训
将要介绍的算法的共同点也是在于都是利 用了相同的属性度量标准Gini指标。
第9章 决策树算法
31 第31页,共65页。
9.2.3 CART算法
Gini指标主要是度量数据划分或训练数据 集D的不纯度为主,系数值的属性作为测试 属性,Gini值越小,表明样本的“纯净度” 越高。Gini指标定义为如下公式:
6 第6页,共65页。
9.1 决策树算法原理
定义 9.1 给定一个训练数据集D=,其中每 个实例,称为例子,训练数据集中包含以 下属性A=。同时给定类别集合C。对于训 练数据集D,决策树是指具有以下性质的树:
每个内部节点都被标记一个属性Ai。
每个弧都被标记一个值,这个值对应于相 应父结点的属性。
9.2.2.1 C4.5的分裂属性选择度量
为了避免这个偏置,弥补ID系列算法的不足就要舍弃
信息增益这个度量而选择别的决策属性作为度量标准。
Quinlan在他1986年中的论文中提出了一种可以使用 的度量标准:增益比率。
增益比率通过加入一个被称为分裂信息(split information)的项来惩罚类似Date这样的属性,分
第9章 决策树算法
19 第19页,共65页。
9.2.1 ID3算法
I ( p, n)
p p n log2
《决策树算法》课件
决策树算法的优缺点
优点
决策树算法具有直观易懂、分类效果好、易于理解和解释等优点。它能够处理 非线性关系和连续属性,对数据预处理要求较低,且能够处理缺失值和异常值 。
习竞赛中都取得了优异的成绩。
05
决策树算法的应用案例
分类问题案例
信用卡欺诈识别
利用决策树算法对信用卡交易数据进 行分析,识别出异常交易,预防欺诈 行为。
疾病诊断
根据患者的症状、体征等数据,利用 决策树算法进行分类,辅助医生做出 准确的疾病诊断。
回归问题案例
要点一
股票价格预测
利用历史股票数据,通过决策树回归算法预测未来股票价 格走势。
03
决策树算法的实践
数据集的准备
数据清洗
处理缺失值、异常值和重复数据,确保数据质量 。
数据转换
对连续型特征进行分箱处理,将连续值划分为离 散区间。
ABCD
特征选择
选择与目标变量相关的特征,去除无关或冗余特 征。
数据平衡
处理类别不均衡问题,通过过采样、欠采样或使 用合成数据来平衡各类别的样本数量。
数据挖掘
决策树算法是数据挖掘领域中常用的算法之一,常与其他 算法结合使用,如随机森林、梯度提升决策树等,以提高 分类和回归任务的准确性和稳定性。
回归任务
除了分类任务外,决策树算法也可用于回归任务,如预测 房价、股票价格等连续值。通过构建回归决策树模型,可 以对连续目标变量进行预测。
可解释性
由于决策树算法具有直观的树形结构和易于理解的规则, 因此在某些需要解释性强的场景中具有优势,如医疗诊断 、金融风控等领域。
决策树演示报告PPT
决策树
THANKS
For Your Attention
决策树
CONTENTES
目录
01 决策树 02 决策树算法讲解 03 决策树算法推演 04 总结
决策树
01 决策树
决策树
基础概念
分类 问题
通过一条数据的属性来 预测这条数据的类别的 问题。
决策树
训练集
训练集用来估计模型, 训练模型时使用。
测试集
测试集则检验最终选择 最优模型的性能如何
示例:判断出喜欢打篮球的人?
决策树
决策树
决策树
是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代 表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗 由多个判断节点组成的树。
02 决策树算法讲解
决策树
ID3算法
决策树
ID3算法
是决策树的一种,它是基于奥卡姆剃刀原理,即尽量用较少的东西 做更多的事。ID3算法,迭代二叉树3代,是Ross Quinlan发明的一 种决策树算法,这个算法的基础就是上面提到的奥卡姆剃刀原理, 越是小型的决策树越优于大的决策树,尽管如此,也不总是生成最 小的树型结构,而是一个启发式算法。
2.利用已经建立完成的决策树模型对数据集进行分类。即对未知的数据 集元组从根节点依次进行决策树的游历,通过一定的路径游历至某叶子 节点,从而找到该数据元组所在的类或类的分布。
01 手动推演 02 OCTAVE实现 03 Python实现
决策树
决策树
决策树
决策树
决策树
决策树
结论
决策树优点
核心思想
决策树算法
决策树决策树(Decision Tree)是一种基于树状结构的机器学习算法,用于进行分类和回归任务。
它是一种监督学习方法,通过学习从输入特征到输出标签的映射关系,可以对新样本进行预测。
在决策树中,每个内部节点表示一个特征或属性,每个分支代表一个特征的取值,而每个叶节点表示一个类别标签或回归值。
决策树的构建过程是递归的,通过对训练数据进行递归划分,每次选择最佳的特征和划分方式来构建树。
决策树的构建过程可以根据不同的算法和策略进行,其中常见的算法包括ID3(Iterative Dichotomiser 3)、C4.5、CART(Classification and Regression Trees)等。
这些算法在选择最佳划分特征时使用了不同的准则,如信息增益、基尼系数等。
决策树具有以下特点和优势:1. 可解释性:决策树的结构清晰,易于理解和解释,可以显示特征的重要性和决策过程。
2. 适应多类别问题:决策树可以处理多类别分类问题,并且可以处理离散特征和连续特征。
3. 鲁棒性:决策树对异常值和缺失数据具有一定的鲁棒性,可以处理不完整的数据。
4. 特征选择:决策树可以通过特征选择来确定最重要的特征,帮助进行特征工程和数据理解。
然而,决策树也存在一些限制和注意事项:1. 容易过拟合:决策树容易在训练数据上过拟合,导致在新数据上的泛化性能下降。
可以通过剪枝等方法来缓解过拟合问题。
2. 不稳定性:决策树对输入数据的小变化敏感,因此对于数据的噪声和不稳定性较高的情况下,可能会产生不稳定的结果。
3. 数据平衡:决策树对于数据不平衡的情况下,可能会倾向于选择具有更多样本的类别。
决策树是一种常见且强大的机器学习算法,它在实际应用中被广泛使用,包括医学诊断、金融风险评估、客户分类等领域。
同时,决策树也可以与集成学习方法(如随机森林、梯度提升树)相结合,进一步提升预测性能。
决策树介绍ppt-Decision Tree
Lorem ipsum dolor sit amet?
Lorem ipsum dolor sit
YES
amet, consectetuer adipiscing elit.
Lorem ipsum dolor sit
NO
amet, consectetuer
adipiscing elit.
Lorem ipsum dolor sit
lectus malesuada libero.
NO
Lorem ipsum dolor
sit amet, consec
tetuer
YES
Lorem ipsum dolor
NO
Lorem ipsum dolor sit amet, consectetuer
adipiscing elit. Maecenas
Lorem ipsum
Lorem ipsum dolor sit amet, consectetuer adipiscing elit.
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Maecenas porttitor congue massa. Fusce posuere, magna sed pulvinar ultricies, purus lectus malesuada libero, sit amet commodo.
porttitor congue massa.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Maecenas porttitor congue massa.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本章目标 分析解决分类问题的基于逻辑的方法的特
性. 描述决策树和决策规则在最终分类模型中
的表述之间的区别. 介绍C4.5算法. 了解采用修剪方法降低决策树和决策规则
的复杂度.
决策树和决策规则是解决实际应用中分类 问题的数据挖掘方法。
一般来说,分类是把数据项映射到其中一 个事先定义的类中的这样一个学习函数的 过程。由一组输入的属性值向量(也叫属性 向量)和相应的类,用基于归纳学习算法得 出分类。
单按上面方式计算。下面先介绍一下C4.5 算法中一般包含3种类型的检验结构:
1.离散值的“标准”检验,对属性的每个可 能值有一个分枝和输出。
2.如果属性Y有连续的数值,通过将该值和阈 值Z比较,用输出Y≤Z和Y>Z定义二元检验。
3.基于离散值的更复杂的检验,该检验中属 性的每个可能值被分配到许多易变的组中, 每组都有一个输出和分枝。
7.2 C4.5算法:生成一个决策树
C4.5算法最重要的部分是由一组训练样本 生成一个初始决策树的过程。决策树可以 用来对一个新样本进行分类,这种分类从 该树的根节点开始,然后移动样本直至达 叶节点。在每个非叶决策点处,确定该节 点的属性检验结果,把注意力转移到所选 择子树的根节点上。
例如,如图7-3a为决策树分类模型,待分 类有样本如图7-3b所示,由决策树分类模 型可得出待分类样本为类2。(节点A,C,F(叶 节点))
=0.694
相应的增益: Gain(x1)=0.94-0.694=0.246
按属性3分区可得子集的熵的加权和:
infox2(T)=6/14(-3/6log2(3/6)-3/6log2(3/6)) +8/14(-6/8log2(6/8)-2/8log2(2/8))
=0.892
相应的增益: Gain(x2)=0.94-0.892=0.048 由于属性2是数值型的连续数据,不能简
3. 到达决策树的叶节点的每条路径表示一个 分类规则。
该算法的关键性决策是对节点属性值的选 择。ID3和C4.5算法的属性选择的基础是基 于使节点所含的信息熵最小化。
基于信息论的方法坚持对数据库中一个样 本进行分类时所做检验的数量最小。ID3的 属性选择是根据一个假设,即:决策树的 复杂度和所给属性值表达的信息量是密切 相关的。基于信息的试探法选择的是可以 给出最高信息的属性,即这个属性是使样 本分类的结果子树所需的信息最小。
分区所对应的信息增益:
Gain( X ) info(T ) infox (T )
上式度量了按照检验X进行分区的T所得到 的信息。该增益标准选择了使Gain(X)最大 化的检验X,即此标准选择的具有最高增益 的那个属性。
例如:给定训练样本如表7-1,14个样本, 3个属性,分为两个类。
9个样本属于类1,5个属于类2,因此分区 前的熵为(基于类的熵计算)
3. T包含属于不同类的样本。这种情况 下,是把T精化成朝向一个单类样本 集的样本子集。根据某一属性,选择 具有一个或更多互斥的输出 {O1,O2,…,On}的合适检验。T被分区 成子集T1,T2,…,Tn。T的决策树包含标 识检验的一个决策点和每个可能输出 的一个分枝(如图7-3a中的A,B和C节 点)
info(T)=-9/14log2(9/14)-5/14log2(5/14)
=0.940
按属性1分区可得子集的熵的加权和:
infox1(T)=5/14(-2/5log2(2/5)-3/5log2(3/5)) +4/14(-4/4log2(4/4)-0/4log2(0/4)) +5/14(-3/5log2(3/5)-2/5log2(2/5))
集合S的期望信息(熵)如下:
k
info(S ) (( freg (Ci , S ) / S ) log 2 ( freg (Ci , S) / S )) i 1
T被分区之后的一个相似度标准,T按照一 个属性检验X的几个输出进行分区。所需信 息为子集的熵的加权和:
n
infox (T ) ( Ti / T ) info(Ti )) i 1
决策树包含属性已被检验的节点,一个节 点的输出分枝和该节点的所有可能的检验 结果相对应。
图7-2是一个简单的决策树。该问题有两个 属性X,Y。所有属性值X>1和Y>B的样本属 于类2。不论属性Y的值是多少,值X <1的 样本都属于类1。
对于树中的非叶节点,可以沿着分枝 继续分区样本,每一个节点得到它相 应的样本子集。
假设选择有n个输出(所给属性的n个
值)的检验,把训练样本集T分区成子
集T1,T2,…,Tn。仅有的指导信息是在T 和它的子集Ti中的类分布。
如果S是任意样本集,设freq(Ci,S)代 表S中属于Ci的样本数量,|S|表示集 合S中的样本数量。
ID3算法的属性选择的检验方法采用增益标 准,它基于信息论中熵的概念。
学习的目标是构建一个分类模型,通常也 叫分类器。它可以根据有效的属性输入值 预测一些实体(所给样本)的类。是一个在样 本其他属性已知的情况下预测另外一个属 性(样本的类)的模型(分类成分类器的一个特别有效的方 法是生成一个决策树。它是一种基于逻辑 的方法,通过一组输入-输出样本构建决策 树的有指导学习方法。
生成决策树的一个著名的算法是 Quinlan的ID3算法,C4.5是它改进版。
ID3算法的基本思路:
1. 从树的根节点处的所有训练样本开始,选 取一个属性来划分这些样本。对属性的每 一个值产生一分枝。分枝属性值的相应样 本子集被移到新生成的子节点上。
2. 这个算法递归地应用于每个子节点,直到 一个节点上的所有样本都分区到某个类中。
C4.5算法的构架是基于亨特的CLS方法, 其通过一组训练样本T构造一个决策树。 用{C1,C2,…,CK}来表示这些类,集合T所含 的内容信息有3种可能性:
1. T包含一个或更多的样本,全部属于单个 的类Cj。那么T的决策树是由类Cj标识的一 个叶节点。
2. T不包含样本。决策树也是一个叶,但和 该叶关联的类由不同于T的信息决定,如T 中的绝大多数类。