决策树--PPT

合集下载

决策树算法(PPT36页)

决策树算法(PPT36页)
第七章 决策树和决策规则
本章目标 分析解决分类问题的基于逻辑的方法的特
性. 描述决策树和决策规则在最终分类模型中
的表述之间的区别. 介绍C4.5算法. 了解采用修剪方法降低决策树和决策规则
的复杂度.
决策树和决策规则是解决实际应用中分类 问题的数据挖掘方法。
一般来说,分类是把数据项映射到其中一 个事先定义的类中的这样一个学习函数的 过程。由一组输入的属性值向量(也叫属性 向量)和相应的类,用基于归纳学习算法得 出分类。
单按上面方式计算。下面先介绍一下C4.5 算法中一般包含3种类型的检验结构:
1.离散值的“标准”检验,对属性的每个可 能值有一个分枝和输出。
2.如果属性Y有连续的数值,通过将该值和阈 值Z比较,用输出Y≤Z和Y>Z定义二元检验。
3.基于离散值的更复杂的检验,该检验中属 性的每个可能值被分配到许多易变的组中, 每组都有一个输出和分枝。
7.2 C4.5算法:生成一个决策树
C4.5算法最重要的部分是由一组训练样本 生成一个初始决策树的过程。决策树可以 用来对一个新样本进行分类,这种分类从 该树的根节点开始,然后移动样本直至达 叶节点。在每个非叶决策点处,确定该节 点的属性检验结果,把注意力转移到所选 择子树的根节点上。
例如,如图7-3a为决策树分类模型,待分 类有样本如图7-3b所示,由决策树分类模 型可得出待分类样本为类2。(节点A,C,F(叶 节点))
=0.694
相应的增益: Gain(x1)=0.94-0.694=0.246
按属性3分区可得子集的熵的加权和:
infox2(T)=6/14(-3/6log2(3/6)-3/6log2(3/6)) +8/14(-6/8log2(6/8)-2/8log2(2/8))

人工智能之决策树ppt课件

人工智能之决策树ppt课件
分支
连接节点之间的路径,代表不同 的决策路径。
决策树学习算法分类
ID3算法
基于信息增益进行特征选择,适用于离散型特征。
C4.5算法
在ID3算法基础上进行改进,支持连续型特征处理, 引入剪枝技术防止过拟合。
CART算法
既可用于分类也可用于回归任务,基于基尼指数 进行特征选择,生成二叉树结构。
应用场景举例
提高泛化能力
02
剪枝后的决策树更加简洁,能够更好地适应新数据,提高模型
的泛化能力。
减少计算资源消耗
03
简化决策树结构可以降低模型训练和预测的计算复杂度,节省
计算资源。
预剪枝策略及实现方法
设定决策树生长的最大深度
在决策树生长过程中,限制其最大深度,防止 过深导致过拟合。
设定叶节点最小样本数
当某个节点的样本数小于设定值时,停止对该 节点的划分,将其作为叶节点。
利用统计学方法进行剪枝
基于统计学原理,对决策树节点进行假设检验,判断是否需要继续划分。
后剪枝策略及实现方法
错误率降低剪枝(Reduced-Error Prun…
自下而上地对决策树进行剪枝,如果剪去某个子树后,整体错误率降低,则进行剪枝。
代价复杂度剪枝(Cost-Complexity Pr…
引入代价复杂度参数,通过最小化整体代价(错误率与复杂度之和)来进行剪枝。
THANKS
感谢观看
集成学习方法在决策树中应用
Bagging方法
通过自助采样法生成多个数据集, 分别训练决策树模型,再对多个 模型的结果进行投票或平均,降 低模型方差。
Boosting方法
通过迭代训练多个弱分类器,将 每个弱分类器的结果加权求和, 得到强分类器,提高模型性能。

《决策树与随机森林》课件

《决策树与随机森林》课件

交叉验证
使用交叉验证来评估模型的泛化能力,以避 免过拟合。
随机森林的参数调整
1 2
决策树数量
调整决策树的数量,以找到最优的模型性能。
特征子集大小
调整在每一步分裂中选择的特征子集大小,以找 到最优的模型性能。
3
决策树深度
调整决策树的深度限制,以防止过拟合或欠拟合 。
05
决策树与随机森林的应用场景
分类问题
THANKS
感谢观看
随机森林的优缺点
可解释性强
每棵决策树都可以单独解释,有助于理解模型的工作原理。
鲁棒
对异常值和噪声具有较强的鲁棒性。
随机森林的优缺点
对参数敏感
随机森林中的参数如树的数量、特征选择比例等对模型性能影响较大。
可能产生过拟合
当数据集较小或特征过多时,随机森林可能产生过拟合。
04
随机森林算法
随机森林的生成
决策树的基本原理
特征选择
选择最能划分数据集的特征进行分裂,以减少决 策树的深度和复杂度。
剪枝
通过去除部分分支来降低过拟合的风险,提高模 型的泛化能力。
决策规则
将每个叶子节点映射到一个类别或值,根据该节 点所属类别或值进行预测。
决策树的优缺点
优点
易于理解和解释,分类效果好,对异常值和缺失值容忍度高 。
在构建每棵决策树时,随 机选择一部分特征进行划 分,增加模型的泛化能力 。
多样性
通过生成多棵决策树,增 加模型的多样性,降低过 拟合的风险。
集成学习
将多棵决策树的预测结果 进行汇总,利用投票等方 式决定最终输出,提高分 类任务的准确率。
随机森林的优缺点
高效
能够处理大规模数据集,计算效率高 。

决策树DecisionTree[1]

决策树DecisionTree[1]

PPT文档演模板
决策树DecisionTree[1]
例子:算法过程
1. samples = { 1,2,3,4,5,6,7,8,9,10 }
attribute_list = {Refund, MarSt, TaxInc }
假设选择Refund为最优分割属性:
Refund
Yes
No
2. samples = { 1,4,7 } attribute_list = { MarSt, TaxInc }
TaxInc
NO > 80K
NO
YES
PPT文档演模板
决策树DecisionTree[1]
Apply Model to Test Data
Test Data
Refund
Yes
No
NO
MarSt
Single, Divorced
Married
< 80K
TaxInc
NO > 80K
NO
YES
PPT文档演模板
决策树DecisionTree[1]
Apply Model to Test Data
Test Data
Refund
Yes
No
NO
MarSt
Single, Divorced
Married
< 80K
TaxInc
NO > 80K
NO
YES
Assign Cheat to “No”
PPT文档演模板
决策树DecisionTree[1]
Test Data
Refund
Yes
No
NO
MarSt
Single, Divorced

决策树ppt课件

决策树ppt课件
建设小工厂投资280万元,如销路好,3年后扩建,扩 建需要投资400万元,可使用7年,每年赢利190万元。 不扩建则每年赢利80万元。如销路不好则每年赢利60 万元。
试用决策树法选出合理的决策方案。 经过市场调查, 市场销路好的概率为0.7,销路不好的概率为0.3。
15
680万元 2
建大厂
该承包商过去也承包过与A、B类似的工程,根 据统计资料,每种方案的利润和出现的概率如 下表所示。投标不中时,则对A损失50万元, 对B损失100万元。根据上述情况,试画出决 策树
11
方案 A高 A低 B高 B低
效果
优 一般 赔 优 一般 赔 优 一般 赔 优 一般 赔
可能的利润(万元)
5000 1000 -3000 4000 500 -4000 7000 2000 -3000 6000 1000 -1000
10
例2
某承包商拥有的资源有限,只能在A和B两个工 程中选A或B进行投标,或者对这两项工程都不 参加投标。
但根据过去该承包商投标经验资料,他对A或B 投标又有两种策略:一种是投高标,中标的机会 是0.3;另一种是投低标,中标的机会是0.5。 这样共有A高、A低、不投、B高和B低五种方 案。
叫做方案枝; C、在每个方案枝的末端画一个圆圈,这个圆
圈称为概率分叉点,或自然状态点; D、从自然状态点引出代表各自然状态的分枝,
称为概率分枝; E、如果问题只需要一级决策,则概率分枝末
端画三角形,表示终点 。
3
1
决策 结点
概率分叉点
(自然状态点) 概率枝
方案分枝 2
概率枝
方案分枝
概率枝
益期望值分别为125、0、620和1100。 至此,承包商可做出决策,如投A工程,

决策树--PPT

决策树--PPT



非常好

11
老年


非常好

12
老年




13
老年




14
老年


非常好

15
老年


一般

1.2.2 信息增益
熵-就分类而言,所有成员都属于一类,熵为零;不同类别
数目相等,则熵等于1,类别数目不等,则熵介于0,1之间。
• 当随机变量只有两个值,例如1,0时,即X的分布为
P(X=1)=p , P(X=0)=1-p , 0<=p<=1.
• 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。
• 定义: = σ=1 = , = = , = 1,2, … , .
• 当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,
所对
应的熵分别称为经验熵和经验条件熵。
同时具有很好的泛化能力。
• 决策树学习的损失函数:(通常是)正则化的极大似然函
数。但是基于损失函数找到全局最优决策树是NP-完全问题。
• 现实中决策树学习通常采用启发式方法,即局部最优。
• 具体做法:每次选择feature时,都挑选择当前条件下最优
的那个feature作为划分规则,即局部最优的feature。



有工作


ID 年龄
信贷情



青年


13 老年


非常好

3

决策树ppt课件

决策树ppt课件
决策树在分类问题中应用
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。

风险型决策方法决策树方法课件

风险型决策方法决策树方法课件

易于更新和维护
随着环境和条件的变化,可以方 便地对决策树进行更新和维护。
01
直观易懂
决策树的结构类似于流程图,易 于理解,方便非专业人士参与决 策。
02
03
04
灵活性高
可以根据实际情况调整决策树的 结构,灵活应对不同的问题和场 景。
缺点分析
01
对数据要求高
决策树需要大量的历史数据作 为输入,且数据质量对结果影 响较大。
06
决策树的实践案例
投资决策案例
总结词
投资决策案例是决策树方法的重要实践领域,通过构建决策树模型,投资者可以对投资方案的风险和收益进行 全面评估,从而做出明智的决策。
详细描述
在投资决策案例中,决策树方法可以帮助投资者分析不同投资方案的风险和潜在收益。通过构建决策树模型, 投资者可以将各种可能出现的风险和收益情况考虑进来,并评估每种情况发生的概率。这种方法有助于投资者 制定更加科学、合理的投资策略,提高投资的成功率。
风险管理案例
总结词
风险管理是企业管理中的重要环节,通过构建决策树模型,企业可以对潜在的风险进行全面评估,从 而制定出更加有效的风险应对策略。
详细描述
在风险管理案例中,决策树方法可以帮助企业分析潜在的风险和可能的影响。通过构建决策树模型, 企业可以将各种可能出现的风险情况考虑进来,并评估每种情况发生的概率和影响程度。这种方法有 助于企制定更加科学、有效的风险应对策略,降低风险对企业的影响。
考虑多种因素
决策树可以综合考虑多种因素, 帮助决策者全面评估各种可能的 结果。
决策树的优点与局限性
• 可视化效果强:通过不同颜色的节点和分支,可以直观地 展示不同决策选项和结果之间的关系。
决策树的优点与局限性

决策树(完整)ppt课件

决策树(完整)ppt课件
Gain(D,密度,0.381)
是7 否
Ent(D)[147Ent(Dt)1173Ent(Dt)]
是8
0.263
;.
28
与离散属性不同,若当前结 点划分属性为连续属性,该连续属 性还可被再次选作后代结点的最优 划分属性。
选择“纹理”作为根结点划分属性
;.
29
现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。 出于成本和隐私的考虑
;.
30
1. 属性值缺失时,如何进行划分属性选择?(如何计算信息增益) 2. 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?
(对于缺失属性值的样本如何将它从父结点划分到子结点中)
D : D : 训练集
训练集中在属性a上没有缺失值的样本子集
D D v :
被属性a划分后的样本子集
D D k :
{8}和{10}同时进入三个分支中,权值分别为:
7,5,3 15 15 15
;.
36
每个属性
~
d个属性描述的样本
~
对样本分类
~
坐标空间中的一个坐标轴 d维空间中的一个数据点 在坐标空间中寻找不同类样本之间的分类边界
决策树形成的分类边界的明显特点:轴平行,分类边界由若干个与坐标轴平行的分段组 成。
优点:学习结果解释性强,每个划分都对应一个属性取值
;.
1
第4章 决策树
根据训练数据是否拥有标记信息
学习任务
监督学习(supervised learning)
无监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)

决策树基本概念教材模板ppt

决策树基本概念教材模板ppt
模型使用(分类阶段): 用于分类未知对象 评估模型的准确性 检验样本的已知标签与模型的分类结果比较 准确率是被模型正确分类的检验样本所占的百分比 检验集是独立于训练集的 (否则过分拟合) 如果准确性是可接受的,则使用模型来分类新的数据
4
监督和无监督学习
监督学习 (分类) 监督:提供了每个训练元组的类标号 即分类器的学习在被告知每个训练元组属于哪个类的 “监督”下进行的 新的数据基于训练集被分类
A是离散值的: 结点N的测试输出直接对应于A的已知值 A是连续值的: 结点N的测试有两个可能的输出,分别对应于条件
(Jeff, Professor, 4)
Tenured?
7
分类: 基本概念
分类: 基本概念 决策树 基于规则分类 贝叶斯分类方法 提高分类准确率的技术 小结
8
决策树
从有类标号的训练元组中学习决策树
树结构
每个内部结点(非树叶结点)表示在一个属性上的
测试
每个分枝代表该测试的一个输出
2
yes
Jim Associate Prof 7
yes
Dave Assistant Prof 6
no
Anne Associate Prof 3
no
学习:用分类算法分析训练数据
分类器 (模型)
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
每个树叶结点存放一个类标号
ห้องสมุดไป่ตู้的最顶层结点是根结点
如何使用决策树分类?
给定一个类标号未知的元组X,在决策树上测试该
元组的属性值。跟踪一条由根到叶结点的路径,该
叶结点就存放着该元组的类预测。

决策树课件PPT精品文档61页

决策树课件PPT精品文档61页
Clementine的决策树
主要内容
决策树算法概述 从学习角度看,决策树属有指导学习算法 目标:用于分类和回归
C5.0算法及应用 分类回归树及应用 CHAID算法及应用 QUEST算法及应用 模型的对比分析
决策树算法概述:基本概念
得名其分析结论的展示方式类似一棵倒置的树
C5.0算法:熵
例如:二元信道模型
P(u1|v1) P(u1|v2)
P P((u u2 2||vv12))P P 1 12 1P P 2 21 2
C5.0算法:熵
先验不确定性:通信发生前,信宿对信源的状态具 有不确定性
后验不确定性:通信发生后,信宿收到发自信源的 信息,先验不确定性部分被消除,信宿对信源仍有 一定程度的不确定性 后验不确定性等于先验不确定性,表示信宿没有 收到信息; 后验不确定性等于零,表示信宿收到了全部信息 信息是用来消除随机不确定性的,信息量的大小 可由所消除的不确定性大小来计量
C5.0算法:熵
信息熵是信息论(C.E.Shannon,1948)中的基本概 念。信息论主要用于解决信息传递过程中的问题 ,也称统计通信理论
信息论的基本出发点认为:
信息传递通过由信源、信道和信宿组成的传递 系统实现
信源(发送端) 信道
信宿(接收端)
C5.0算法:熵
信息论的基本出发点认为: 传递系统存在于一个随机干扰环境之中 将发送的信息记为U,接收的信息记为V,那么 信道可看作为信道模型,记为P(U|V)
决策树算法概述:核心问题
第一,决策树的生长 利用训练样本集完成决策树的建立过程
第二,决策树的剪枝 利用测试样本集对所形成的决策树进行精简
决策树算法概述:树生长

决策树

决策树
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节 点代表一种类别。
分类树(决策树)是一种十分常用的分类方法。它是一种监督学习,所谓监督学习就是给定一堆样本,每个 样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出 现的对象给出正确的分类。这样的机器学习就被称之为监督学习。
各点期望: 决策树分析 点②:0.7×200×10+0.3×(-40)×10-600(投资)=680(万元) 点⑤:1.0×190×7-400=930(万元) 点⑥:1.0×80×7=560(万元) 比较决策点4的情况可以看到,由于点⑤(930万元)与点⑥(560万元)相比,点⑤的期望利润值较大,因 此应采用扩建的方案,而舍弃不扩建的方案。把点⑤的930万元移到点4来,可计算出点③的期望利润值。 点③:0.7×80×3+0.7×930+0.3×60×(3+7)-280 = 719(万元) 最后比较决策点1的情况。
定义:
分类和回归首先利用已知的多变量数据构建预测准则,进而根据其它变量值对一个变量进行预测。在分类中, 人们往往先对某一客体进行各种测量,然后利用一定的分类准则确定该客体归属那一类。例如,给定某一化石的鉴 定特征,预测该化石属那一科、那一属,甚至那一种。另外一个例子是,已知某一地区的地质和物化探信息,预测该 区是否有矿。回归则与分类不同,它被用来预测客体的某一数值,而不是客体的归类。例如,给定某一地区的矿产 资源特征,预测该区的资源量。
决策树
预测学模型
01 组成
03 的剪枝 05 算法
目录
02 画法 04 优点 06 实例
基本信息
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大 于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种 决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属 性与对象值之间的一种映射关系。Entropy =系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。 这一度量是基于信息学理论中熵的概念。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
母亲:26。 女儿:长的帅不帅? (长相) 母亲:挺帅的。 女儿:收入高不? (收入情况) 母亲:不算很高,中等情况。 女儿:是公务员不? (是否公务员) 母亲:是,在税务局上班呢。 女儿:那好,我去见见。
1.1.2 决策树与if-then规则
• 由决策树的根结点到叶结点的每一条路径构建一条规则; • 路径上内部结点的特征对应着规则的条件,而叶结点的类对应着 规则的结论。 • If-then规则集合的一重要性质:互斥并且完备
• (3)否则,计算A中各特征对D的信息增益,选择信息增益最大的特征������������ ;
• (4)如果������������ 的信息增益小于阈值ε,则置T为单结点树,并将D中实例数最大的类������������ 作为该 结点的类标记,返回T; • (5)否则,对������������ 的每一个可能值������������ , 依������������ =������������ 将D分割为若干个非空子集������������ , 将������������ 中实例数最 大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T; • (6)对第������ 个子结点,以������������ 为训练集,以������ − {������������ }为特征集,递归地调用步(1)~(5),得到子树 ������������ , 返回������������ .
决策树学习算法的特点
决策树学习算法的最大优点是,它可以自学习。 在学习的过程中,不需要使用者了解过多背景知识, 只需要对训练实例进行较好的标注,就能够进行学习。 显然,它属于有监督学习。 从一类无序、无规则的事物(概念)中推理出决策树 表示的分类规则。
决策树学习的主要算法
建立决策树的关键,即在当前状态下选择哪个
������ ������=1 ������������ ������
������ ������ = ������������ , ������������ = ������ ������ = ������������ , ������ = 1,2, … , ������.
• 当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对 应的熵分别称为经验熵和经验条件熵。
������������ (������)
1.3 决策树的生成
1.3.1 ID3算法
• 输出:决策树T.
• (1)若D中所有实例属于同一类������������ , 则T为单结点树,并将类������������ 作为该结点的类标记,返回T; • (2)若A=Ø ,则T为单结点树,并将D中实例数最大的类������������ 作为该结点的类标记,返回T; • 输入:训练数据集D,特征集A,阈值ε;
信息增益
• 信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度。 • 定义5.2(信息增益)特征A对训练数据集D的信息增益g(D,A),定义为集 合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即 ������ ������, ������ = ������ ������ − ������(������|������)
ID
1 2 3 4 5 6 7 8 9
年龄
青年 青年 青年 青年 青年 中年 中年 中年 中年
有工作
否 否 是 是 否 否 否 是 否
有自己的 房子 否 否 否 是 否 否 否 是 是
信贷情况
一般 好 好 一般 一般 一般 好 好 非常好
类别
否 否 是 是 否 否 否 是 是
10
11 12 13
中年
例1.4 对表1.1的训练数据集,利用ID3算法建立决策树
青年
青年 青年 中年 中年 中年 中年 中年 老年 老年 老年

是 否 否 否 是 否 否 否 否 是

是 否 否 否 是 是 是 是 是 否

一般 一般 一般 好 好 非常好 非常好 非常好 好 好

是 否 否 否 是 是 是 是 是 是
14
������ ������, ������3 = 0.420 ������(������, ������4 )=0.363 15
• 1.1.1 决策树模型 • 1.1.2 决策树与if-then规则
• 1.1.3 决策树与条件概率分布 • 1.1.4 决策树学习
1.1.1 决策树模型
• 什么是决策树? • 定义1.1(决策树) 分类决策树模型是一种描述对 实例进行分类的树形结构。决策树由结点和有向边 组成。结点有两种类型:内部结点和叶节点。内部 结点表示一个特征或属性,叶节点表示一个类。
������=1 ������=1 ������=1
(3)计算信息增益 g(D,A)=H(D)-H(D|A)
ID
年龄
青年 青年
有工作
否 否
例1.3 对表1.1所给的训练数据集D, 根据信息增益准则选择最优特征。
有自己 的房子
否 否
信贷情 况
一般 好
类别
否 否
1 2
3
4 这里分别以A1,A2,A3,A4依次表示这四个 特性。 5 6 7 8 9 10 11 12 13
1.1.3 决策树与条件概率分布
将特征空间划分为互不相交的单元或区域,并在每个单元定义一个类的概 率分布就构成了一个条件概率分布。 各叶结点(单元)上的条件概率往往偏向某一个类,即属于某一类的概率较大, 决策树分类时将该结点的实例强行分到条件概率大的那一类去。
1.1.4 决策树学习
• 假设给定训练数据集 D= {(������1, ������1), (������2, ������2), … , (������������, ������������)} 其中,������������ = (������������ 1 , ������������ 2 , … , ������������(������) )������ 为输入实例,n为特征个数, ������������ ∈ 1,2,3, … , ������ 为类标记,������ = 1,2, … , ������,������为样本容量。 • 学习目标:根据给定的训练数据集构建一个决策树模型,使它能 够对实例进行正确的分类。 • 决策树学习本质:从训练数据集中归纳出一组分类规则。
������ ������=1
������������ = ������ .
设特征������有������个不同的取值{������1 ,������2 ,…,������������ }, 根据特征A的取值将D划分
������ ������=1
������������ = ������ .
记子集������������ 中属于类 ������������ 的样本的集合为 ������������������ , |������������������ |为 ������������������ 的样本个数。
属性作为分类依据。根据不同的目标函数,建立
决策树主要有一下三种算法。
ID3 (J. Ross Quinlan-1975)核心:信息熵
C4.5—ID3的改进,核心:信息增益比
CART(Breiman-1984),核心:基尼指数
例1. 找对象
• 决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这 个女孩介绍男朋友,于是有了下面的对话: • 女儿:多大年纪了? (年龄)
信息增益算法
• 输入:训练数据集D和特征A; • 输出:特征A对训练数据集D的信息增益g(D,A). • (1) 计算数据集D的经验熵H(D) ������ |������������ | |������������ | ������ ������ = − log 2 |������| |������|
1.1.4 决策树学习
• 目标:我们需要的是一个与训练数据矛盾较小的决策树,同时具 有很好的泛化能力。
• 决策树学习的损失函数:(通常是)正则化的极大似然函数。但 是基于损失函数找到全局最优决策树是NP-完全问题。 • 现实中决策树学习通常采用启发式方法,即局部最优。
• 具体做法:每次选择feature时,都挑选择当前条件下最优的那个 feature作为划分规则,即局部最优的feature。
����ቤተ መጻሕፍቲ ባይዱ�=1
(2)计算特征A对数据集D的经验条件熵H(D|A) ������ ������ ������ ������������ ������������ |������������������ | |������������������ | ������ ������ ������ = ������ ������������ = − log 2 ������ ������ |������������ | |������������ |
• 根据信息增益准则的特征选择方法是:对训练数据集(或子集)D, 计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大 的特征。
信息增益的具体公式
• 设训练数据集为D,|D|表示其样本容量,即样本个数。设有K个
类������������ ,k=1,2,…,K. |������������ |为属于类������������ 的样本个数, 为n个子集������1 , ������2 ,…,������������ , ������������ 为������������ 的样本个数,
老年
老年




非常好
一般


1.2.3 信息增益比
• 以信息增益作为划分训练数据集的特征,存在偏向于选择取值较 多的特征的问题。
• 定义5.3(信息增益比)特征A对训练数据集D的信息增益比 ������������ (������, ������)定义为其信息增益������(������, ������)与训练数据集D关于特征A的值 ������(������,������) 的熵������������ ������ 之比,即 ������������ ������, ������ =
相关文档
最新文档