项目6决策树和决策规则
决策树
Power BI 提供了强大的数据可 视化功能,可以轻松地创建和 共享决策树图表。它支持多种 数据源,并具有高度的自定义 性和交互性。
02
Tableau
Tableau 是一款功能强大的数 据可视化工具,也支持决策树 的可视化。它提供了丰富的图 表类型和可视化选项,以及强 大的数据分析和挖掘功能。
佳的过拟合现象。
提高泛化能力
剪枝后的决策树结构更为简洁,有 助于提高模型在新数据上的泛化能 力。
减少计算资源消耗
简化决策树结构可以降低模型训练 和预测的计算复杂度,节省计算资 源。
预剪枝策略及实现
设定决策树生长的最大深度
01
在决策树生长过程中,限制树的最大深度,防止树生长过于庞
大。
设定叶节点最小样本数
代价复杂性剪枝(Cost-Complexity Pr…
引入一个代价复杂性参数,通过最小化代价复杂性函数来实现剪枝,该函数权衡了模型复杂度与 训练误差。
最小描述长度剪枝(Minimum Descripti…
基于信息论原理,通过最小化描述决策树所需的编码长度来实现剪枝。
剪枝效果评估方法
交叉验证
将数据集划分为训练集和验证集,使用训练集生成不同剪枝程度的 决策树,在验证集上评估其性能,选择性能最优的剪枝程度。
• 交互性和动画:一些工具提供了交互性和动画功能,如鼠标悬停提示、节点点击事件、动态展示决策过程等。 这些功能可以帮助用户更好地理解和探索决策树的结构和逻辑。
• 布局和排列:决策树的可视化还需要考虑布局和排列的问题。不同的布局算法可以产生不同的可视化效果,如 垂直布局、水平布局、径向布局等。选择合适的布局算法可以使决策树的可视化更加清晰和易于理解。
决策树(DMT)分析:制定项目决策
决策树(DMT)分析:制定项目决策1.为什么使用决策树分析?当项目需要做出某种决策、选择某种解决方案或者确定是否存在某种风险时,决策树(decision making tree)提供了一种形象化的、基于数据分析和论证的科学方法,这种方法通过严密地逻辑推导和逐级逼近地数据计算,从决策点开始,按照所分析问题的各种发展的可能性不断产生分枝,并确定每个分支发生的可能性大小以及发生后导致的货币价值多少,计算出各分枝的损益期望值,然后根据期望值中最大者(如求极小,则为最小者)作为选择的依据,从而为确定项目、选择方案或分析风险做出理性而科学的决策。
2.决策树分析有哪些作用?决策树分析清楚显示出项目所有可供选择的行动方案,行动方案之间的关系,行动方案的后果,后果发生的概率,以及每种方案的损益期望值;♣使纷繁复杂的决策问题变得简单、明了,并且有理有据;♣用数据说话,形成科学的决策,避免单纯凭经验、凭想象而导致的决策上的失误。
♣3.怎么用?(1)决策树包含了决策点,通常用方格或方块表示,在该点表示决策者必须做出某种选择;机会点,用圆圈表示,通常表示有机会存在。
先画一个方框作为出发点,叫做决策点;(2)从决策点向右引出若干条支线(树枝线),每条支线代表一个方案,叫做方案枝;(3)在每个方案枝的末端画一个圆圈,叫做状态点;(4)估计每个方案发生的概率,并把它注明在在该种方案的分支上,称为概率枝;(5)估计每个方案发生后产生的损益值,收益用正值表示,损失用负值表示;(6)计算每个方案的期望价值,期望价值=损益值x该方案的概率;(7)如果问题只需要一级决策,在概率枝末端画△表示终点,并写上各个自然状态的损益值;(8)如果是多级决策,则用决策点□代替终点△重复上述步骤继续画出决策树,如图1所示。
(9)计算决策期望值,决策期望值=由此决策而发生的所有方案期望价值之和;(10)根据决策期望值做出决策。
决策树分析通常是一个方格,然后一个圆圈,然后若干分支图1 决策树4.举例:某承包商向某工程投标,计划采取两种策略:一种是投高标,中标机会为0.2,不中标机会为0.8;另一种是投低标,中标与不中标机会均为0.5。
决策树和决策规则概述课件
该例有14个样本,属性1有一个丢失值,用“?”表示。只有13个样本数据完整。分区前的熵是: Info(T)=-8/13log2(8/13)-5/13log2(5/13) =0.961属性1检验的信息: infox1(T)=5/13(-2/5log2(2/5)-3/5log2(3/5)) +3/13(-3/3log2(3/3)-0/3log2(0/3)) +5/13(-3/5log2(3/5)-2/5log2(2/5)) =0.747
对根节点下的T3子集进行同样的计算,按属性3=真和属性3=假检验,产生两个叶节点。图7-5表示数据库T的最终决策树。
另外,决策树可以用可执行代码(或伪代码)的形式表示。图7-6用伪代码给出了上面例子的决策树。
增益标准对具有许多输出的检验有严重的偏差,根据info(S)的定义,指定一个附加的参数:这表示通过把集T分区成n个子集Ti而生成的潜在信息。现在,定义一个新的增益标准: Gain-radio(X)=gain(X)/Split-info(X)
对应属性2的检验3(属性2≤80和属性2>80)的信息增益计算: infox3(T)=9/14(-7/9log2(7/9)-2/9log2(2/9)) +5/14(-2/5log2(2/5)-3/5log2(3/5)) =0.837 相应的增益: Gain(x3)=0.94-0.837=0.103属性1的增益最高,选择该属性进行首次分区。每个属性值具有一个分枝,产生3个分枝,如图7-4所示.
7.1 决策树
从数据中生成分类器的一个特别有效的方法是生成一个决策树。它是一种基于逻辑的方法,通过一组输入-输出样本构建决策树的有指导学习方法。决策树包含属性已被检验的节点,一个节点的输出分枝和该节点的所有可能的检验结果相对应。
决策树
决策树决策树法(Decision Tree)决策树(decision tree)一般都是自上而下的来生成的。
每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图,我们可以用下图来表示。
选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。
从根到叶子节点都有一条路径,这条路径就是一条“规则”。
决策树可以是二叉的,也可以是多叉的。
对每个节点的衡量:1) 通过该节点的记录数2) 如果是叶子节点的话,分类的路径3) 对叶子节点正确分类的比例有些规则的效果可以比其他的一些规则要好。
决策树的构成要素[1]决策树的构成有四个要素:(1)决策结点;(2)方案枝;(3)状态结点;(4)概率枝。
如图所示:总之,决策树一般由方块结点、圆形结点、方案枝、概率枝等组成,方块结点称为决策结点,由结点引出若干条细支,每条细支代表一个方案,称为方案枝;圆形结点称为状态结点,由状态结点引出若干条细支,表示不同的自然状态,称为概率枝。
每条概率枝代表一种自然状态。
在每条细枝上标明客观状态的内容和其出现概率。
在概率枝的最末稍标明该方案在该自然状态下所达到的结果(收益值或损失值)。
这样树形图由左向右,由简到繁展开,组成一个树状网络图。
决策树对于常规统计方法的优缺点优点:1)可以生成可以理解的规则;2)计算量相对来说不是很大;3) 可以处理连续和种类字段;4) 决策树可以清晰的显示哪些字段比较重要。
缺点:1) 对连续性的字段比较难预测;2) 对有时间顺序的数据,需要很多预处理的工作;3) 当类别太多时,错误可能就会增加的比较快;4) 一般的算法分类的时候,只是根据一个字段来分类。
决策树的适用范围[1]科学的决策是现代管理者的一项重要职责。
我们在企业管理实践中,常遇到的情景是:若干个可行性方案制订出来了,分析一下企业内、外部环境,大部分条件是己知的,但还存在一定的不确定因素。
决策树和决策规则
I (ui )
log
1 P(ui )
log
P(ui )
– 信源熵
• 定义:信源各个离散消息的自信息量的数学期望(即概 率加权的统计平均值)为信源的平均信息量,一般称为 信源的信息熵,也叫信源熵或香农熵,有时也称为无条 件熵或熵函数,简称熵。
• 公式:
H (X )
• 数据分类的两个步骤:
– 第1步:建立一个模型,描述给定的数据类集或概念集(简称训练集)
学习
训练数据
分类算法
分类规则
– 第2步:使用模型对数据进行分类。包括评估模型的分类准确性以及对类
标号未知的元组按模型进行分类
模型评估
新数据分类
分类规则
测试数据
待分类数据
7.1 信息论基础
• 信息论是C.E.Shannon四十年代末期,以客观概率 信息为研究对象,从通信的信息传输问题中总结和 开拓出来的理论。主要研究的问题 :
7.2 ID3算法(续)
• ID3算法思想:
1. 任意选取一个属性作为决策树的根结点,然后就这个属性所有的 取值创建树的分支;
2. 用这棵树来对训练数据集进行分类,如果一个叶结点的所有实例 都属于同一类,则以该类为标记标识此叶结点;如果所有的叶结 点都有类标记,则算法终止;
3. 否则,选取一个从该结点到根路径中没有出现过的属性为标记标 识该结点,然后就这个属性所有的取值继续创建树的分支;重复 算法步骤step 2
概率空间。表示:[X,P]
• 在离散情况下:
U P(u)
u1,
P(u1
)
,
u2 ,, P(u2 ),,
决策树ppt课件
分类问题背景介绍
分类问题是机器学习中一类重要 的问题,旨在将数据划分为不同
的类别。
在现实世界中,分类问题广泛存 在,如垃圾邮件识别、疾病诊断、
信用评分等。
分类算法的目标是通过学习训练 数据中的特征与类别之间的关系, 从而对新的未知数据进行类别预
测。
决策树在分类问题中优势
直观易理解
决策树在处理缺失值和异常值时容易受到干扰,可能导致模型性能下降。可以通过数据 预处理等方法减少缺失值和异常值对模型的影响。
CART算法实例演示
实例背景
假设有一个关于信用卡欺诈的数据集,包含多个特征(如交 易金额、交易时间、交易地点等)和一个目标变量(是否欺 诈)。我们将使用CART算法构建一个分类模型来预测交易 是否属于欺诈行为。
构建决策树时间较长
C4.5算法在构建决策树时需要计算每 个特征的信息增益比,当数据集较大 或特征较多时,构建决策树的时间可 能会较长。
C4.5算法实例演示
数据集介绍
以经典的鸢尾花数据集为例,该数据集包含150个 样本,每个样本有4个特征(花萼长度、花萼宽度、 花瓣长度、花瓣宽度)和1个标签(鸢尾花的类 别)。
建造年份等特征。
选择合适的决策树算法 (如CART、ID3等),
对数据进行训练。
模型评估与优化
采用均方误差等指标评 估模型性能,通过调整 参数、集成学习等方法
优化模型。
结果展示与解读
展示决策树图形化结果, 解释每个节点含义及预
测逻辑。
08
CATALOGUE
总结与展望
决策树模型总结回顾
模型原理
决策树通过递归方式将数据集划分为若干个子集,每个子 集对应一个决策结果。通过构建树形结构,实现分类或回 归任务。
决策树算法梳理(从原理到示例)
决策树算法梳理(从原理到示例)决策树是一种常见的分类和回归算法,可用于解决各种机器学习问题。
它是基于树结构的一种模型,通过对数据集进行分割,形成一系列的决策规则,以实现对未知数据的预测。
1.特征选择:决策树的关键步骤是选择一个最佳的特征来进行数据集的划分。
特征选择的目标是使划分后的子集尽可能地纯净,即同一类别的样本尽可能聚在一起。
常用的特征选择方法有信息增益、信息增益比等。
2.构建决策树:根据选择的特征,可以根据数据集的划分建立一棵决策树。
决策树的根节点表示整个数据集,每个非叶子节点表示一个特征,每个叶子节点表示一个类别。
根据特征值的不同,将数据集分割成多个子集,递归地构建子树。
3.决策规则生成:对于分类问题,决策树的叶子节点代表一个类别。
生成决策规则时,从根节点出发,逐级遍历决策树,将遍历路径上的特征值作为决策规则的条件,叶子节点的类别作为决策结果。
4.决策树剪枝:决策树在构建过程中容易产生过拟合的问题。
为了避免过拟合,需要对决策树进行剪枝。
剪枝的过程是通过从决策树中删除一些子树(代表一些特征)来简化模型,以提高泛化性能。
下面以一个示例来说明决策树的过程。
假设有一个二分类问题,需要根据患者的年龄、体温和白细胞计数来判断是否患有感染病。
现在有一组已知的训练样本,包括12个患者的信息和他们的感染病状态。
根据这些样本,我们可以构建一个决策树模型以进行预测。
首先,我们选择一个特征来对数据集进行划分。
假设我们选择的是年龄特征。
根据年龄的不同取值,将数据集分割成三个子集。
对于每个子集,我们可以计算它们的不纯度,这里我们使用基尼系数作为不纯度的度量指标。
接下来,我们选择一个最佳的特征值来划分数据集。
假设我们选择的是体温特征。
我们将数据集根据体温是否大于37度分为两个子集。
对于每个子集,我们可以继续选择特征和划分子集,直到满足一定的停止条件,例如子集中的样本属于同一类别或者特征已经用完。
最后,我们可以将决策树可视化,并使用它来进行预测。
技术经济学 决策树
12
方法总结
1.根据题意画出决策树。 2.计算各点的期望值。 3.在决策点处选择最优方案或剪枝。
XXX
作品
13
三、 情报与决策
过渡页
TRANSITION PAGE
获得的情报资料越多,则对自然状态的概率估计就越 准确,所作的决策就越合理。但是为了获得情报,往 往需要进行调查、试验、咨询等等,需要花费资金。 如果费用较大,就要评价这笔费用是否值得。
XXX
作品
19
XXX
作品
谢谢观看
指导老师:xx 汇报人:xx
XXX
作品
8
例1
解析:属于一次又一次的决策问题,是确定状态,故没有机会点和概率枝,而有三个决 策点。每个决策点可以选择保留旧机器或者购入新机器。决策树如下所示:
1
旧 +4万 3年
2
-0.8万
-0.8万
旧 +3.5万 3年
-1.0万∥
∥
保留旧机器,三年后更换新机器。
旧 +3万 3年
3
-2.0万
∥ 新 +6.5万 3年
例4
XXX
作品
例4:某工厂准备大批生产一批产品,估计销路好的概率是0.7,可获利1200万元,销路不好亏 150万。为获得更多的情报,拟建造小型试验工厂,进行试销。若试销销路好概率为0.8,则以后 大批生产销路好的概率为0.85;试销时销路不好,则大批生产时销路好的概率为0.1.这个小型厂 的投资需要4.5万元。
任何一种决策技术,若未考虑货币的时间价值往往将与现实不符,决策 树技术也是一样,在决策树技术中时常采用现值法,如例1,设i=25%。
决策树(decision tree)
决策树(decision tree)又名:决策过程流程图,逻辑图,工作图概述决策树是指通过一系列的问题得出正确的决策或问题的解决方案。
决策树是一种特殊的树图,但通常看起来像流程图。
一般来说,决策树是由那些对可能重复发生情况的具有专业知识的人而绘制的,然后被那些没有专业知识并且需要独立作出决策的人所使用。
适用场合·当需要作出决策或需要解决方案的问题重复出现时;·当作出决策的思维过程已知,并且能够分解成一系列的问题时;·决策树的典型应用包括排解纷争、紧急处理,以及对那些复杂的、关键的或很少使用的步骤进行文档化。
实施步骤1明确使用决策树的场合,并陈述需要作出的决定或需要解决的问题,然后写在卡片上放在水平工作台的最左端。
2用头脑风暴法来找出问题的答案。
对每个问题而言,找出所有可能的答案。
通常,答案可能有“是非”选择或是一系列的选择。
把每个问题和答案写在卡片上放在工作台上。
如果顺序有帮助的话,就按顺序排列问题,但是不需太在意顺序的正确性。
3确定问题是否需要按特定的顺序提问。
如果不需要,选择一组有效的顺序。
在工作台上通过重排卡片将问题排序,在答案和旁边的问题之间用箭头连接。
4检查决策树是否有遗漏的问题或答案,并且确信问题能够清楚地被理解和被正确地回答。
5测试树。
设想反映一系列不同状况的情景,运用决策树来解决。
当发现有问题时,对树进行改进。
6给没有专业知识的人设置一些情景并让他们使用决策树来作决策。
如果他们不能够得出正确的决策,识别出产生错误的问题并且对树进行改进。
示例图表5.20控制图选择树和图表5.68图形方法的决策树都是决策树的应用例子。
注意事项·通常情况下某些问题优先级高于其他问题。
·如果问题没有自然顺序,选择一个在大多数情况下能够迅速得出结论的顺序,使常见情况的问题排序优先于非常见情况的。
·在由一系列是非问题组成的决策树中,试着调整树使每个分枝中是与非的位置保持一致。
决策方法--决策树法
第一步 绘制决策树图其次步 源自算:1.计算各方案的期望收益值
一个方案的期望值是该方案在各种可能状态下的损益值与其对应的概率的乘积之和。计算公式为: 期望收益值=Σ(损益值×概率值)×经营年限
大批量生产方案的期望收益值:【0.2×40+0.5×30+0.3×〔-10〕】×3=60 中批量生产方案的期望收益值:〔0.2×30+0.5×20+0.3×8〕×3=55.2 小批量生产方案的期望收益值:〔0.2×20+0.5×18+0.3×14〕×3=51.6
决策方法之
决策树法
学习目标
1.理解决策树法的涵义; 2.把握决策树法的模型; 3.把握决策树法的根本步骤。
1.能够运用决策树法计算方案中的损益值; 2.能够从备选方案中选择出最正确决策方案; 3.能够在实际生活中运用决策树法定量分析。
按决策问题所处的条件划分
确定性决策
不确定性决策
风险性决策
什么是风险型决策?
2.计算各方案的预期净收益
一个方案的预期净收益等于该方案期望收益值扣除其投额。即: 预期净收益=期望收益值-投资额
将各方案的期望收益值写在相应方案结点的上方:
第三步 方案比较、剪枝
比照各方案的预期净收益值〔期望收益值〕的大小,保存收益值最大的方案,作为选择结果。同时剪 去(用∥表示)收益值较小的方案。
决策树法指借助树状图,依据客 观概率的大小,计算出各个方案 的期望值,进展比较,从中选择 一个满足方案。
决策树的运用:“五个要素三个步骤”
• 五个要素 :决策结点、方案枝、自然状态点、概率分枝、损益值。
决策 结点
自然 状态 结点
概率枝
自然 状态 结点
决策树挖掘规则
决策树挖掘规则决策树是一种常用的机器学习算法,其通过对数据进行分层划分,构建树状结构,以实现对数据集的分类或回归。
本文将深入探讨决策树挖掘规则的基本原理、构建过程、规则提取方法以及在实际应用中的重要性。
1. 决策树的基本原理:•树状结构:决策树采用树状结构表示决策过程,每个节点代表一个特征,每个分支代表一个决策规则。
•信息熵与信息增益:构建决策树的关键是通过信息熵或信息增益选择最优特征进行节点分裂,以达到分类效果最好的目标。
2. 决策树的构建过程:•选择最优特征:根据信息增益或信息熵,选择使得数据集纯度提高最快的特征作为当前节点的分裂依据。
•递归分裂:递归地对子集进行分裂,直至满足停止条件(如达到指定深度或节点包含的样本数小于阈值)。
3. 决策树挖掘规则的方法:•树的遍历:通过对决策树进行遍历,可以获取树的所有路径,每个路径对应一条规则。
•规则的提取:从路径中提取出规则,规则由条件和结论组成,条件为路径上的特征,结论为路径的最终分类。
4. 决策树规则的解释与可视化:•规则的解释:决策树的规则通常直观易懂,可以解释为“如果某条件满足,则做某个决策”。
•可视化:可以通过可视化工具绘制决策树,直观呈现树状结构,帮助用户理解挖掘出的规则。
5. 决策树挖掘规则的应用:•分类问题:决策树广泛应用于分类问题,如垃圾邮件过滤、疾病诊断等。
•回归问题:决策树也可用于回归问题,如房价预测、销售额预测等。
•特征选择:决策树可用于特征选择,帮助识别对分类或回归任务最为重要的特征。
6. 决策树规则的优势:•易于理解与解释:决策树规则直观、易于理解,使得机器学习模型更容易被非专业人员理解和接受。
•对非线性关系的适应性:决策树对非线性关系的拟合能力较强,适用于复杂的数据结构。
7. 挖掘规则的挑战与改进:•过拟合问题:决策树容易在训练集上过拟合,可以通过剪枝等方法缓解。
•对噪声敏感:决策树对噪声敏感,异常值或噪声数据可能导致不稳定的树结构,可通过集成学习等方法提高鲁棒性。
决策树算法及应用
决策树算法及应用数一决策树算法简介[1][6][8]决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测.决策树算法可设计成具有良好可伸缩性的算法,能够很好地与超大型数据库结合,处理相关的多种数据类型,并且,其运算结果容易被人理解,其分类模式容易转化成分类规则。
因此,在过去的几十年中,决策树算法在机器学习(machine learning)和数据挖掘( data mining)领域一直受到广泛地重视.决策树算法以树状结构表示数据分类的结果。
树的非叶结点表示对数据属性(at tribute)的测试.每个分枝代表一个测试输出,而每个叶结点代表一个分类。
由根结点到各个叶结点的路径描述可得到各种分类规则。
目前有多种形式的决策树算法。
其中最值得注意的是CART 和ID3/ C4. 5 。
许多其它的算法都是由它们演变而来。
下面介绍决策树算法ID3 (Quinlan ,1979) 在实际中的一例应用.决策树算法ID3 使用信息增益( Information Gain)作为选择属性对节点进行划分的指标。
信息增益表示系统由于分类获得的信息量,该量由系统熵的减少值定量描述。
熵(Entropy) 是一个反映信息量大小的概念。
最终信息增益最高的划分将被作为分裂方案。
决策树和决策规则是实际应用中分类问题的数据挖掘方法。
决策树表示法是应用最广泛的逻辑方法,它通过一组输入-输出样本构建决策树的有指导的学习方法。
对于分类决策树来说,需要先对原始资料来进行分类训练,经由不断的属性分类后,得到预期的分类结果.判定树归纳的基本算法是贪心算法,它采用自上而下、分而治之的递归方式来构造一个决策树。
ID3 算法是一种著名的判定树归纳算法,伪代码如下:Function Generate_decision_tree(训练样本samples,候选属性attributelist){创建节点N:if samples 都在同一个类C then返回N 作为叶节点,以类C 标记;if attribute_list 为空then返回N 为叶节点,标记为samples 中最普通类: //多数表决定选择attribute_list 中有最高信息增益的属性test_attribute:标记节点N 为test_attribute;for each test_attribute 中的已知位ai //划分samples由节点N 长出一个条件为test_attribute=ai 的分枝;设Si 是samples 中test attribute=ai 样本的集合; //一个划分If Si 为空then加上一个树叶,标记为samples 中最普通的类;Else 加上一个由Generate_desdecision_tree(Si,attribute_list_test_attribute)返回的节点:}在树的每个节点上使用具有最高信息增益的属性作为当前节点的测试属性。
项目6决策树和决策规则
项目6 决策树和决策规则6.1 实验目的(1)掌握使用决策树进行分类决策的操作方法,并学会对结果进行解释、提取合理的分类规则;(2)理解决策树模型相对于其他预测模型(如神经网络)的优势所在,如它的决策模型可以为自然语言构成的规则或为逻辑陈述;(3)了解较为流行的决策树模型的不同特征,如CHAID和CART;(4)了解决策树模型中的替代规则对于处理缺失值的优势,掌握操作方法;(5)学会使用决策树模型进行变量选择。
6.2 实验原理数据库内容丰富,蕴藏大量信息,可以用来作出智能的决策。
分类和预测是数据分析的两种形式,可以用来提取描述重要数据类的模型或预测未来的数据趋势。
分类是预测分类标号,而预测建立连续值函数模型。
在本章中,我们将学习利用决策树进行数据分类的技术。
决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表类或类分布。
树的最顶层节点是根节点。
有些决策树算法只产生二叉树,而另一些决策树算法可以产生非二叉树。
对于一个需要进行分类的数据,我们可以利用该数据的各个属性的值,在决策树的包括根节点在内的节点上对相应的数据的属性进行测试,这样就形成了一条由顶到底的或从根节点到某个叶子节点的路径。
该数据所到达的叶子节点给出了该数据所应归属的类。
决策树容易转换成为分类规则。
我们可以根据需要分类的数据在决策树中所经过的所有可能的路径得到一组分类规则,并利用分类规则对数据进行分类。
决策树的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现。
决策树可以处理高维数据。
获取的知识用树的形式表示是直观的,并且容易理解。
决策树建立时,许多分枝可能反映的是训练数据中的噪声或离群点。
树剪枝试图识别并剪去这种分枝,以提高对未知数据分类的准确性。
6.2.1 决策树归纳目前比较有名的决策树算法大概有上百种,其中,最有影响的当属ID3、C4.5、C5.0,以及CART和CHAID。
决策树的规则
决策树的规则
以下是 6 条关于决策树的规则:
1. 一定要明确你的目标啊,就好比你要去一个地方,你得知道自己到底要去哪儿呀!比如说你决定周末去爬山,那你的目标就是爬到山顶,这就是明确的方向。
2. 把可能的选择都列出来呀,这就像摆在你面前有好多条路,你得看看都通向哪里呗!比如你纠结是坐公交还是打车去上班,这就是不同的选择。
3. 仔细考虑每个选择的后果呀,这多重要啊!就跟你选择走不同的路会遇到不同的风景一样。
比如你选了坐公交可能会慢点但省钱,打车快但贵,这后果得好好想想。
4. 别忘记考虑不确定性因素呀,生活中总会有意外情况的嘛,就像天气突然变化影响你爬山的计划一样。
5. 要根据重要性来权衡呀,有的因素特别关键,可得重视!比如说你找工作,薪资和发展前景就是很重要的因素呀。
6. 随时准备根据新情况调整决策呀,可不能一条道走到黑呀!像你原本计划去公园野餐,结果下雨了,那你就得赶紧调整计划呀。
我的观点结论就是:决策树的这些规则能帮我们更好地做出决定,让我们的生活更有序、更明智!。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
项目6 决策树和决策规则
6.1 实验目的
(1)掌握使用决策树进行分类决策的操作方法,并学会对结果进行解释、提取合理的分类规则;
(2)理解决策树模型相对于其他预测模型(如神经网络)的优势所在,如它的决策模型可以为自然语言构成的规则或为逻辑陈述;
(3)了解较为流行的决策树模型的不同特征,如CHAID和CART;
(4)了解决策树模型中的替代规则对于处理缺失值的优势,掌握操作方法;
(5)学会使用决策树模型进行变量选择。
6.2 实验原理
数据库内容丰富,蕴藏大量信息,可以用来作出智能的决策。
分类和预测是数据分析的两种形式,可以用来提取描述重要数据类的模型或预测未来的数据趋势。
分类是预测分类标号,而预测建立连续值函数模型。
在本章中,我们将学习利用决策树进行数据分类的技术。
决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表类或类分布。
树的最顶层节点是根节点。
有些决策树算法只产生二叉树,而另一些决策树算法可以产生非二叉树。
对于一个需要进行分类的数据,我们可以利用该数据的各个属性的值,在决策树的包括根节点在内的节点上对相应的数据的属性进行测试,这样就形成了一条由顶到底的或从根节点到某个叶子节点的路径。
该数据所到达的叶子节点给出了该数据所应归属的类。
决策树容易转换成为分类规则。
我们可以根据需要分类的数据在决策树中所经过的所有可能的路径得到一组分类规则,并利用分类规则对数据进行分类。
决策树的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现。
决策树可以处理高维数据。
获取的知识用树的形式表示是直观的,并且容易理解。
决策树建立时,许多分枝可能反映的是训练数据中的噪声或离群点。
树剪枝试图识别并剪去这种分枝,以提高对未知数据分类的准确性。
6.2.1 决策树归纳
目前比较有名的决策树算法大概有上百种,其中,最有影响的当属ID3、C4.5、C5.0,
以及CART和CHAID。
ID3(Iterative Dichotomiser)是在20世纪70年代和80年代初期,机器学习研究者J. Ross Quinlan开发的决策树算法,称作“迭代的二分器”。
由于ID3仅能处理离散变量,因此,后来Quinlan在其基础上提出了C4.5,分割标准用的是基于信息论的“熵”(Entropy),成为了新的监督学习算法的性能比较基准。
不过,C4.5只能进行L型分叉、后向修剪。
另外,C4.5有一个商品化的后继,称作C5.0。
ID3、C4.5都采用贪心(即非回溯的)方法,其中决策树以自顶向下递归的分治方式构造。
大多数决策树归纳算法都沿用这种自顶向下的方法,从训练集和它们的相关联的类标号开始构造决策树。
随着树的构建,训练集递归地划分成较小的子集。
CART(Classification and Regression Tree)也称分类回归树,是L. Breiman, J. Friedman, R.Olshen和C. Stone 等几位统计学家于1984年提出的,CART只能进行二部分叉、后向修剪,分割标准用的是基尼系数(Gini Index)。
CHAID(Chi-squared Automatic Interaction Detection)也称卡方自动交互检测法,主要特征是多向分叉,前向修剪,采用卡方检测法,CHAID只能处理类别型的输入变量,因此连续型的输入变量首先要进行离散处理。
总之,CHAID、CART和C4.5应该算是决策树算法中最有名、商业上运用最成功的算法了。
6.2.2 属性选择度量
属性选择度量是一种选择分裂准则,将给定的类标记的训练元组的数据划分“最好”地分成个体类的启发式方法。
如果要根据分裂准则的输出将数据划分分成较小的划分,理想地,每个划分是纯的(即落在给定划分的所有元组都属于相同的类)。
从概念上讲,“最好”的分裂准则是导致最接近这种情况的划分。
属性选择度量又称分裂规则,因为它们决定给定节点上的元组如何分裂。
属性选择度量提供了每个属性描述给定训练元组的秩评定。
具有最好度量得分的属性被选作给定元组的分裂属性。
如果分裂属性是连续值得或者限于构造二叉树,则一个分裂点或一个分裂子集也必须作为分裂准则的一部分确定。
为数据划分创建的树节点用分裂准则标记,从准则的每个输出生长出分枝,并且相应地划分元组。
流行的属性选择度量如信息增益、增益率和Gini指标。
这些度量并非无偏的。
信息增益偏向于多值属性。
尽管增益率调整了这种偏倚,但是它倾向于不平衡的分裂,其中一个划分比其他划分小得多。
Gini指标偏向于多值属性,当分类的数量很大时会有困难,并且倾向于导致相等大小的划分和纯度。
尽管是有偏的,但这些度量在实践中产生相当好的结果。
ID3使用信息增益作为属性选择度量。
该度量基于Claude Shannon在研究消息的值或“信息内容”的信息论方面的先驱工作。
选择具有最高信息增益的属性作为节点的分裂属性。
该属性使结果划分中的元组分类所需的信息量最小,并反映这些划分中的最小随机性或“不纯性”。
这种方法使对给定元组分类所需的期望测试数目最小,并确保找到一棵简单的(但
不必是最简单的)树。
C4.5使用称作增益率的信息增益扩充,试图克服信息增益的偏倚。
它使用“分裂信息”值将信息增益规范化,选择具有最大增益率的属性作为分裂属性。
还有很多其他的属性选择度量,如C-SEP和G统计量等。
流行的CHAID算法则使用一种 检验的属性选择度量。
基于独立统计2
6.2.3 树剪枝
在决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常。
剪枝方法处理这种过分拟合数据的问题。
通常使利用统计度量剪去最不可靠的分枝。
剪枝后的树更小、复杂度更低,在对独立检验数据分类时比未剪枝的树更快、更好。
有两种常用的剪枝方法:先剪枝和后剪枝。
在先剪枝方法中,通过提前停止树的构造而对树“剪枝”。
一旦停止,该节点成为树叶。
该树叶可能有子集元组中最频繁的类或这些元组的概率分布。
在构造树时,可以使用如统计显著性、信息增益、Gini指标等度量评估分裂的优劣。
如果划分一个节点的元组导致低于预定义阀值的分裂,则给定子集的进一步划分停止。
后剪枝方法是由“完全生长”的树剪去子树。
通过删除节点的分枝并用树叶替换它而剪掉给定节点的子树。
树叶用被替换的子树中最频繁的类标记。
作为选择,对于组合方法,先剪枝和后剪枝可以交叉使用。
后剪枝所需的计算比先剪枝多,但是通常产生更可靠的树。
CART使用的代价复杂度剪枝算法是一种后剪枝方法。
C4.5使用悲观剪枝方法,类似于代价复杂度方法,用错误率评估对子树剪枝作出决定。
6.3 实验数据
本次实验将重点学习如何利用决策树进行分类决策的操作方法,并根据结果提取出合理的决策规则。
本次实验选用的数据集为“CoIL 2000 Challenge”的竞赛数据,可在UCI机器学习库中找到。
它是一个保险公司的交叉销售方面的数据,数据来源于/databases/tic/tic.data.html。
该集合中包含了调查对象的家庭成员、财产、收入以及参加保险等方面的情况。
该数据已给出,其中ticdata2000.txt为训练和验证数据集,ticeval2000.txt为预测数据集(与ticdata2000.txt格式相同,除了不包含目标变量,其目标变量另见tictgts2000.txt),数据各变量说明见表6.1,具体可参见文件TicDataDescr.txt,包括了所有对目标变量(CARA V AN Number of mobile home policies)具有影响的指标,主要为已经购买保险的数量、收入、拥有房子数量等,总共有为85个,前43个为社会人口统计数据,其他为产品相关数据。
本实验的目的是通过对已有客户的分析找到潜在的对“caravan
insurance”新业务感兴趣的客户,并能找到可能的决策规则,尽可能找出一般规律。
表6.1 原始数据变量汇总表。