第10章 决策树模型

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 分层技术比较如表10-2所示
10
10.4 计算方法—定义停止分层的时点
• 在决策树模块中,提供两个选项可以控制停止分 裂(分层)的时间点: • (1)取小n(最终节点中所包含的个例数) • (2)设置对象的片段
11
10.4 计算方法—选择适当大小的决策树
• 在一般化的分割过程中,需要确定决策树的适当 规模 • 决策树模块可提供几种不同的选取适当大小的策 略,可择一或同时使用。如表10-3所示
7
10.4 计算方法—制定预测精确度的标准
Fra Baidu bibliotek
• 决策树是要建立预测正确率最高的分类规则
• 预测精度的定义,一般包含了成本的概念
• 成本指的是个例被混合分类时的比例
8
10.4 计算方法—先验概率
• 如果研究中,各分类包含的个例数的比例相等或相近,或 各类中的个例数目相等或相近,就可以选择“相同先验概 率”
5
10.2 决策树模型的建立
• 针对分类预测变量,计算以单变量分裂为基础的 二元决策树 • 针对顺序预测变量,计算以单变量分裂为基础的 二元决策树(至少为顺序尺度类型的变量) • 混合两类方式的预测变量计算以单变量分裂为基 础的二元决策树
6
10.3 决策树与判别函数的比较
• 决策树与判别函数的比较如表10-1所示
12
2
10.1 基本概念
• 决策树是同时提供分类与预测的常用方法。通 过一系列的选择将数据分类,可由落入相同结 点的路径上的规则集来推测相同的结果。 • 决策树主要功能是由已知分类的个体来建立决 策树和相对应的决策规则。 • 与神经网络不同,决策树产生的决策规则可用 文字或数字来表达。
3
10.1 基本概念
• 常用决策树的方法有CHAID以及CART
• CHAID(卡方自动交互检测法)决策树只限于处 理分类变量,如果是连续变量必须采用区段的方 式,先转换数据成为类别变量,才可以使用。
4
10.1 基本概念
• CHAID决策树的基本步骤如下: (1)对每个变量都计算其所有可能的分割点,并找出一 个最佳分割点。 (2)比较各预测变量在“最佳分割方式”下的组间方差, 然后找出一个组间方差最大的变量,即为最佳的预测变量。 (3)用最佳预测变量的最佳分割方式把原始数据分成两 组。 (4)将分割后的每一组作为样本,重复前述分割步骤。 (5)重复分割,直到所有变量都被用完为止。
• 如果不同分类的比例相差较大,以至于影响到分类数,那 么,可依据样本中的分类比例来估计先验概率
• 如果针对基本比例有着经验判断,便可以给予不同的基本 比例,并可将其归类为先验概率 • 如果设置相同的错误分类成本,并且不以分类的个体比例 作为权数,那么错误分类率是相同的
9
10.4 计算方法—选择分裂(分层)技术
10.1 基本概念
• 决策树是同时提供分类与预测的常用方法。 • 决策树的数据分析方法是一种树形结构来表现数 据各变量影响程度的预测模型,利用树上各级结 点的分支自动确认和评估各个类别。
• 决策树能从一个或多个预测变量中,针对类别因 变量的选项,预测出个例的趋势变化关系等。也 可以由结果来反推原因。
相关文档
最新文档