决策树模型QUEST - 谢邦昌教授.

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分别检验各属性变量对目标变量的独立性。 • 如果属性变量为定类的,则采用卡方检 验 • 如果属性变量为定距,则采用F检验 选择P-值最小且小于显著性水平的属性 变量作为当前的最佳分支变量
统计分析、数据挖掘与商业智能应用研究小组
确定分支变量 – 如果最小的P-值尚未小于显著性水平: • 在F检验检验中,意味着在水平下目标 源自文库量不同分类下属性变量的均值不存在显 著。此时,应利用Levene’F检验其方差。 选择方差齐性最不显著的变量可作为当前 的分支变量 • 否则,该树节点无法再分支
统计分析、数据挖掘与商业智能应用研究小组
要求
• 属性变量(输入变量)分类型变量、数值型变 量 • 目标变量(输出变量)必须是二值分类型变 量(如果是多值的转化成二值的),建立二叉树 • 模型中涉及到的顺序变量必须存储为数值型 • 该模型中不可以应用权数变量
统计分析、数据挖掘与商业智能应用研究小组
确定分支变量
• 目标变量(输出变量) • 属性变量(输入变量)
• 决策树模型与一般统计分类模型的主要区别
– 决策树的分类是基于逻辑的,一般统计分类模型是 基于非逻辑的 – 基于逻辑是指通过对属性变量值的布尔比较来实现 分类判断
统计分析、数据挖掘与商业智能应用研究小组
Clementine的决策树模型
• 决策树模型的特点优势: – 推理过程容易理解,决策推理过程可以表示成IF、 THEN的形式 – 推理过程完全依据属性变量的取值特点 – 可自动忽略对目标变量没有贡献的属性变量,也为 判断属性变量的重要性,减少变量数目提供参考
决策树模型 ----QUEST
报告人:李福娟 指导教师:谢邦昌 时间:2007年11月20日 统计分析、数据挖掘与商业智能应用研究小组
Clementine的决策树模型
• 决策树(Decision Tree)模型,也称规则推理模型
– 通过对训练样本的学习,建立分类规则 – 依据分类规则,实现对新样本的分类 – 属于有指导(监督)式的学习方法,有两类变量:
统计分析、数据挖掘与商业智能应用研究小组
Clementine11.0中的应用
统计分析、数据挖掘与商业智能应用研究小组
Clementine11.0中的应用
可以通过连接并执行 输出节点Table查看 数据源数据
统计分析、数据挖掘与商业智能应用研究小组
Clementine11.0中的应用
• 设置变量类型
统计分析、数据挖掘与商业智能应用研究小组
确定分割值
• 当前分支变量是定距的
如果目标变量有两个以上的分类水平,则应首先将其 合并为两个超类(目标变量的预处理)
• 分别计算目标变量不同分类下当前分支变量的均值 • 如果各均值没有显著差异,则将权重最大(该组包含 的样本个数最多)组所对应的属性变量值作为一组, 其余为另一组 • 如果各均值存在显著差异,则利用2-Means聚类将样 本聚成2类(初始类中心为两个极均值),从而使将目 标变量值合并成两类(多分类问题转换为二分类问题)
统计分析、数据挖掘与商业智能应用研究小组
确定分割值

当前分支变量是定类的
• 先将定类分支变量转化为定矩变量 – 将该分支变量转换为哑变量组,依据目标变量,建 立若干个判别函数,并取第一个典型判别函数(特 征根最大) – 计算各样本在第一个判别函数坐标上的值,作为 值 • 再依据前述定距分支变量的方法处理
输入变量
输出变量
统计分析、数据挖掘与商业智能应用研究小组
Clementine11.0中的应用 • 建立QUEST决策树模型(Modeling-QUEST)
建立一个QUEST结点与源数据相连,然后右击对 QUEST结点进行编辑
统计分析、数据挖掘与商业智能应用研究小组
Clementine11.0中的应用
统计分析、数据挖掘与商业智能应用研究小组
Clementine11.0中的应用
市场研究案例 一个有限电视公司做了一项市场调查以了 解哪些用户会订阅某种交互式的新闻服务。 选择的变量有:年龄(age)、性别(gender)、 受教育程度(educate)、收入水平(inc)、每天看 电视时间(tvday)、家庭拥有孩子个数(childs)。 (NewsChan.sav )
Clementine11.0中的应用
• QUEST节点的高级(expert)选项框
• 最大替代数:当某记录 有缺失值时,QUEST会根 据与其相似的记录所归入 节点的取值进行替代 • 分裂的显著性水平:设 越小,则树 定分裂标准, 的分叉越少 • 终止条件 • 修剪树:use standard error rule删除分类不纯的 节点 • 先验概率
统计分析、数据挖掘与商业智能应用研究小组
Clementine的决策树模型
• 决策树模型的主要算法: – C&RT – C5.0 – CHAID – QUEST
统计分析、数据挖掘与商业智能应用研究小组
QUEST算法
QUEST:Quick Unbiased Efficient Statistical Tree – 它是 Loh和Shih1997年提出的建立决策树的一 种二元分类方法。 – QUEST算法也主要涉及分支变量和分割值的确 定问题,但它将分支变量选择和分割点选择以 不同的策略进行处理 – 它的运算过程比C&R更简单有效。
统计分析、数据挖掘与商业智能应用研究小组
Clementine11.0中的应用
• 分类回归树节点终止选项
• 终止法则决定何时终止 分割树的具体分支设置最 小分支数目以避免分割出 过小的子群 • 使用百分数:按照占整 个训练集的百分比来指定 大小 • 使用绝对值:用绝对记 录数来指定大小
统计分析、数据挖掘与商业智能应用研究小组
• QUEST节点的Model选项
• 分割数据集 训练样本 检验样本 • 模式 Generate model直接给出最终 模型;Launch Interactive session可以逐层建立,修改 和删除节点。Use tree directives 指定任意层节点的分割方式 或子节点数 • 最大树深 自定义判 别树的最大层数 统计分析、数据挖掘与商业智能应用研究小组
相关文档
最新文档