基于数据库分组技术的决策树算法的研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收 到本 文 时 间 :0 6年 3月 1 日 20 0
作者简介 : 夏
平, , 女 硕士生 , 中北 大学研究生 院 , 研究方 向: 算机教学与研究 。 计
维普资讯
第3 5卷 (07 第 1 20 ) 期
计算机与数字工程
3 5
支, 并据此划分样本 。 - ( )算法使用同样的过程 , e 递归地形成每个划 分上的样本决策树 。一旦一个属性 出现在一个节
并用该类标记。 5_ 有名的决策树方法还有 C R 、LQ和 S RN 成为叶节点 , c A T SI P IT ( )否则 , c 算法用称为信息增益 的基于熵的大 等。要构造决策树 , 需要有一个训练样本数据集作 选择能够最好地将样本分类 的 为输入 。训练集 由数据库记录或元组构成 , 每个元 度量作为启发信息 ,
分组记数
GD 算法 I
,
0 引言
策树方法是利用某种 策略来选择训练样本数据集
中最有利于区分类别 的属性, 建立决策树的一个 节 数据挖掘就是从大量 的、 不完全的 、 有噪声 的 点 , 再根据该属性字段 的不同取值 建立树的分支 。 大规模数据库的数据 中抽取有效 的、 隐含的、 以前 在每个分枝 中重复这一过程, 建立决策树的下一个 未知的、 但又是潜在有用的信息的非平凡过程。是 节点和分支 的过程。决策树在每个 内部节点处进 当今数据库领域最前沿 的研究课题之一… 。在数 行各个属性值 的 比较 , 在叶节点得 到分类 的结论。 据挖掘算法中 , 分类 是一项非 常重要 的任务 , 目前 从根节 点到 叶节 点 的一条路 径就 对应 着一 则属 在商业上应用最为广泛。它是发现属于同一类 的 性一值的合取表达式 , 即一条分类规则, 整个决策 数据对象的共同特性的过程 , 目的是通过分析训 其 树就对应着一组析取表达式规则的集合。 练数据集学会一个分类 函数或分类模型( 通常称作
1 决 策树 方 法
决策树方法的起源是概念学习系统 C S然后 L, 发展 到 I 法 , D方 又演 化 为 能处 理 连 续 属 性 的 C . 4
I, D 算法的基本策略 如下 : ( )树以代表整个训练样本的单个节点开始。 a () b 判断样本是否是 同一个类 , 如是则该节点
样本统计计算任务。并将构造决策树的过程与相关属性的选择方法有机地结合在一起。使用这些方法和策略 , 该算法能
较快速地生成决策树 , I3 与 D 算法相 比, 在不影 响决策树分类准 确度 的前提下 , 具有较 高的执行效率 。 关键词 数 据挖 掘 决 策树
中图分类号 T 3 1 6 P 0 .
分类器)该模型能把数据库中的数据项 映射到给 , 定类别中的某个类 , 可用于对未知类别 的样本进行 类别的判断。构造分类器 的方法有基于机器学习 的方法 、 统计的方法和神经网络的方 法 , 在分类算 法中, 最著名的是 Q ia 于文献 [ ] ul nn 1 中提出的 I D
2 1 算 法简 述 .
测 或 判 组是一个由有关字段 ( 叉称属性或 特征 ) 值组成 的 属性。该 属 性 成 为 该 节 点 的 “ 试 ” “ 定 ” 特征向量。此外 , 训练样本还有一个类别标记。根 属 性 。
据最简最优原则 , 为保 证所构建 的决策树最小 , 决
・
( ) 测试属性 的每个 已知值 , d 对 创建 一个分
维பைடு நூலகம்资讯
计算机与数字工 程
第3 5卷
基 于数据库分组技术 的决策树算法 的研究
夏
( 中北大学研究生院” 太原
平 徐绕 山 ’
20 1 ) 10 3
0 05 ) ( 3 0 . 南京信 息职业技术学院计算机科学 与技术 系 南京 1
摘
要 提 出了一种 利用数据库分组记 数技 术构造决策树 的算 法 , 利用数 据库 系统 的结 构化查 询语言来 实现主要 的
2 I 算 法 D
I D 算法是一种归纳学 习方法 , 以一种 自顶 是
向下递 归的方式构造 决策树 。I, J D 算法 的关键
I 生 算法, 本文在实现 I D 算法 中结合数据库高效的分 是确定属. 表 中可对训 练例集进行 的最佳分类 的 即在树 的每一个 节点上确定 一个 候选属 组记数技术进行属性相关性分析和属性信息增 益 属性 A,
基于分 组记数 的分类方法
研究表明 , 决策树越小则树 的预测能力越 强。
要构造尽可能小的决策树 , 关键在于选择恰当的逻 () f 递归划分步骤仅 当下列条件之一成立 时 辑判断或属性。本文所讨论 的属性选择是基于属 性相关性分析 , 即讨论所要选择的用于分类的样本 停止 :
点上就不必考虑该节点 的任何后代上。
给定节点的所有样本属于同一类。
属性与其 目标分类属性 的相关程度 , 也就是在进行
没有剩余属性用于进一步划分样本。在此情况 样本分类时确定那些属性最有用 。所用 的度量方 法可以和上述信息增益度量一致 , 利用 已有类标记 下, 使用多数表决的方法将该节点转换为叶节点。
分支在某一个 属性 值上没有样 本 , 此情况 信息进行属性相关性分析。从上述分析可以看出 , 在 为了提高 I D 算法的性能 , 关键在于提高计算各个 下, 使用多数表决的方法创建一个叶节点。 属性的信息增益的速度 , 本文提 出 GD 算法 , I, 采用 用 I D 算法在树的每个节点上使用信息增益度量 预先分组记数的方法构造训练集。在该算法中, 训练集 由若干带有类别 的 选择测试属性 。这种信息论 的方法使得对一个对 于构造决策树的数据集、
它的测试对训练例的分类最有利 。在这个算 ] 的计算 , 提出了一种对 I D 算法 的改进算 法 GD I 性 , ( r p gI, 算 法 , 对该 算法 的性 能 进行 了 法 中, Go i D ) un 并 训练例子 的所有属性都是分类 的, 即取离散 分析。 值 的。连续值的属性必须进行离散化 。