一种改进的基于粗糙集的决策树算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

法。该算法通过将计算属性相对于划分 的重要度作为选 择扩展 属性根 结点 的标 准 , 递9 3 - 地 生成决策 树, 可 以克服 I D 3算法偏 向于选 择取值 较多的属性的不足。
【 关键 词】 粗糙集 ; 属性重要度 ; 决策树
The Ap pl i c a t i o n o f At t r i b ut e Re d u c t i o n Ba s e d o n Ro u g h S e t i n Hi g h e r Ed u c a t i o n As s e s s me n t
扩展属性根结点的标准 , 并递归地生成决策树。该
算法 可 以克 服 I D 3算 法 偏 向 于 选 择 取 值 较 多 的属
性 的不 足 。
1 粗糙集理论相关概念
定义 1 一个 信息 表 的知识 表达 系统 S可 表示
为: S =< U, R, V , f>。 其中 : 是对象集合 , 也
J u n. 2 01 3
Vo 1 . 1 3 No . 3
第1 3 卷 第 3期

种 改进 的基 于粗 糙 集 的决 策 树 算 法
吴 学辉
( 运城学院 , 山西 运 城 0 4 4 0 0 0 )
【 摘
要 】 将数据挖掘 中的决策树与粗糙 集理论 进行 了有机 结合 , 提 出了一种基 于粗糙 集技 术 的决 策树 构造 算
称 为论 域 , =C U D是 属性集 合 , 子集 c称 为条 件 属性 , 子 集 D称 为结果 属性集 , =U 是 属性
r ∈ R
差, 难 以发现有用 的规则。将粗糙 集与决策树结合 起来 , 首先 , 利用粗糙集进行属性约简 , 去除冗余属
性, 然后 , 利用决策树方法构建决策树 , 产生分类规
0 引 言
粗糙集理论作为处理各种不完备信息的有效工
具, 一方 面 由于它 的数 学 基础 成 熟 且 不 需 要先 验 知
本文 以粗糙 集 和 数 据挖 掘 理 论 为 出发点 , 将数 据挖 掘 中的决 策树 技术 与粗糙 集 理论进 行 了有机 的
结合 , 提出了一种基于粗糙集技术的决策树算法 , 该
算 法 通过将 计算 属性 相对 于划 分 的重要 度作 为选 择
识; 另一方面在于它的易用性。粗糙集在消除冗余
信息 、 处 理 大数据 集等 方 面也有 其特 殊 的优势 , 所 以 应 用于数 据 挖掘 阶段 的数据 预处 理 、 属性 约简 等 , 但 是 它 的分 类 缺乏交 互 验证 功能 , 因此 , 分类 结果 不够 稳定 , 精 度也 不 高 。 _ 1 决 策 树 方法 具 有 分类 精 度 高 、 生成 的模 式 简单 、 对 噪声 数据 有很 好 的健壮 性 , 但是 当数 据集 中的属性 过 多 时 , 生 成 的 决 策树 结 构 性 较
2 0 1 3 年 6 月
廊 坊师范学院学报( 自然科学版 )
J o u r n a l o f L a n g f a n g T e a c h e r s C o H e g e ( N a t u r l a S c i e n c e E d i t i o n )
xu e - h u
【 A b s t r a c t 】 A t e m o t h o d t o d e s i g n t h e d e c i s i o n t r e e b a s e d o n r o u g h s e t i s p r o p o s e d b y c o m b i n a t i n g r o u g h s e t a n d d e c i s i o n
v a l u e s .
【 K e y w o r d s 】 d e c i s i o n t r e e ; r o u g h s e t ; a t t r i b u t e i m p o r t a n c e
[ 中图分类号 ]T P 1 8 [ 文献标 识码 ]A [ 文章编号]1 6 7 4—3Hale Waihona Puke Baidu2 2 9 ( 2 0 1 3 ) 0 3— 0 0 3 3 —0 4
t r e e o f d a t a mi n i n g . Th i s a l g o r i t h m c o n s t r u c t s a d e c i s i o n t r e e r e c u r s i v e l y b y c lc a u l a t i n g t h e i mp o r t a n c e o f p r o p e r t i e s o f t h e
则, 最终可 以形成新 的分类方法。
取值集合 , , 表示属性 r ∈ 的属性值范围, 即属 性 r 的值域 , 厂 : U×R— 是一个信息函数 。 2 ]
[ 收稿 日期] 2 0 1 3 — 0 4 — 0 2 [ 作者简介] 吴学辉 ( 1 9 7 8 一 ) , 男, 硕士 , 运城学院计算机科学与技术系讲师 , 研究方 向 : 数据挖掘 。
r e l a t i v e d i v i s i o n. Th e lg a o r i t h m c a n o v e r c o me s o me s h o r t c o mi n g s o f I D3 lg a o i r t h m wh i c h t e n d e d t o c h o o s e mo r e p r o p e r t y
相关文档
最新文档