粗糙集与决策树比较研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 1 焦 0 2
来自百度文库
河 北大 学 学报 ( 自然科 学版 )
J u n l fH e e nv r i ( au a ce c d t n o r a b i ie st N t r l in e E i o ) o U y S i
2 1 0 2
第 3 2卷
第 4期
Vo . 2 No 4 13 .
3 Habn Colg ,B i n io o g Unv r i . i i l e ej g Ja t n i est e i y,Hu n h a 0 1 0 ,Chn ) a g u 6 1 0 i a
Ab ta t sr c :Rou e s a d de ii n t e s a e bo h i uc i e l a n ng me h ds,a d c n x r c u e gh s t n c so r e r t nd tv e r i t o n a e t a t r l s f o a de ii n t bl t s r t a u s I hi p r r m c so a e wih dic e e v l e . n t spa e ,we c m p r ou e s wih de ii n t e si he o a e r gh s t t c so r e n t f lo i s c s r e sofa g ihm ,c mput to lc mpl x t o l w ng a pe t :p oc s l ort o a i na o e iy,nu b r o u e m e f r l s,g n r lz ton a ii e e a ia i b l— te nd r is a obu t s .So m p r a on l i nsha e be n o ane s ne s me i o t ntc c uso v e bt i d,whih c n pr v deva u bl e e e e c a o i l a e r f r nc f rf t rr s a c r o ur he e e r h wo ks Ke y wor s o h e s e ii r e ;i o m a i n e r py;r d t d :r ug s t ;d c son t e s nf r to nt o e uc
P0S ( 一 U ∈ /BX. B D) x uD
粗 糙集 方法 通过 属性 约简 和值 约简来抽 取决 策规 则. 1 1 属性 约简 . 粗 糙集 属性 约 简分为 2种 , 即信 息系统 的属 性约 简和决 策表 的属性 约简 . 面先给 出相关 概念 . 下
信息 系统 的约 简 , 于 一 个 属 性 集 合 , 果 它 满 足 下 面 2个 条 件 , 称 其 为 该 信 息 系统 一 个 约 简 对 如 则
ZHAIJ n h ,ZHANG —a g u — ai Su f n ,XU Zh g f 。,W ANG — h o en —u Xi a z
( . y La 1 Ke b. o a hi e Le r ng a d Co pu a i a nt li n e,Co l g fM a he a i s a fM c n a ni n m t ton lI e l ge c le e o t m tc nd Co mpu e i n e,He iUn ve st t r Sce c be i r iy,Ba i g 07 0 2,Ch na; . a h ng a d Re e r h o c i n o od n 1 0 i 2 Te c i n s a c fSe to f Compu e , e e nf ma i n Eng ne rng S ho l t r H b iI or to i e i c o ,Ba i g 07 0 0,Ch n od n 1 0 i a;
树, 进而 产 生不 同的 I — F THE N规 则. 决策树 方 法 中最著 名 的是 Quna iln于 1 8 9 6年 提 出的 I 3算 法n . D ] 该算
收 稿 日期 : 0 2一 1 O 2 1 O —1
基 金 项 目 : 家 自然 科 学 基 金 资 助 项 目( 17 0 0 ; j 省 自然 科 学 基 金 资 助 项 目 ( 2 10 0 2 ; 2 12 16 )河 北 省 高 国 6104)河 £ F 0 0 0 3 3 F 0 10 0 3 ; 等 学 校 科 学 技 术 研 究 重 点 项 目( D O O 3 ) 河 北 大 学 自然 科 学 基 金 资 助 项 目(0 1— 2 ) Z 2 1 19 ; 2 1 2 8 第 一 作 者 : 俊 海 ( 9 4 )男 , 北 易 县 人 , 北 大 学 副 教 授 , 士 , 翟 16 一 , 河 河 博 主要 从 事 机 器 学 习 与 计 算 智 能 、 式 识 别 和 小 波 分 析 等 模 方 向 的 研 究 . - i mc h h u e u c Emal z @ b .d .n : j
I ND( 一{ z ) , , Va B) ( , ∈【 ×己 f EB, ( 口 一f( , ) . f x, ) y口 }
不可 分辨关 系是等价 关 系 , 以定义 等价类 [ oB一 { 可 ] 】 YI Y∈U, z, E I ( ) ND( ) 包含 X 的等价 类 B) , 可 以简记 为 [ 。 属 于一个 等 价类 中 的对 象是 不可分 辨 的. ] ,
本 节 给 出将 要用 到 的一些基 础 知识 , 括信 息系 统 、 策 系统 、 可分辨 关 系 、 包 决 不 上近 似和下 近似 等.

个 信息 系统是 一个 四元组 DT=(,A, ) 其 中 u一 { z , , 为有 限对 象 的集 合 , 为论 域. 己 , V, , 3 , … X } 2 称 , 为属 性 a 的取值 范 围. u×A—V, 为信 息 函数 . V 厂: 称
( RED ):
1 I D ( 一 I D ( ) )N B) N A ;
2 E B, N D ( )V 工 B一 声) I ≠ ND ( . B)
第 1条可 以理解 为 , 属性集 合 B和属 性全集 A 具有 相 同的数据 分辨 能力 ; 2条可 以理解 为 , 第 去掉 集合 B 中的任 意一个 属性 都会 降低其 数 据分辨 能力 , 即导 致部分 对象 不可 分辨 .
抽 取规 则 ( 知识 ) 是机 器学 习的一个 重 要任 务. 归纳学 习是 从一 个 包 含条 件属 性 和决 策 属 性 的数 据 集 中 抽 取决 策规 则 ( 知识 ) 这些 规 则反 映 了条件 和 决 策 之 间 的关 系 , 常 表达 成 I — . 通 FTHE 的形 式. N 决策 树 和 粗 糙集 是 归纳 学 习中 2种 常用 的方法 . 策树 是 由属性 值诱 导样 例集 分 割成树 状结 构 , 后将 决策 树转 换成 一 决 然 组 I- F THE N规 则. 构建决 策 树 的关 键 在 于如何 选取 扩展 属性 , 用不 同 的启发 式方 法可 以生成 不 同 的决 策 选
粗 糙 集 与决 策树 比较 研 究
翟 俊 海 张 素 芳 , 正 夫。 王 熙 照 , 徐 ,
(. 北 大 学 数 学 与计 算 机 学 院 , 北 省 机 器 学 习 与 计 算 智 能 重 点 实 验 室 , 1河 河 河北 保 定 2 河北 省 信 息 工 程 学 校 计 算 机 教 研 室 ,河 北 保 定 . 0 10 ; 7 0 2 0 10 ) 6 1 0 0 10 ;. 京 交 通 大 学 海 滨 学 院 , 北 黄骅 70 0 3 北 河
河北大学学报 ( 自然科 学 版 )
第3 2卷
法 以信息 论为 基础 , 以信 息增 益为选 择扩 展属 性 的启发式 标 准 , 通过 选 择 扩展 属 性对 数 据归 纳 分类 . 方 法 该
利用 扩展 属性 逐层 分割 数据集 , 理 的数 据量 迅速 减少 , 处 因此可 以快 速 地产 生 近似 最优 的规则 . 糙 集 也是 粗
摘 要 : 粗糙 集和 决 策树都 属 于归 纳 学 习方 法 , 可 以从 一 个 离散 值 决策 表 中抽 取 出规 则 . 文从 算 法 都 本
过程 、 算复 杂性 、 则个数 、 化 能力 、 计 规 泛 稳健 性几 个 方面 对粗 糙 集和 决 策树 进 行 了比较研 究 , 出了一 些 重 得 要 结论 , 能为相 关研 究提 供 一些 有价值 的参 考. 关键 词 : 糙集 ; 策树 ; 息熵 ; 简 粗 决 信 约
中 图分类 号 : 11 TP 8 文献 标 志码 : A 文 章 编 号 :0 0—1 6 ( 0 2 0 10 5 5 2 1 ) 4—0 2 — 8 4 1 0
Co p r tv t dy o o g e s a e i i n t e s m a a i e s u n r u h s t nd d c s o r e
A 为描 述对 象 的属性 集合 . — U
若 A—CUD, 称 四元组 DT ( CUD, , 为 决策 系统 , 则 = U, V, ) 简称 决 策表 . 中 c 为条 件 属性 , 为 决 其 D
策属 性. 决策属 性 D 形成对 论域 【 的划 分 U/ , D= { U ”, , U , U )k是类 别数 . 对 于任意 的 B( _ ) 称 满足下 面条 件 的二元关 系为 论域 U 上的不 可分辨 关 系. BC C ,

种 归 纳学 习的方 法 , 9 2年 由波兰 数学 家 P wlk年 提 出口 . 方法 以粗糙 近 似 概念 为基 础 , 过 删 除冗 18 a a ]该 通
余 信息 来得 到归 纳知识 . 年来 , 近 粗糙集 方法 越来越 得 到人们 的重视 , 已广泛应 用 于数据 分析[ 、 3 决策 支持【 ] 4 ]
和数据 挖掘 等领域 J . 本 文从 理论 和实验 2个 角度 来 比较 分析 粗糙集 方法 和决 策树 方法 . 通过 比较发 现 , 策树方 法得 到 的规 决
则 其实 是粗糙 集 约简规 则 的一个 近似 , 决策 树所用 到 的属性 不一定 是粗 糙集 约简.
1 粗 糙 集 概 述
设 U 为论 域 , ( X , X) 称 B B 为概念 X 的下近 似和 上近似 , 中 : 其
B X一{ zEU1z B X) [ ] ,

B X一{ [ ] zEUlz NX≠0) . 下 近似 是所 有完 全属 于概 念 x 的等价 类 的集 合 , 又称 为 正域 , 近似是 所有 与概 念 X 有 交集 的等 价 类 上 的集合 . 中 , 念 x 是一个 对象 的集合 . X≠一 则 称其 为粗糙 的 , 则称 为可 定义 的. 其 概 若B B X, 否 给定决 策 系统 DT= (,CUD, , , 【, V, ) 对于 任意 的 B( C , B ) 决策 属性 D 相对 于 B 的正域定 义 为
决策 表 的 约简 , 于 一个 属 性 集合 B( C , 果 它满 足 下 面 2个 条件 , 称 其 为该 决 策 表一 个 约 简 对 B )如 则
相关文档
最新文档