基于粗糙集分类算法研究与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 引言 决策树分类方法是一种有效的数据挖掘方法1 . 1 , Q i n l n n a
提出的 I D3 算法曰 是最有影响的一种决策树生成算法, 其思想 是先把整个数据库作为树的根节点,利用信息沦中的信息增 益寻找数据库中具有最大信息量的属性作为节点分裂依据, 而后根据属性的不同取值进行分裂, 建立节点的分枝, 并在每 个子节点中重复该操作, 直到生成一棵完整的决策树, 但该方 法有倾向于选择取值较多的属性、 抗噪声能力差等缺点。 粗糙 集理论1 1 3 是由波兰数学家 2 . aw P l k于 1 a 98 2 年首先提出的一 种研究不精确, 不确定性知识的数学工具, 目前主要应用于分
更加符合实际。
R 一 ( X ) = l a o U : l a ] , n X 尹 0 }
集合X的边界区定义为: B 从( X) = R _ ( X ) 一 R 一 ( X)
界区等概念刻划了一个不能精确定义的集合的逼近特性。
( 2 )
( 3 )
ห้องสมุดไป่ตู้
B 从( x ) 为集合x 的上逼近与下逼近之差。 下逼近、 上逼近及边
李 勃, 王艳兵, 姚 青: 墓于粗糙集分类算法研究与实现
2 )8 X ( , 4( 1 5 )
1 4 3
. 2 2 可变精度粗糙集
变精度粗糙集( v Rs P ) . 4 1 5 是对标准粗糙集理论的一种扩 展。它通过设置团值参数, 放松了标准粗糙集理论对近似边 界 的严格定义。 利用一个预先定义的 精度等级刀 ( . 0 5 明< 1 ) , 将对 边界区域的定义放松。 对于一个给定的决策系统, 某个集合x相对于属性R的 冬下近似定义为:
息论中, 嫡可以用来度量信息系统的不确定度。
. 4 1 基于v p D3 I 的分类器的设计
以经典的I D3 算法的改进算法 V I P D 3 算法做为分类器的 建树算法, 利用粗糙集理论中属性约简的方法对数据集进行了 简化, 根据所使用建树算法的特点, 选择了以期望错误率为启 发的后剪枝算法。
1 . 鲁东大学 计算机科学与技术学院, 山东 烟台 2 40 6 5 2 2 山东大学 计算机科学与技术学院, 济南 2 506 1 1 . S c h o o l fC O o m P u t e r S c i e n c ea n dT ec h n o l o y, g ud L o n gU n i v e s r i t y , Y a n t a i , S h a n d o n g2 40 6 2 5 , C h i n a 2 . 5 ‘ , h ol o f C o m p u t e r s c i e n c ea n dT ec h n o l o 盯, S h a n d ‘ ) n gU n i v e 邝 i l y , J i ’ n a n2 5 )6 X ( 1 , C h i n a
A加 t r8 C t :D a t am i n i n gi sa ni m or P an t ’ t p a iO r f
t oc l a s s i 6 ( : a t i ( ) n( : o u l dh er ed u c e dt o s e l e c t i n ga t t i r h u t e s . A t f e r u s i n gt h ei m p o r v e dI D 3a 1 g o i r t h m ( v p l l ) 3 ) , t h ei n t e er f r e n c eo f ac e t r a i ne x t e n t , t h i sm a d er e s u l t c o es r 加n ( l t or e a l i t ye v e nm o e r . F i n a l l y , t h ep a p e r d e s i g n sa n dr e a l i z e sac l a s s i i f e ru s i n gV P I D 3 a l 即r i t h ma n dd os o m ee x p e i r m e n 认t oc h e c ki t sp e or f r ma n c e . E x e t n s i 、 ee x p e i r m e n t ,w i t hf o u r d i er f e n t d a t a , e t sh a v es h ( ) w nt h a t
矿( x ) = { 吨
I YnX! _ ‘。 ,
— — 》1 - 衫争
( 4 )
同 时 , 其 户 正 域 可 表 示 为 崛 ( x ) , 其 足 上 近 似 定 义 为 :
I YI
( 5 )
可见当声1 时, 这个v P R s 就是原始的粗糙集模型。在相 同的条件下, 随着月 的减小, 边界区域也逐渐减小, 也即不确定
nol se
OUr
o i s ed a t at h a nI D 3a l 即r i l h m . a l g o i r t h mi sm o ee r ec f l i v ei nd e a l i n gw i t hn K y w e o r s :d d a t am i n i n 只 ; c l a s s i i f c a t i o n ; d e c i s i ( ) nt e r e 不 o r u g hs e t ; I D 3 ; e n t o r p y
3 改进的 I D3 算法
. 3 1 粗糙集理论的信息嫡网
对于定义在给定论域上的随机变量 X ,设其概率分布为
俗! 片1
扣 。 , … , 闪, 艺 作; , 则 x 的 信 息 嫡 为 ( H x 卜 一 叉 那 ( b 只 ) 。 在 信 4 分类器的设计与实现
摘 要: 数据挖掘是人工智能中知识发现的重要组成部分, 而分类又 是一种主要的应用形式。I D3 算法是数据挖掘中经典的决策 树分类算法, D3 I 算法具有抗噪声能力差的缺点。通过对分类和粗糙集理论的研究, 将可变精度粗糙集理论的思想应用在计算属 性信息墒时设定闪值上, 以放宽属性选择的要求, 从而对经典的I D3 算法作了相应的改进‘ 。 改进后的I D3 算法( 称之为v l) P 3算 法) 可在一定程度上降低噪声对系 统分类的干扰, 提高了有数据有噪声情况下的分类精度。另外根据该算法设计并实现了一个分 类器, 并通过实 验检验了 该算法的性能。 关键词: 数据挖掘; 分类; 决策树; 粗糙集; I) 3; 墒 D O I : 1 0 . 3 7 7 8 / 1 . i s s n . 1 )2 X ( 一 8 3 3 1 . 2 )8 ( 0 . 1 5 . 45 文章编号: 0 l )2 ( 0 一 8 3 3 1 ( 2 0 ( ) 8 ) 1 5 一 0 1 4 2 一 0 3 文献标识码: A 中图分类号: T 39 P 1
2 相 关理论
. 2 1 粗糙集合的 卜 逼近、 1 二 逗近、 边界区
给定一个有限的非空集合u称为论 域, R为U上的一族
等价关系。R将 u 划分为互不相交的基本等价类, 二元对 K 二
( U , R ) 构成一个近似空间。设X为u 的一个子集, a 为u中的 一个对象, 1* l ( I 表示 所有与a 不可分辨的对象所组成的集合, 即 由a 决定的等价类。 当集合x能表示成基本等价类组成的并集 时, 则称集合x是可以精确定义的; 否则, 集合x只能通过逼
1 4 2
2 )8 X ( , 科( 1 5 )
om c pu t rE e l妙, 。 lgt i r l 滋A ,l l , : ’ i 以 动 v计算机工程与应用 L I
基于粗糙集分类算法研究与实现
李 勃’ , 王艳兵 2 , 姚 青2
L I B o , , W A N GY a n 一 b i n 扩 , Y A OQ i n g Z
L IB o , WA N GY a n 一 b i g, n Y A OQ i n g . R e e s a c r ha n dr e a l i z a i t o no fc l a s i n c a 幼 o nb s a e do nr ou g hs e tt h e o y. r C o m P u e t r E n g i ee n r i n ga d A n P P l i c a i t o s, n 2 0 0 8 , 4( 1 5 ) : 1 4 2 一 1 4.
近的方式来刻划。 集合X关于R的下逼近定义为: R 一 ( X ) 二 l a o U , l a l ; g X I 集合X关于R的上逼近定义为:
( 1 )
类。 通过对粗糙集理论和I D3 算法的研究, 发现 I 3 算法中利 D 用信息嫡的方法对属性进行择优, 等同于粗糙集理沦中的寻 找正域最大的属性。 考虑到噪声对信息系统的影响, 利用可变 精度粗糙集的思想给属性信息嫡的计算加上了一个阑值参 数, 从而在一定程度上降低了噪声对分类的干扰, 使分类结果
C , 决策属性山 输出: 一棵决策树 T o
步 裸1 初始化决策表为只含有一个根节点( s, )的树 T c ,
其中5 是全体样本集, ‘ 为全体条件属性集;
步 探2 如果T 中 给定叶 节点( j s , j c ) 有 下 列 情况 之一 发生
时, 该节点停止分裂, 并做相应的类标记处理, 否则继续;
( 1 ) 给定节点样本集合中 所有样本在户程度上属于同一
个类d (把该类作为此节点的类标记) . ; ( )没有剩余的属性可以用来进一步划分样本( 2 用多数表 决法确定节点类别) ; ( )分枝没有样本; 3 步 裸2 . 1选择一个不具有上述性质的节点;
丫 ( x , 二 { v a [ 罕 , ” ,
区域降低了, 从而可见 V P R S 对噪声有一定的容错能力。
. 2对于所选节点中 每一属 性风 。 j c , 计算其对应的 步 裸2 场( d ! 风 ) ; 步 骤2 . 3选 择巧韧动值 最 小的 属 性 作 为 节 点 分 裂 属 性 进
行分裂( 若有多个属性同时达到最小时, 则选择其中属性值最 少的属性) , 依据该测试属性的不同值, 建立其相应的分枝( 凡, 瓜) , 并置Q 二 Q 吸; 步骤 3输出决策树 T o
l a s s i i f c a t i o n i A Ia n dc sak i n do fu 、 e u f l a p ‘ j l i c a t i o n . I D 3a l g ) r i t h mi sac l a s s i c a l a l 即r i t h mi nd a t am i n i n g , t h ea l 即r i t h mh a st h e l i yt t or e s i s tn o i s e . hr T o u g ht h er e e s a c r ho nv a i r a b l ep e r c i s i o nr o u g hs e t , de r rt or el a xt h er es t i r c t i ( ) n sw h i l e v a l u ew h i l ec a l c u l a t i n 只a t t i r h u t e s ’e n t n ) p y , i no t h ea l 邵 ) i r t h mi si m p o r v e db ys e t t i n gt h 祀 s h o l ( 1
作者简介: 李勃( 9 1 7 2 一 ) , 男. 讲师, 主要研究方向为: 数据挖掘, 网络安全等; 王艳兵( 9 1 7 6 一 ) , 硕士; 姚青〔 1 9 3一 6 ) , 硕士生导师, 博士。
收稿 口期: 2 07 一 0一 3 0 修1 1! . 1 期: 2 峨 X 斤 一 1 卜2 3
相关文档
最新文档