一种不平衡数据流集成分类模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( , , , , ; 1 S c i e n c e S c h o o l N a t i o n a l U n i v e r s i t y o f D e f e n s e T e c h n o l o g y C h a n g s h a H u n a n4 1 0 0 7 3 C h i n a , , , , ) 2 C o m p u t e r S c h o o l N a t i o n a l U n i v e r s i t y o f D e f e n s e T e c h n o l o g y C h a n g s h a H u n a n4 1 0 0 7 3 C h i n a
A nE n s e mb l eC l a s s i f i e r F r a me w o r kf o r Mi n i n gI mb a l a n c e dD a t aS t r e a m s
1 1 2 2 , , , O U Y A N GZ h e n z h e n g L U OJ i a n s h u H UD o n g m i n WUQ u a n y u a n
2 3 WE集成分类器
令 t 表示任一时间戳, C t表示在该时间戳到达的 数据 块, 则数据流模型可描述为{ …, , , , C C C t - 1 t t + 1 …} 从数据流中连续采样得到 个数据块{ , , …, . n D 1 D 2 } , 下一时刻到来的数据块记为 D D n n是最近的数据块, ( 如V 、 D . WE集成分类器选择某种分类算法 F F D T n + 1 、 等) 对每个数据块进行学习, 得到 n个 S V M N a i v e B a y e s 基础分类器 f ( ) ( , , …, ) , 然后根据不同的 =F D i = 1 2 n i i
收稿日期: ; 修回日期: 2 0 0 9 0 5 1 5 2 0 0 9 0 8 1 0
内容版权归作者所有
更多技术文章,论文请登录www.srvee.com
第 1 期 欧阳震诤: 一种不平衡数据流集成分类模型 1 8 5
最简单的办法是复制少数类样本, 改进的算法是在少 [ ] 6 数类中插值样本, 比较著名的是 S 过抽样由于 M O T E . 增加了训练集样本的规模, 会导致构建分类器的时间 增加 . 欠抽样与过抽样相反, 它通过减少多数类样本的 数量, 从而提高少数类的分类性能, 但是当随机去掉一 些多数类样本时, 可能造成多数类样本的一些重要信 ] 7 息的丢失[ . 从分类算法的改进、 设计来看, 目前主要集中于几 个方面: 一是通过调整不同类样本的错分代价来给训 ] 8 ~ 1 0 练集中的样本加权, 重构训练集[ ; 二是改进传统算 [ ] 1 1 法, 设计代价敏感的分类算法 ; 三是多分类器的集成 学习 . 在机器学习领域, 目前不平衡学习分类的研究对 象主要是静态不平衡数据集, 比较普遍的做法是综合 利用抽样技术与集成方法, 既利用过抽样或欠抽样来 提高分类器对少数类的分类性能, 又利用集成的优点 ] 1 2 ~ 1 4 来提高整体分类性能[ .
更多技术文章,论文请登录www.srvee.com
第1 期 年1 月 2 0 1 0
电 子 学 报 A C T AE L E C T R O N I C AS I N I C A
V o l . 3 8 N o . 1 J a n .2 0 1 0
一种不平衡数据流集成分类模型
欧阳震诤1 , 罗建书1 , 胡东敏2 , 吴泉源2
2 相关工作 2 1 不平衡数据集分类的基本方法
在机器学习领域, 鉴于不平衡学习分类的重要现实 意义, 研究者对该问题进行了大量研究, 当前研究主要 集中于数据层的处理、 分类算法的改进、 设计以及分类 器性能评价标准设计等几个方面 . 从数据层面的处理方法来看, 基本目标都是如何使 得少数类与多数类的样本数趋于平衡, 常用的方法是过 抽样( ) 与欠抽样( ) 或者是两 o v e r s a m p l i n g u n d e r s a m p l i n g 过抽样方法通过增加训练集中少数类的 种方法的结合 . 样本来提高分类器的性能, 而对多数类样本不做删减,
1 引言
分类技术是数据流挖掘研究领域的重要课题, 一个 高效的数据流分类算法应能在有效处理概念漂移的同 近年来, 研究人员在该领域 时保持相当好的分类精度 . 做了大量卓有成效的工作, 集成分类器方法是一种被广 [ ] 1 等从理论上证明了集成分类器 泛采用的方法, Wa n g 的性能要优于单个分类器 . 在集成分类器方法中, 基于 权重的集成分类器方法( , 简称 We i g h t E n s e m b l eC l a s s i f i e r [ ] 1 ~ 4 ) 被普遍认为是具有较高分类精度的方法, 它们 WE 能很好的处理数据流分类中的概念漂移问题 . 然而, 集 成分类器方法与目前多数数据流分类器的设计一样, 它 们是基于数据流中类的分布是大致平衡这一假设的, 设 计者通常假定训练数据集中各类所包含的样本数大致 相当, 而这一基本假设在许多现实数据流应用问题中并 不成立, 不平衡数据流在许多实际应用中经常碰到, 如 挖掘、 信息检索 信用卡的欺诈辨识、 网络入侵检测、 We b 等等 . 在这些应用中, 少数类的分类辨识更加重要 . 而目
: Ma , A b s t r a c t n yr e a l w o r l dd a t a s t r e a m s m i n i n ga p p l i c a t i o n s i n v o l v e l e a r n i n gf r o mi m b a l a n c e dd a t a s t r e a m s w h e r e s u c ha p , p l i c a t i o n s e x p e c t t oh a v e a h i g h e r p r e d i c t i v ea c c u r a c yo v e r t h em i n o r i t yc l a s s h o w e v e r m o s t c l a s s i f i c a t i o nm o d e l a s s u m er e l a t i v e l y , , b a l a n c e dd a t a s t r e a m st h e yc a n n o t h a n d l e i m b a l a n c e dd i s t r i b u t i o n . I nt h i s p a p e rw ep r o p o s ean o v e l e n s e m b l ec l a s s i f i e r f r a m e w o r k ( )f I MD WE o r m i n i n gc o n c e p t d r i f t i n gd a t a s t r e a m s w i t hi m b a l a n c e dd i s t r i b u t i o nb yu s i n gw e i g h t e de n s e m b l ec l a s s i f i e r f r a m e w o r k s a m p l i n gt e c h n i q u e i n c l u d i n go v e r s a m p l i n ga n du n d e r s a m p l i n g . O u r e m p i r i c a l s t u d ys h o w s t h a t t h eI MD WEi s s u p e r i o r a n dh a v e i m p r o v e s b o t ht h e e f f i c i e n c yi nl e a r n i n gt h e m o d e l a n dt h e a c c u r a c yi np e r f o r m i n gc l a s s i f i c a t i o no v e r t h e m i n o r i t yc l a s s . : c ; ; ; K e yw o r d s l a s s i f i c a t i o n e n s e m b l e c l a s s i f i e r i m b a l a n c e dd a t a s t r e a m s c o n c e p t d r i f t
前大部分分类方法虽然整体上具有较高的分类精度, 可 ] 5 , 因此适当降低多数类的 是对少数类的辨识率却很低[ 分类精度, 以换取更高的少数类的分类精度就成为了不 为能有效处理带概念 平衡数据流挖掘分类的主要目标 . 漂移的不平衡数 据流 挖掘分 类问 题, 本文 基于 WE模 型, 提出了一种不平衡数据流集成分类器模型 I M D WE .
] 1 ~ 4 对每个基础分类器 f , 最后组合 方法[ i赋予权重 w i 各个基础分类器构成一个整体分类器 f 来对 D 中 WE n + 1 数据进行预测分类, 的计算公式为公式( ) : f 5 WE
( )= ∑ w ( ) f x f x WE i i 1 i =
n
n
( ) 5
2 2 不平衡数据流分类性能的评价标准
多类别的分类问题通常可以简化为二分类问题, 在二分类问题中, 称少数类为正类( ) , 多数 p o s i t i v e c l a s s 表 混合矩阵 1 类为负类 ( n e g a t i v e 被分为正类 被分为负类 ) 下面主要就不 c l a s s. 实际为正类 T P F N 平衡数据流中的二 实际为负类 F P T N 分类问题进行讨论 . 数据流的分类问题研究中, 分类精度是一个主要 的性能评价指标, 然而单一分类精度的评价标准对于 不平衡数据流来说是不合适的, 到目前为止, 机器学习 领域中对于不平衡数据集分类问题中常用的标准有: , 如表 R O C曲线分析以及基于混合矩阵( c o n f u s i o nm e t r i c 所示) 的 如查 全 率( ) 、 查准率 ( ) 、 1 r e c a l l p r e c i s i o n F V a l u e [ ] 1 5 ~ 1 7 值以及 G 等 查全率( ) 、 查准 率( m e a n . r e c a l l p r e c i ) 、 值以及 G 的计算公式如下: s i o n F V a l u e m e a n ( ) ( ) p r e c i s i o n =T P/ T P+F P 1 ( ) ( ) r e c a l l =T P/ T P+F N 2 2 ( ) · · 1 + r e c a l l p r e c i s i o n β ( ) F v a l u e = 2 3 e c a l l +p r e c i s i o n β·r G m e a n = · T P+F NT N+F P 槡 T P T N ( ) 4
( 国防科技大学理学院, 湖南长沙 4 ; 国防科技大学计算机学院, 湖南长沙 4 ) 1 1 0 0 7 3 2 1 0 0 7 3
摘
百度文库
要: 针对不平衡数据流的分类问题, 结合基于权重的集成分类器与抽样技术, 本文提出了一种处理不平衡
理论分析与实验验证表明, 该集成分类器具有更低的计算复杂度, 更能适应存在概念漂移的 数据流集成分类器模型 . 不平衡数据流挖掘分类, 其整体分类性能优于基于权重的集成分类器模型, 能明显提升少数类的分类精度 . 关键词: 分类;集成分类器;不平衡数据流;概念漂移 T P 1 8 1 文献标识码: A 文章编号: )0 0 3 7 2 2 1 1 2( 2 0 1 0 1 0 1 8 4 0 6 中图分类号: