自适应概念漂移的在线集成分类器

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

自适应概念漂移的在线集成分类器

王黎明,周 驰

(郑州大学信息工程学院,郑州 450001)

摘 要: 数据流挖掘要求算法能快速地响应、占用少量内存和自适应概念漂移。根据以上要求提出一种自适应概念漂移的基于Hoeffding 树在线Bagging 分类算法。利用统计学理论,检验分类模型在自适应窗口内数据的分类精度是否落入真实错误率的单侧置信区间,由检测结果决定更新Hoeffding 树或重建新Hoeffding 树。实验结果表明,该算法在处理带有概念漂移的数据流上表现出较高的分类精度。 关键词:数据流;概念漂移;Hoeffding 树;在线Bagging

Online Ensemble Classifier for Adaptive Concept Drift

WANG Li-ming ,ZHOU Chi

(School of Information Engineering, Zhengzhou Unversity, Zhengzhou 450001, China)

【Abstract 】Mining data streams require algorithms that make fast response, make light demands on memory resources and are easily to adapt to concept drift. This paper proposes a new algorithm for data streaming mining with concept drift called AHBag, which is based on Hoeffding tree online Bagging ensemble. The algorithm tests data within an adaptive window using the statistical theory for capturing the concept drift. According to the test results to update Hoeffding tree or rebuild a new Hoeffding trees. Experimental results show that the algorithm has a highly accuracy in dealing with data streams with concept drift.

【Key words 】data stream; concept drift; Hoeffding tree; online Bagging DOI: 10.3969/j.issn.1000-3428.2011.05.025

计 算 机 工 程 Computer Engineering 第37卷 第5期

V ol.37 No.5 2011年3月

March 2011

·软件技术与数据库· 文章编号:1000—3428(2011)05—0074—03文献标识码:A

中图分类号:TP301.6

1 概述

近年来有大量的研究工作集中在连续的数据流挖掘上。数据流具有大量、快速到来和概念漂移等特性,这不仅要求数据流挖掘算法在有限的计算时间和内存资源内完成挖掘任务,而且要求算法能够自适应地改变模型以求拟合当前的概念。近年来出现了大量有效的数据流分类算法。文献[1]提出一个通用集成分类器框架。文献[2]提出基于Hoeffding 树的VFDT 算法对高速数据流增量学习决策树。文献[3]对该算法进行了扩展,提出可以处理概念飘移的Hoeffding 树算法CVFDT 。文献[4]介绍了如何在数据流环境中对训练样本进行自助聚集,并据此提出了在线的Bagging 和Boosting 算法。

本文通过分析概念漂移对分类器的影响,使用统计学理论在一定置信度的保证下检测概念漂移,并将该方法应用于基于Hoeffding 树的在线Bagging 分类器上,构成一种自适应概念漂移的在线集成分类器。

2 概念漂移的检测

概念漂移为联合概率p (x ,y )的改变。将联合概率分解为

p (x ,y )=p (x )p (y |x ),将概念漂移看作是由样本的先验概率p (x )和条件概率或后验概率p (y |x )的改变所导致。当p (x )改变而p (y |x )不变,称为特征改变[5]。此种漂移意味着某些先前频繁出现的特征向量变得越来越不频繁,反之亦然。这种漂移是由数据分布变化引起了分类模型的变化,其实际对应的目标概念(规则)并没有发生变化,这对应于传统数据挖掘中的样本选择偏置问题。当 p (y |x )不变而p (x )

改变,称为条件改变[5]。意味着特征分布相对稳定,但特征向量所对应的类标号往往发生了改变,即后验概率发生了改变。在带有条件改变的数据流上建立分类模型时,增加历史数据往往会造成概念冲突。从实践的角度考虑特征改变和条件改变是同时并存的,这使

得概念漂移对分类器的影响难以度量。但如果样本的分布发生了变化,分类器在此样本分布上的误差率将会增加[6]。即发生何种概念飘移并不重要,只需要检测分类器在当前分布上的误差率就可以判断数据流是否发生了概念漂移。

设分类模型C 在分布Φ上随机抽取的n 个样本组成的数据集D 上的分类精度为()D error C ,该模型在一个新数据集S 上的分类精度为()S error C 。则有如下定理:

定理 当/2/2()((),())S D D error C error C z error C z αασσ∈−×+×时,有1α−的置信度表明数据集S 相对于分布Φ没有发生概念漂移。其中,

σ≈;/2z α为由置信度1α−和标准正态分布所决定的常数。

证明:将分类模型C 对每一个样本的输出结果描述为一个随机变量Z ,Z =false 表示分类错误,Z =true 表示分类正确。那么随机变量()D error C 服从参数为n 、()p error C Φ=的二项分布。基于中心极限定理,对于足够大的样本个数n ≥30时,二项分布近似于有着相同均值和方差的正态分布,则

()D error C 为均值p µ=、

标准差σ的正态分布。

那么分类器C 在分布Φ上的任一观察值有1α−的机会落入下面的区间:

/2z αµσ±× (1)

当然p 是无法计算的,由文献[6]可知,()D error C 是p 的一个无偏估计量,则有:

()D error C µ=,σ

作者简介:王黎明(1963-),男,教授、博士,主研方向:分布式数据挖掘;周 驰,硕士研究生

收稿日期:2010-08-18 E-mail :zhouchill@

相关文档
最新文档