数据流中概念漂移检测的集成分类器设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

念以适应数据流中的概念变化 。下面分别给出具体的整体决
策过程和更新维护过程 。
ICEA 的决策过程 :
D ec ision
(
{
_
x
,
y}
,
E,β)
输入 :

{ x,
y} : 数据样本
E: E = { E1 , E2 , …, Ei , …, Em } , Ei 保存对应构建的概念 β:衰减因子 ,控制分类器对训练样本数据不匹配时的衰减幅
1996年 ,W idmer等人提出了概念漂移的问题 [2 ] ,并且之 后的学者利用机器学习等研究方法进行了广泛的讨论 [3~6 ] 。 1997年 , Salganicoff等人提出了 PECS[8 ]算法 。 PECS算法是一 种可以根据上下文进行选择的懒惰学习算法 。 1998 年 , Har2 ries等人给出了 SPL ICE[5 ]算法 。 SPL ICE算法通过上下文聚类 技术实现稳定的隐藏信息的识别和局部概念的生成 。 2001 年 , Dom ingos等人对决策树算法进行了改进并且给出了一种 适应概念漂移的决策树学习算法 VFDT[7 ] 。VFDT是一个典型 的基于 Hoeffding边界的可以处理数据流的单分类树决策算 法 。随后 , Gama等人对 VFDT树作了进一步的改进 ,扩展了 VFDT树的功能 [8~10 ] 。2001 年 , Street等人提出了一个集成分 类器算法 SEA ,同时 ,也把它应用到数据流的概念漂移的检测 中 ,并给出 SEA concep t[11 ] 。2003年 ,W ang等人对集成分类器 中的权值变化和裁减问题进行了讨论 ,并且提出了根据分类器 分类错误率动态改变权值的技术 [12 ] 。2004年 , Rushing等人提 出 CBEA[13 ] ,集中讨论了一种基于聚类算法的集成分类器裁
收稿日期 : 2006212228; 修回日期 : 2007203220 基金项目 : 国家自然科学基金资助项目 (60496322, 60496327) 作者简介 :孙岳 (19822) ,男 ,硕士研究生 ,主要研究方向为数据挖掘 、人工智能 ( suny_0429@ yahoo. com. cn) ;毛国君 ( 19662) ,男 ,教授 ,主要研 究方向为数据挖掘 、人工智能 ;刘旭 (19822) ,男 ,硕士研究生 ,主要研究方向为数据挖掘 、人工智能.
gy, B eijing 100022, Ch ina)
Abstract: A new m ining algorithm called ICEA was p roposed for m ining concep t drifts from data stream s, which used ensem2 ble multi2classifiers to detect concep t changes from the data stream s in an incremental way. The experimental results show that ICEA perform s higher accuracy and better time efficiency on m ining concep t drifts from data stream s. Key words: data m ining; data stream; concep t drift
集成分类器决策算法
1 集成分类器的概念
集成分类器算法是一个由多个基础分类器通过某种评价 机制对数据流中的样本进行综合评价的集成算法 。集成分类 器算法已经被实验证明在处理存在概念漂移的数据流数据时 比简单的分类算法具有更好的适应性和精确性 。
理论上 , 1988年 , Kearns提出了弱学习算法与强学习算法 的等价性问题 [15 ] ,即是否可以将弱学习算法提升成为强学习 算法问题 。1990年 , Schap ire证明了这样的假设是成立的 [16 ] , 并给出了著名的 Boosting方法 。
y}
n 1
y} ,
_
({ x
begin E,β)
, y} , E,
m
,θ,δ)
end
end
从上述伪代码可以看出 , ICEA主要由两部分过程组成 :第
一部分是集成分类器对于当前到来样本进行整体决策的过程 ;
第二部分为集成分类器根据当前样本对自己集成分类器进行
更新和裁减的过程 ,即使得集成分类器能够不断维护自身的概
得出全局分类结果 ,以此来判断集成分类器 E 是否仍然适应
数据的变化 。当不适应时 ,就采用加入新分类器或者淘汰旧分
类器来快速适应数据的变化 。 ICEA的伪代码描述如下 :
ICEA
(
{
_
x
,
y}
n 1
,
E,
m
,β,θ,δ)
输入 :
{

x,
y}
n 1
:数据流
E: E = { E1 , E2 , …, Ei , …, Em } , Ei 保存对应构建的概念 , E
当第五条样本到来时在集成分类器集合中的基础分类器已经不能跟随数据流中的概念变化则这时icea会建立一个新的分类器去捕获当前的变化并且对已经存在的分类器进行增量式的更新使之也可以部分适应当前的变化
第 25卷第 1期 2008 年 1 月
计算机应用研究 App lication Research of Computers
减问题 。他们也强调了该研究领域的应用价值 ,特别说明在视 频数据流和网络数据流中均存在随着时间而变化的数据概念 漂移问题 。2004年 , Chu等人将流行的 Boosting技术用于数据 流的概念检测中 ,提出自适应集成分类器综合挖掘方法 [14 ] 。
本文主要解决数据流中概念漂移问题的快速检测和适应 等问题 。为了解决这个问题 ,本文利用集成分类器集成技术实 现数据蕴藏的概念的更新和维护 。随着数据的流动和概念的 改变 ,通过集成分类器的衰减探查与剪裁机制来控制算法的整 体分类精度和算法的效率 。
Design of ensemble classifiers for m ining concep t drifts from data stream s
SUN Yue, MAO Guo2jun, L IU Xu (B eijing M un icipa l Key L aboratory of M ultim ed ia & In telligen t Softw are Technology, School of Com puter Science, B eijing U niversity of Technolo2
度 ,β∈[ 0, 1)
输出 : 整体决策 cj
begin
for all jσcj ←0;
if (m = 0) 构建新分类器 Em + 1并插入到集成分类器 E中 ;
ωm + 1 = 1; m = m + 1;
for each cj = E
iE对i ∈→x的E B分E类GI结N 果
;
IF
end
构建新分类器 Em + 1并插入到集成分类器 E中 ; 令 ωm + 1 = 1 /m W t = 1 /mi∑m= 1ωi 且 m = m + 1; end for each Ei ∈E If (ωi <θ) BEGIN 删除分类器 Ei; m =m - 1;
这个理论也同时证明了集成分类器比一般单一分类器所 具有的优势 ,即通过集成分类器进行综合评价的效果要好于单 个分类器的分类结果 。
1 集成分类算法
与已有方法的比较
V FD T算法是一种 典 型 的 基 于 树 状 结 构 的 单 分 类 器 数 据 流概念漂移检测算法 。VFDT算法是通过 Hoeffding边界以增
为分类器集合
m:当前分类器容量 β:衰减因子 ,控制分类器对训练样本数据不匹配时的衰减幅 度 ,β∈[ 0, 1) θ:分类器保留阈值 δ:分类器数目阈值
输出 : 学习后的集成分类器 E
begin
for
each

{ x,
y}
∈{
_
x
,
cj
=
D ec ision
(
{
_
x
,
Up da te_and_P rune
Vol. 25, No. 1 Jan. 2008
数据流中概念漂移检测的集成分类器设计 3
孙 岳 , 毛国君 , 刘 旭
(北京工业大学 计算机学院 北京市多媒体与智能软件重点实验室 , 北京 100022)
摘 要 : 提出了一种称为 ICEA ( incremental classification ensemble algorithm)的数据流挖掘算法 。它利用集成分 类器综合技术 ,实现了数据流中概念漂移的增量式检测和挖掘 。实验结果表明 , ICEA 在处理数据流的快速概念 漂移上表现出很高的精确度和较好的时间效率 。 关键词 : 数据挖掘 ; 数据流 ; 概念漂移 中图分类号 : TP311 文献标志码 : A 文章编号 : 100123695 (2008) 0120164204
数据流挖掘技术是数据挖掘技术中较新的研究分支 。所 谓数据流是指无限的数据序列持续 、快速地到达 ,并且数据是 随着时间不断变化的 ,且不可预测 [1 ] 。例如呼叫记录 、网页访 问记录以及传感器记录数据均属于数据流的范畴 。数据流中 的数据随着时间的流逝不断变化 ,必然会导致数据流算法中概 念模型不断更新和维护 。因此 ,这种概念模型的更新和维护也 就引起了数据流中的概念漂移问题 。例如在正常的数据中出 现了一些不可预测的情况 ,如通货膨胀 、气候反常或新产品上 市 ,那么原来挖掘的消费趋向对应的知识就可能改变 。这种由 于潜在信息的变化而导致目标概念发生根本性变化的技术被 称为概念漂移 。

{ x,
y} : 数据样本
E: E = { E1 , E2 , …, Ei , …, Em } , Ei 保存对应构建的概念 m:当前分类器容量
θ:分类器保留阈值
δ:分类器数目阈值
begin
if ( cj ≠y) begin if (m =δ) begin
选择一个具有最小权值的分类器删除 ; m =δ- 1;
(
cj ≠y)
ω i
←β
×ωi;
σ根c据j =σ{→xcj,
+ωi; y}更新
Ei;
end
for
all
cj
∈C选取具有最大
σc
对应的决策
j
cj 作为
E的整体决策 ;
返回 cj
end
ICEA 的更新与裁减过程 :
Up da te_and _P rune
(
_
{x
,
y}
,
E,
m
,θ,δ)
输入 :
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved.
第 1期
孙 岳 ,等 :数据流中概念所维护的概念 ,用来适应数据流中概 念漂移的现象 。但是 VFDT算法存在的主要问题在于 VFDT 采用单一的树模型来维护数据流中概念的变化 ,在一定情况 下 ,数据 流 中 出 现 的 概 念 会 混 杂 在 同 一 个 树 模 型 中 , 导 致 VFDT树模型的概念与数据流中的真实概念发生偏差 。
针对以上情况 ,笔者提出 ICEA。 ICEA 是使用增量的 ID4 模型作为基础分类算法 ,用来解决通过少量数据样本就能够对 数据的快速变化作出反应的问题 。
1 集成分类器决策算法
ICEA 的主要思想是采用增量式的学习算法作为基础分类
模型 。随着数据流的不断变化 ,每个基础的分类器都根据新到
来的样本进行增量式的学习 ;然后利用基础分类器学习的结果
集成分类算法 SEA提出通过在模型中维护多个分类器的 方法来解决上述 VFDT算法的问题 。 SEA 对每一个到达数据 流的样本 ,它首先聚集成一定大小的数据块 ;然后将这个数据 块作为训练用的数据集来构造分类器 ;最后通过评估已有的分 类器来决定在集成分类器中保存哪些分类器 。
基于批处理方式的 SEA在概念漂移的检测中也存在一些 问题 。由于 SEA是基于批处理方式 ,它必须要收集一定的数 据流样本后才能学习到数据流中的变化 。在一些情况下 ,当数 据流中的概念发生快速变化或在某一阶段数据流中只存在少 量样本可供学习 , SEA将不能及时检测到这些快速变化概念 。
相关文档
最新文档