数据流上概念漂移的检测和分类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
有相同 的 分 布. 其 中 σ ≈ 槡error D ( Ck ) ( 1 - error D ( Ck ) ) / n,
zα/2 为由置信度 1 - α 和标准正态分布所决定的常数. 证明: 由样本集Βιβλιοθήκη BaiduD 的抽取方式,可知 D 是从分布 Φ 中产
生的,并且不依赖于 Ck . 将 Ck 对 D 中每一样本的输出结果描 述为一个随机变量 Z,当 Z = false 表示分类错误,Z = true 表 示分类正确. 上述实验独立随机地执行 n 次,假设随机变量 errorD ( Ck ) 代表 n 次试验中 Z = false 出现的比例,即 errorD ( Ck ) ≡( #F / n) ,其中#F 为 n 次随机实验中分类器误分次数. 由此可知随机变量 error D ( Ck ) 服从参数为 n、p = error Φ ( Ck ) 的二项分布. 基于中心极限定理,对于足够大的样本个数 n≥ 30 时,二项分布近似于有相同均值和方差的正态分布. 则 er-
收稿日期: 2009-12-19 收修改稿日期: 2010-05-18 基金项目: 河南省自然科学基金项目( 2009A520025 ) 资助. 作者简介: 柴玉梅,女, 1964 年生,副教授,研究方向为数据挖掘; 周 驰,男,1983 年生,硕士,研究方向为数据挖掘; 王黎明,男,1963 年生,博士,教授,研究方向为分布 式数据挖掘.
422
小型微型计算机系统
2011 年
W = w1 ,…,wi ,…,wk ,其中 wi 为滑动窗口中的第 i 个基本窗 口,wk 为当前窗口保存最新的数据窗口. 在基本窗口 wi 上训 练得到的基本分类器记为 Ci ,滑动窗口的宽度记为 | W | ,滑动 窗口的宽度相当于多分类器的最大个数.
定义 1. 真实错误率[10]. 设 p 为分类器 h 关于目标函数 f
小型微型计算机系统 Journal of Chinese Computer Systems
2011 年 3 月 第 3 期 Vol. 32 No. 3 2011
数据流上概念漂移的检测和分类
柴玉梅,周 驰,王黎明
( 郑州大学 信息工程学院,河南 郑州 450001) E-mail: zhouchill@ yahoo. com. cn
合. 这通常意味着 w k - u + 1 ,…,w k - 1 与 w k 有相似的概念. 定义 4. 选择窗口集成分类器. 假设 Ek 为选择窗口集成
分类器,则 Ek 为在滑动窗口中所有与 wk 概念相一致的基本 窗口 wi 上建立的分类器 Ci 所组成的集成分类器.
本文依据文献[11],假设基本窗口 wi 内的数据都独立 同分布于同一分布 Pi ( x,y) ,随着时间的推移,滑动窗口内各 个基本窗口之间的分布不断发生变化. 假设滑动窗口中最新
其中 δ( f( x) ,h( x) ) 在 f( x) ≠h( x) 时为 1,否则为 0.
定义 3. 自适应时间窗口分类器. 假设 G u 为自适应时间 窗口分类器,则 G u 为在由最近的 u 个连续的基本窗口 w k - u + 1 ∪…∪wk 所组成的自适应窗口 AW 上建立的分类器,其中 AW 为候选窗口集合{ w1 ∪…∪wk ,w2 ∪…∪wk ,…,wk } 中产 生的分类器在最新训练数据上有最小期望误差的基本窗口组
当 P( x) 改变而 P( x | y ) 不变,称为特征改变[12] ( feature change) ,也称虚拟概念漂移[13]. 此种漂移意味着某些先前频 繁出现的特征向量变得越来越不频繁,反之亦然. 很多真实的 流应用在短时间内产生了大量的数据,但这些数据通常都集 中在某一特定的特征空间,而下一个时间内产生的数据可能 集中在另外的特征空间. 例如,在网络入侵检测中,某时间点 突然到来的大量包可能是由同一个 IP 所发出的,而下一个时 刻此 IP 的包数量可能突然降低. 这种由数据的分布变化而引 起了系统模型的变化,其实际对应的目标概念( 规则) 并没有 发生变化,这对应于传统数据挖掘中的样本选择偏置问题.
1引言
数据流上知识发现的研究逐渐引起数据挖掘领域学者的 重视,近年来出现了大量有效的数据流分类算法. 例如,Domingos 和 Hulten[1]提出的 VFDT 算法在假设数据流不发生 概念飘移的情况下对高速数据流进行增量地学习决策树,并 证明 Hoeffding 界能够确保 VFDT 输出的模型渐近逼近传统 决策树产生的模型. 文献[2,3]等都对该算法进行了扩展,并 提出了可 以 处 理 连 续 值 和 概 念 飘 移 的 Hoeffding 树 算 法. Wang[4]等人提出了一个通用集成分类器框架,分类算法成批 读取训练数据,在每批数据上建立一个分类器,以每个分类器 在当前最新数据块上的误差率作为加权的依据,为每个分类 器进行加权,形成一个加权的集成分类器. Aggarw a[5]等改进 了数据流聚类算法 CluStream,使用几何时间框架存储某时间 点的带类标号的微簇,训练过程中更新当前的微簇,当测试数 据到来前使用一部分数据选择时间范围,从而对测试数据进 行分类. 这些流行的数据流分类算法在进行概念漂移检测时, 都隐含假设当前的数据和即将到来的测试数据有相同的分 布. 文献[6]称此种假设为静态假设,通过对 KDDCUP'99 " intrusion detection" 数据集进行的分析得出可学习假设. 文献 [7]认为静态假设 忽 略 了 数 据 流 的 不 稳 定 性 和 不 确 定 性,而 可学习假设又过于严格,将概念漂移分为松散的概念漂移和
当 P( x) 不变而 P( x | y ) 改变,称为条件改变[12] ( conditional change) ,也称真实概念漂移[13]. 意味着特征分布相对 稳定,但特征向量所对应的类标号往往发生了改变,即后验概 率发生了改变. 在真实的流应用中,数据的决策概念会随着时 间不断的改变,在一个时间段内,一些特征向量属于某一类, 在下一个时间内则可能属于另一类. 例如,在网络入侵检测中
关 键 词: 概念漂移; 数据流挖掘; 分类; 集成
中图分类号: TP311
文献标识码: A
文 章 编 号: 1000-1220( 2011) 03-0421-05
Detecting Concept Drift and Classifying Data Streams
CHAI Yu-mei,ZHOU Chi,WANG Li-ming
2 相关概念
假设数据流是形如: z1 ,z2 ,…,z i ,…,z n ,…按顺序不断流 入的数据元素序列,其中每个数据元素 zi = ( x,y) 由特征向量 x∈χ 和类标号 y∈Y 组成. 我们按时间顺序将这些流数据组 织成形如: S1 ,S2 ,…,Si ,…的固定大小的数据块序列. 基本窗 口对应一个数据块 S,记为 w. 窗口宽度表示数据块中所包含 的 数据个数,记为 | w | . 一系列的基本窗口组成滑动窗口,记
的窗口为 wk ,算法要求只将 wk 存入缓存,先前窗口中的数据 已经不能再被访问,但在其上建立的分类器 C1 ,…,Ck - 1 却已 经保存.
3 概念漂移检测与分类器集成
我们观察到的概念漂移为联合概率 P( x,y) 的改变. 将联 合概率分解为 P( x,y) = P( x) P( y | x) ,将概念漂移看作是由 样本的先验概率 P( x) 和条件概率或后验概率 P( y | x) 的改变 所导致.
设当前基本窗口为 wk ,样本集 D 由从 wi 中无放回( 保证 D 与 Ck 无关) 独立随机抽取的 n 个样本组成,且有 n≥30,Ci 为在滑动窗口中各基本窗口 wk 上建立的分类器,其中 i≤k1. 则有如下定理:
定理 1. 当 error D ( C k ) - σ z α/2 ≤ error D ( C i ) ≤ error D ( C k ) + σ* z α/2 时,有 1 / α 的置信度表明 w i 与 w k 中的数据具
严格的概念漂移,并分别采用不同的算法处理带有这两类概 念漂移的数据流. 文献[6,7]为了提高算法的稳定性,选择只 在当前数据块上建立的多个不同类型的分类模型进行集成, 但这些算法并没有充分利用到可用的历史数据,且使用不同 分类器的集成导致算法缺乏可解释性.
本文基于文献[4]的 集 成 分 类 框 架,提 出 了 一 种 新 的 集 成分类器算法 WSEC ( base w indow selected ensemble classifier) . 该算法首先引入 KM M 算法[8] 调整当前数据块上的分 布,使之更加符合测试数据的分布,并通过统计学的理论确保 历史数据与当前数据所代表的概念相一致. 选择在没有发生 概念漂移的历史数据块上建立的分类器组成一个集成分类 器,该分类器采用不加权投票对测试数据进行分类. 我们使用 了文献[2]中使用的仿真数据流和文献[9]提出的真实数据 来检验该算法的有效性.
在分布 Φ 上的期望错误率,则有:
p
=
errorΦ(
h)
≡ Pr[f( x∈Φ
x)
≠h(
x)
]
( 1)
定义 2. 样本错误率[10]. 设 error S ( h) 为分类器 h 关于目
标函数 f 在样本集 S 的样本错误率,则有:
errorS(
h)
≡
1 n
∑ δ(
x∈S
f(
x)
,h(
x)
)
( 2)
( School of Information Engineering,Zhengzhou Unversity,Zhengzhou 450001,China)
Abstract: It is very important to mining data streams w ith concept drifts for many real-time decision support systems. This paper proposed a method to estimate the Confidence Interval of the true error rate of the Up-to-Date concept to a certain model based on the statistical theory. This method could detect the concept drift under a certain probability guarantee. We apply this method and KM M algorithm to the Ensemble Framew ork of Classifier,and give a new algorithm for data stream classification. The experimental results in the simulation and real data streams show that the algorithm is effective. Key words: concept drift; data streams mining; classifying; ensemble
摘 要: 挖掘带有概念漂移的数据流对于许多实时决策是十分重要的. 本文使用统计学理论估计某一确定模型在最新概念上
的真实错误率的置信区间,在一定概率保证下检测数据流中是否发生了概念漂移,并将此方法和 KM M ( 核平均匹配) 算法引入
集成分类器框架中,提出一种数据流分类的新算法 WSEC. 在仿真和真实数据流上的试验结果表明该算法是有效的.
的某一时刻,一个数据包属于正常连接,而在下一个时刻此数 据包可能成为入侵连接. 在带有真实概念漂移的数据流上建 立分类模型时,增加历史数据往往会造成概念冲突. 3. 1 概念漂移的检测
从实践的角度考虑真实概念漂移和虚拟概念漂移是同时 并存的,这使得概念漂移对分类器的影响难以度量. 但如果样 本的分布发生了变化,分类器 在此样本上的 误差率将 会 增 加[10]. 即发生何种概念飘移并不重要,我们只需要检测分类 器在当前分布上的误差率就可以判断两个分布是否一致.
zα/2 为由置信度 1 - α 和标准正态分布所决定的常数. 证明: 由样本集Βιβλιοθήκη BaiduD 的抽取方式,可知 D 是从分布 Φ 中产
生的,并且不依赖于 Ck . 将 Ck 对 D 中每一样本的输出结果描 述为一个随机变量 Z,当 Z = false 表示分类错误,Z = true 表 示分类正确. 上述实验独立随机地执行 n 次,假设随机变量 errorD ( Ck ) 代表 n 次试验中 Z = false 出现的比例,即 errorD ( Ck ) ≡( #F / n) ,其中#F 为 n 次随机实验中分类器误分次数. 由此可知随机变量 error D ( Ck ) 服从参数为 n、p = error Φ ( Ck ) 的二项分布. 基于中心极限定理,对于足够大的样本个数 n≥ 30 时,二项分布近似于有相同均值和方差的正态分布. 则 er-
收稿日期: 2009-12-19 收修改稿日期: 2010-05-18 基金项目: 河南省自然科学基金项目( 2009A520025 ) 资助. 作者简介: 柴玉梅,女, 1964 年生,副教授,研究方向为数据挖掘; 周 驰,男,1983 年生,硕士,研究方向为数据挖掘; 王黎明,男,1963 年生,博士,教授,研究方向为分布 式数据挖掘.
422
小型微型计算机系统
2011 年
W = w1 ,…,wi ,…,wk ,其中 wi 为滑动窗口中的第 i 个基本窗 口,wk 为当前窗口保存最新的数据窗口. 在基本窗口 wi 上训 练得到的基本分类器记为 Ci ,滑动窗口的宽度记为 | W | ,滑动 窗口的宽度相当于多分类器的最大个数.
定义 1. 真实错误率[10]. 设 p 为分类器 h 关于目标函数 f
小型微型计算机系统 Journal of Chinese Computer Systems
2011 年 3 月 第 3 期 Vol. 32 No. 3 2011
数据流上概念漂移的检测和分类
柴玉梅,周 驰,王黎明
( 郑州大学 信息工程学院,河南 郑州 450001) E-mail: zhouchill@ yahoo. com. cn
合. 这通常意味着 w k - u + 1 ,…,w k - 1 与 w k 有相似的概念. 定义 4. 选择窗口集成分类器. 假设 Ek 为选择窗口集成
分类器,则 Ek 为在滑动窗口中所有与 wk 概念相一致的基本 窗口 wi 上建立的分类器 Ci 所组成的集成分类器.
本文依据文献[11],假设基本窗口 wi 内的数据都独立 同分布于同一分布 Pi ( x,y) ,随着时间的推移,滑动窗口内各 个基本窗口之间的分布不断发生变化. 假设滑动窗口中最新
其中 δ( f( x) ,h( x) ) 在 f( x) ≠h( x) 时为 1,否则为 0.
定义 3. 自适应时间窗口分类器. 假设 G u 为自适应时间 窗口分类器,则 G u 为在由最近的 u 个连续的基本窗口 w k - u + 1 ∪…∪wk 所组成的自适应窗口 AW 上建立的分类器,其中 AW 为候选窗口集合{ w1 ∪…∪wk ,w2 ∪…∪wk ,…,wk } 中产 生的分类器在最新训练数据上有最小期望误差的基本窗口组
当 P( x) 改变而 P( x | y ) 不变,称为特征改变[12] ( feature change) ,也称虚拟概念漂移[13]. 此种漂移意味着某些先前频 繁出现的特征向量变得越来越不频繁,反之亦然. 很多真实的 流应用在短时间内产生了大量的数据,但这些数据通常都集 中在某一特定的特征空间,而下一个时间内产生的数据可能 集中在另外的特征空间. 例如,在网络入侵检测中,某时间点 突然到来的大量包可能是由同一个 IP 所发出的,而下一个时 刻此 IP 的包数量可能突然降低. 这种由数据的分布变化而引 起了系统模型的变化,其实际对应的目标概念( 规则) 并没有 发生变化,这对应于传统数据挖掘中的样本选择偏置问题.
1引言
数据流上知识发现的研究逐渐引起数据挖掘领域学者的 重视,近年来出现了大量有效的数据流分类算法. 例如,Domingos 和 Hulten[1]提出的 VFDT 算法在假设数据流不发生 概念飘移的情况下对高速数据流进行增量地学习决策树,并 证明 Hoeffding 界能够确保 VFDT 输出的模型渐近逼近传统 决策树产生的模型. 文献[2,3]等都对该算法进行了扩展,并 提出了可 以 处 理 连 续 值 和 概 念 飘 移 的 Hoeffding 树 算 法. Wang[4]等人提出了一个通用集成分类器框架,分类算法成批 读取训练数据,在每批数据上建立一个分类器,以每个分类器 在当前最新数据块上的误差率作为加权的依据,为每个分类 器进行加权,形成一个加权的集成分类器. Aggarw a[5]等改进 了数据流聚类算法 CluStream,使用几何时间框架存储某时间 点的带类标号的微簇,训练过程中更新当前的微簇,当测试数 据到来前使用一部分数据选择时间范围,从而对测试数据进 行分类. 这些流行的数据流分类算法在进行概念漂移检测时, 都隐含假设当前的数据和即将到来的测试数据有相同的分 布. 文献[6]称此种假设为静态假设,通过对 KDDCUP'99 " intrusion detection" 数据集进行的分析得出可学习假设. 文献 [7]认为静态假设 忽 略 了 数 据 流 的 不 稳 定 性 和 不 确 定 性,而 可学习假设又过于严格,将概念漂移分为松散的概念漂移和
当 P( x) 不变而 P( x | y ) 改变,称为条件改变[12] ( conditional change) ,也称真实概念漂移[13]. 意味着特征分布相对 稳定,但特征向量所对应的类标号往往发生了改变,即后验概 率发生了改变. 在真实的流应用中,数据的决策概念会随着时 间不断的改变,在一个时间段内,一些特征向量属于某一类, 在下一个时间内则可能属于另一类. 例如,在网络入侵检测中
关 键 词: 概念漂移; 数据流挖掘; 分类; 集成
中图分类号: TP311
文献标识码: A
文 章 编 号: 1000-1220( 2011) 03-0421-05
Detecting Concept Drift and Classifying Data Streams
CHAI Yu-mei,ZHOU Chi,WANG Li-ming
2 相关概念
假设数据流是形如: z1 ,z2 ,…,z i ,…,z n ,…按顺序不断流 入的数据元素序列,其中每个数据元素 zi = ( x,y) 由特征向量 x∈χ 和类标号 y∈Y 组成. 我们按时间顺序将这些流数据组 织成形如: S1 ,S2 ,…,Si ,…的固定大小的数据块序列. 基本窗 口对应一个数据块 S,记为 w. 窗口宽度表示数据块中所包含 的 数据个数,记为 | w | . 一系列的基本窗口组成滑动窗口,记
的窗口为 wk ,算法要求只将 wk 存入缓存,先前窗口中的数据 已经不能再被访问,但在其上建立的分类器 C1 ,…,Ck - 1 却已 经保存.
3 概念漂移检测与分类器集成
我们观察到的概念漂移为联合概率 P( x,y) 的改变. 将联 合概率分解为 P( x,y) = P( x) P( y | x) ,将概念漂移看作是由 样本的先验概率 P( x) 和条件概率或后验概率 P( y | x) 的改变 所导致.
设当前基本窗口为 wk ,样本集 D 由从 wi 中无放回( 保证 D 与 Ck 无关) 独立随机抽取的 n 个样本组成,且有 n≥30,Ci 为在滑动窗口中各基本窗口 wk 上建立的分类器,其中 i≤k1. 则有如下定理:
定理 1. 当 error D ( C k ) - σ z α/2 ≤ error D ( C i ) ≤ error D ( C k ) + σ* z α/2 时,有 1 / α 的置信度表明 w i 与 w k 中的数据具
严格的概念漂移,并分别采用不同的算法处理带有这两类概 念漂移的数据流. 文献[6,7]为了提高算法的稳定性,选择只 在当前数据块上建立的多个不同类型的分类模型进行集成, 但这些算法并没有充分利用到可用的历史数据,且使用不同 分类器的集成导致算法缺乏可解释性.
本文基于文献[4]的 集 成 分 类 框 架,提 出 了 一 种 新 的 集 成分类器算法 WSEC ( base w indow selected ensemble classifier) . 该算法首先引入 KM M 算法[8] 调整当前数据块上的分 布,使之更加符合测试数据的分布,并通过统计学的理论确保 历史数据与当前数据所代表的概念相一致. 选择在没有发生 概念漂移的历史数据块上建立的分类器组成一个集成分类 器,该分类器采用不加权投票对测试数据进行分类. 我们使用 了文献[2]中使用的仿真数据流和文献[9]提出的真实数据 来检验该算法的有效性.
在分布 Φ 上的期望错误率,则有:
p
=
errorΦ(
h)
≡ Pr[f( x∈Φ
x)
≠h(
x)
]
( 1)
定义 2. 样本错误率[10]. 设 error S ( h) 为分类器 h 关于目
标函数 f 在样本集 S 的样本错误率,则有:
errorS(
h)
≡
1 n
∑ δ(
x∈S
f(
x)
,h(
x)
)
( 2)
( School of Information Engineering,Zhengzhou Unversity,Zhengzhou 450001,China)
Abstract: It is very important to mining data streams w ith concept drifts for many real-time decision support systems. This paper proposed a method to estimate the Confidence Interval of the true error rate of the Up-to-Date concept to a certain model based on the statistical theory. This method could detect the concept drift under a certain probability guarantee. We apply this method and KM M algorithm to the Ensemble Framew ork of Classifier,and give a new algorithm for data stream classification. The experimental results in the simulation and real data streams show that the algorithm is effective. Key words: concept drift; data streams mining; classifying; ensemble
摘 要: 挖掘带有概念漂移的数据流对于许多实时决策是十分重要的. 本文使用统计学理论估计某一确定模型在最新概念上
的真实错误率的置信区间,在一定概率保证下检测数据流中是否发生了概念漂移,并将此方法和 KM M ( 核平均匹配) 算法引入
集成分类器框架中,提出一种数据流分类的新算法 WSEC. 在仿真和真实数据流上的试验结果表明该算法是有效的.
的某一时刻,一个数据包属于正常连接,而在下一个时刻此数 据包可能成为入侵连接. 在带有真实概念漂移的数据流上建 立分类模型时,增加历史数据往往会造成概念冲突. 3. 1 概念漂移的检测
从实践的角度考虑真实概念漂移和虚拟概念漂移是同时 并存的,这使得概念漂移对分类器的影响难以度量. 但如果样 本的分布发生了变化,分类器 在此样本上的 误差率将 会 增 加[10]. 即发生何种概念飘移并不重要,我们只需要检测分类 器在当前分布上的误差率就可以判断两个分布是否一致.