自适应概念漂移的在线集成分类器

合集下载

LearningunderConceptDrift:AReview概念漂移综述论文阅读

LearningunderConceptDrift:AReview概念漂移综述论文阅读

LearningunderConceptDrift:AReview概念漂移综述论⽂阅读⾸先这是2018年⼀篇关于概念漂移综述的论⽂[1]。

最新的研究内容包括 (1)在⾮结构化和噪声数据集中怎么准确的检测概念漂移。

how to accurately detect concept drift in unstructured and noisy datasets (2)怎么⽤⼀种可解释的⽅法来定量理解概念漂移。

how to quantitatively understand concept drift in a explainable way (3)如何有效的结合相关知识和概念漂移。

how to effectively react to drift by adapting related knowledge该论⽂做了: (1)总结了概念漂移的研究成果,将概念漂移研究分为三类:概念漂移检测、概念漂移理解和概念漂移适应,为概念漂移研究的发展提供了清晰的框架。

 (2)提出了⼀种新的概念漂移理解⽅法,⽤于从时间、⽅式和地点三个⽅⾯检索概念漂移的状态信息。

 (3)揭⽰了概念漂移下的主动学习技术和基于模糊能⼒模型的漂移检测技术,并对涉及到概念漂移的相关研究进⾏了综述。

 (4)系统地检查两套概念漂移数据集,合成数据集和真实数据集,通过多个维度:数据集描述,可⽤性,漂移类型的适⽤性,和现有的应⽤程序。

 (5)提出了该领域的⼏个新的研究课题和潜在的研究⽅向。

论⽂中图概念漂移的定义: 给定⼀个时间范围[0, t],样本表⽰为S0,t ={d0, . . . , d t},其中d i = (X i , y i)是对于概念的⼀次观察,Xi是特征向量,y是标签,S0,t服从⼀个确定分布F0,t(X, y). 如果F0,t(X, y) ≠ F t+1,∞(X, y),则称概念漂移发⽣在t+1时刻,记为∃t: P t(X, y) 6 ≠ P t+1(X, y) Concept drift 也有⼀些⼈称之为 dataset shift [2] or concept shift [3].[4]认为Concept drift or shift 只是 dataset shift 的⼦类,它认为dataset shift 包括 covariance shift,prior probablity shift and concept shift. 联合概率函数 P t(X, y) 可以解构为 P t(X, y) = P t(X) × P t(y|X),因此概念漂移可以由三个源引起 1)P t(X) ≠ P t+1(X) while P t(y|X) = P t+1(y|X), that is, 关注 P t(X)上的漂移⽽ P t(y|X) 保持不变. P t(X) 的漂移不影响决策边界, 因此也被认为是⼀种虚漂移 virtual drift[5], Fig. 3(a). 2)P t(y|X) ≠ P t+1(y|X) while P t(X) = P t+1(X) while P t(X) remains unchanged. 这种漂移会使决策边界变化,从⽽导致预测精度下降, 也被称为实漂移 actual drift, Fig. 3(b). 3)结合了上⾯两者, Pt(X) ≠ Pt+1(X) and Pt(y|X) ≠ Pt+1(y|X).两者都发⽣了漂移, 因为这两种变化都传达了关于学习环境的重要信息 Fig. 3(c). 通常,概念漂移⽅式分为四类:突发式漂移,渐进式漂移,增量式漂移,复发式漂移漂移检测 漂移检测的⼀般框架 Stage 1:数据获取。

一种基于UFFT的数据流分类器

一种基于UFFT的数据流分类器

一种基于UFFT的数据流分类器甄田甜;张玉红;李燕;王海平;胡学钢【摘要】文章提出一种基于极速决策森林(UFFT)的加权装袋算法(UFFT_wb),它采用加权装袋算法模型,以UFFT算法构建基分类器.实验表明,该算法具有确定分割点及选择分割属性花费时间少、构建新结点占用空间小及可以增量式构建等特点,与基于C4.5算法的加权装袋算法模型相比,在保持相似精度的基础上,时间性能有一定程度的改进.%In this paper, a new data stream mining method called UFFT_ wb is proposed, which is based on the weighted-bagging model and uses the ultra fast forest tree(UFFT) algorithm to build the base classifier. Experiment results show that UFFT-wb has its own characteristics, such as the less time to choose the cut point for splitting tests, the little space to build new node, the incremental construction and so on. Compared with the weighted-bagging algorithm based on C4.5, this method is superior in the time consumption while maintaining the similar accuracy.【期刊名称】《合肥工业大学学报(自然科学版)》【年(卷),期】2011(034)001【总页数】6页(P65-70)【关键词】数据流;集成分类器;极速决策森林;加权装袋算法【作者】甄田甜;张玉红;李燕;王海平;胡学钢【作者单位】合肥工业大学,计算机与信息学院,安徽,合肥,230009;合肥工业大学,计算机与信息学院,安徽,合肥,230009;合肥工业大学,计算机与信息学院,安徽,合肥,230009;合肥工业大学,计算机与信息学院,安徽,合肥,230009;合肥工业大学,计算机与信息学院,安徽,合肥,230009【正文语种】中文【中图分类】TP181随着计算机网络的飞速发展和信息存储技术的不断进步,众多应用领域如网络入侵检测、股票实时分析、卫星气象监控、信用卡交易以及电子商务管理等[1-3]拥有了大量的数据流,数据流具有无限性、快速性等特点,如何在数据流上及时有效地进行实时分类预测,给数据挖掘领域带来了极大的挑战。

一种能够适应概念漂移变化的数据流分类方法

一种能够适应概念漂移变化的数据流分类方法

一种能够适应概念漂移变化的数据流分类方法
富春岩;葛茂松
【期刊名称】《智能系统学报》
【年(卷),期】2007(2)4
【摘要】目前多数的数据流分类方法都是基于数据稳定分布这一假设,忽略了真实数据在一段时间内会发生潜在概念性的变化,这可能会降低分类模型的预测精度.针对数据流的特性,提出一种能够识别并适应概念漂移发生的在线分类算法,实验表明它能根据目前概念漂移的状况,自动地调整训练窗口和模型重建期间新样本的个数.【总页数】6页(P86-91)
【作者】富春岩;葛茂松
【作者单位】佳木斯大学,公共计算机教研部,黑龙江,佳木斯,154007;佳木斯大学,公共计算机教研部,黑龙江,佳木斯,154007
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.一种自适应局部概念漂移的数据流分类算法 [J], 尹志武;黄上腾
2.一种抗噪的概念漂移数据流分类方法 [J], 张玉红;胡学钢;李培培
3.基于自适应微簇的任意形状概念漂移数据流聚类 [J], 韦洁华
4.一种面向不完全标记的文本数据流自适应分类方法 [J], 张玉红;陈伟;胡学钢
5.基于自适应集成分类器的数据流概念漂移算法 [J], 姜爱克;赵峰;张杰
因版权原因,仅展示原文概要,查看原文内容请购买。

利用卡方检验优化集成贝叶斯分类器用于数据流入侵检测的方法

利用卡方检验优化集成贝叶斯分类器用于数据流入侵检测的方法

利用卡方检验优化集成贝叶斯分类器用于数据流入侵检测的方法摘要本文提出一种集成贝叶斯分类器的数据流入侵检测模型,目的是在适应概念漂移的前提下,利用多个时间段的数据学习生成多个贝叶斯分类器,检测入侵行为。

为了提高分类器的构建速度和准确率,可以使用卡方检验先对数据进行特征缩减等预处理,达到优化目的。

关键词入侵检测;贝叶斯分类器;数据流;卡方检验1引言当今社会已进入网络时代,网络安全和信息安全日益重要,如何保障计算机系统的安全,防范网络入侵攻击受到各界的重视。

入侵检测技术可以准确地在海量的网络事件中将正常事件和异常事件区分出来,保护系统免受攻击,其本质上是一个分类问题。

数据流环境下,数据的分布会随着时间的更迭而发生变化 (即概念漂移[1])。

如何在海量的数据流中选择出充分的数据并训练出分类模型以进行有效地预测,正是数据流入侵检测所要解决的难点。

本文提出一种集成贝叶斯分类器的数据流入侵检测模型,该模型首先使用卡方检验对数据流中不同时间段的数据进行特征缩减等预处理,然后使用不同时间段的训练样本构造多个贝叶斯分类器,利用集成分类器进行分类检测。

2入侵检测的性能评价在入侵检测问题中,我们称攻击类为目标类,正常类为非目标类。

评估标准可使用召回率(recall)、精度(precision)。

定义如下:(1) (2)其中,pos是检验数据集中目标类样本的总数,t_pos是检验数据集中被正确分类的目标类样本的样本数,而f_pos是检验数据集中被错误地分类为目标样本的样本数。

通常我们使用F-度量(F-measure),如式(3)。

本文中此处λ可设为0.5。

,(0≤λ≤1) (3)3相关知识3.1贝叶斯定理设X为一个类别未知的数据样本,H为某个假设,那么分类问题就是决定P(H|X),即在获得数据样本X时,H假设成立的概率。

(公式3.1)贝叶斯定理则描述了如何根据P(X),P(H)和P(X|H)计算获得后验概率P(H|X)的方法,而P(X),P(H)和P(X|H)可以由给定的数据估计。

一种基于数据不确定性的概念漂移数据流分类算法

一种基于数据不确定性的概念漂移数据流分类算法

一种基于数据不确定性的概念漂移数据流分类算法吕艳霞;王翠容;王聪;苑迎【期刊名称】《应用科学学报》【年(卷),期】2017(035)005【摘要】隐私保护、数据丢失、网络错误等原因导致网络中大量数据存在不确定性.数据流系统中数据连续不断到达系统,故不能一次性获得全部数据,此外数据的概念特征经常发生变化.针对这种情况,构建了一个增量式分类模型来处理数据具有不确定性的隐含概念漂移的数据流分类问题.该模型采用非常快速决策树算法,在学习阶段使用霍夫丁边界理论迅速构建能处理数据不确定性的决策树模型;在分类阶段将加权贝叶斯分类器应用于决策树的叶子节点,以提高不确定数据分类的准确率;采用滑动窗口技术和替换树来处理数据流中的概念漂移现象.实验表明,无论对人工数据还是实际数据,该算法均有较高的分类准确率和执行效率.【总页数】11页(P559-569)【作者】吕艳霞;王翠容;王聪;苑迎【作者单位】东北大学计算机科学与工程学院,沈阳110819;东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004;东北大学计算机科学与工程学院,沈阳110819;东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004;东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004;东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004【正文语种】中文【中图分类】TP311【相关文献】1.一种基于混合集成方法的数据流概念漂移检测方法 [J], 桂林;张玉红;胡学钢2.一种自适应局部概念漂移的数据流分类算法 [J], 尹志武;黄上腾3.基于子空间集成的概念漂移数据流分类算法 [J], 李南;郭躬德4.一种基于混合模型的数据流概念漂移检测算法 [J], 郭躬德;李南;陈黎飞5.基于McDiarmid界的概念漂移数据流分类算法 [J], 梁斌;李光辉因版权原因,仅展示原文概要,查看原文内容请购买。

基于概念漂移检测的自适应流量分类方法

基于概念漂移检测的自适应流量分类方法

基于概念漂移检测的自适应流量分类方法JIANG Zhendong;WANG Jianming;PAN Wubin【摘要】针对网络流特征会随网络环境变化而发生改变,从而导致基于流特征的机器学习分类方法精度明显降低的问题.提出一种基于概念漂移检测的自适应流量分类方法,该方法借助Kolmogorov-Smirnov检验对出现的流量进行概念漂移检测,然后通过多视图协同学习策略引入新流量样本修正概念漂移导致的模型变化,使分类器得到有效更新.实验结果表明该方法可以有效检测概念漂移并更新分类器,表现出较好的分类性能和泛化能力.【期刊名称】《计算机工程与应用》【年(卷),期】2019(055)003【总页数】8页(P68-75)【关键词】概念漂移;Kolmogorov-Smirnov检验;协同学习;流量分类【作者】JIANG Zhendong;WANG Jianming;PAN Wubin【作者单位】【正文语种】中文【中图分类】TP3931 引言近几年互联网高速发展,网络直播、网约车、网络订餐和社交网络等新应用不断出现,用户隐私保护和网络安全意识的不断提高,同时加密协议良好的兼容性和可扩展性,使得加密流量爆炸式增长,加密流量识别已成为当前网络管理的巨大挑战。

鉴于DPI(深度包检测)分类方法无能为力,只能借助DFI分类方法[1-3]。

但基于流特征的机器学习分类方法会因为不同客户端(例如PC、手机和平板电脑)的流特征差异,以及不同地域应用分布不同会引起网络流概念漂移[4-5],根据之前抓取的流量建立机器学习模型,由于样本的局限性以及泛化能力差,使得机器学习模型识别同一网络空间的流量准确率高,不同网络空间的样本识别精度急剧下降[6]。

如果能够及时发现因时间或网络环境变化导致的概念漂移现象,就可以准确地更新分类器,而不是根据经验或定期更新分类器。

当前流量分类研究主要有以下缺点:(1)训练样本只根据新流量会丢失之前的知识,且建立大规模有标记样本耗费大量人力物力。

基于信息熵的自适应网络流概念漂移分类方法

基于信息熵的自适应网络流概念漂移分类方法

Ab s t r a c t I n r e c e nt y e a r s ,t r a f f i c c l a s s i f i c a t i o n b a s e d o n ma c hi ne l e a r n i ng s h o ws a hi gh a c c u r a c y .
低. 同时 , 根据经验定期更新分类器是耗 时的, 且难以保证新分类器泛化性能. 因而 , 文 中 提 出一 种 基 于 信 息 熵 的 自 适应 网络流概念漂移分类方法 , 首先根据特征属性的信息 熵变化 检测概 念漂移 , 再 采 用 增 量 集 成 学 习 策 略 在 概 念 漂移点 引入当前流量建立的分类器 , 并 剔除性能下降 的分类器 , 达 到更新 分类器 的 目的, 最后加权 集成分 类结果. 实 验 结 果 表 明 该 方 法 可 以有 效 地 检 测 概 念 漂 移 并 更 新分 类 器 , 表 现 出较 好 的分 类 性 能 和泛 化 能 力 .
wh e r e t he s a mp l e s a r e t r a i n e d .I n pr a c t i c e,a l t h ou g h a c l a s s i f i e r c a n b e a c c u r a t e l y t r a i n e d a t a g i v e n n e t wo r k e nv i r o nm e nt ,i t s a c c ur a c y wi l l s e e a g r e a t d e c l i n e wh e n i t f a c e s t o c l a s s i f y t r a f f i c f r o m v a r yi n g ne t wo r k c o nd i t i o n i n pr a c t i c e . Due t o d y na mi c c ha n g e s o f t r a f f i c s t a t i s t i c s a n d d i s t r i b u t i on, t he ma c hi ne l e a r n i ng — b a s e d c l a s s i f i e r s s h ou l d be up d a t e d pe r i od i c a l l y i n or d e r t o o p t i mi z e t he p e r f o r ma n c e . Th i s i s s u e i s u n a v o i d a bl e f o r ma c h i ne l e a r n i n g - b a s e d t r a f f i c c l a s s i f i c a t i o n

面向概念漂移集成分类的三支决策优化方法

面向概念漂移集成分类的三支决策优化方法

㊀第53卷第1期郑州大学学报(理学版)Vol.53No.1㊀2021年3月J.Zhengzhou Univ.(Nat.Sci.Ed.)Mar.2021收稿日期:2020-07-08基金项目:国家自然科学基金项目(61763031)㊂作者简介:徐健锋(1973 ),男,教授,主要从事粒计算㊁粗糙集及机器学习研究,E-mail:jiangfeng _x @;通信作者:薛国泽(1994 ),男,硕士研究生,主要从事机器学习研究,E-mail:xueguoze@㊂面向概念漂移集成分类的三支决策优化方法徐健锋1,2,3,㊀辛㊀朋1,㊀薛国泽2,㊀杨迎方2(1.南昌大学信息工程学院㊀江西南昌330031;2.南昌大学软件学院㊀江西南昌330047;3.同济大学电子与信息工程学院㊀上海201804)摘要:提出一种面向概念漂移集成分类的基分类器三支过滤方法㊂首先基于信息熵理论计算出基分类器的不确定性值,并融合其准确性作为基分类器的质量度量,然后通过预设阈值α㊁β对基分类器进行三支过滤㊂其过滤策略为:删除质量权值小于等于阈值β的基分类器;保留质量权值大于等于阈值α的基分类器;对于质量权值大于β小于α的基分类器,将延迟后进一步决策㊂添加对应数量的基分类器,重新计算基分类器的质量权值,再次实施三支过滤直至没有基分类器被删除或达到指定迭代次数㊂在真实数据集和人工数据集上与几种经典算法进行对比实验,结果表明,所提出的算法能够有效地提升分类效果㊂关键词:三支决策;集成分类;概念漂移;不确定性评估;信息熵中图分类号:TP311㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2021)01-0022-07DOI :10.13705/j.issn.1671-6841.20202160㊀引言随着互联网的快速发展,许多行业领域每时每刻都会产生海量的数据,它们通常以数据流[1]的形式产生和到达㊂随着数据流的高速产生,其数据分布会发生改变,将这种数据分布随着时间推移而发生变化的现象称为 概念漂移 [2]㊂如何在快速变化的数据流中有效地处理概念漂移问题,已经成为许多国内外学者研究的重要课题[3-4]㊂目前有关抵抗概念漂移技术的研究主要集中在三个方向:自适应基学习器[5]㊁单分类器设计模式[6]和多分类器集成技术[7-10]㊂自适应基学习器通过对传统机器学习算法加以改进,使其在复杂多变的数据流环境中具有较好的适应性㊂单分类器设计模式通常采用的方法有滑动窗口技术和样本加权,以此对数据集进行重新构造以获得良好的实时表现㊂多分类器集成技术被认为是处理概念漂移问题更为有效的方法,其主要思想是在不同时期的数据块上构造多个基分类器,并利用相应结合策略产生最终的分类结果㊂在多分类器集成过程中,基分类器应是准确且多样的[11-12],多样性通常体现在成员间的差异性方面㊂基分类器差异性是指不同的基分类器对相同的实例进行分类而得到不同的类别,差异性可以通过不确定性进行度量㊂提升多样性的目的在于当少数分类器分类错误时,其他分类器也会在集成整合过程中纠正这个问题,从而使集成模型在复杂的数据环境中可以保持稳定的分类性能㊂尤其在不断发生概念变化的数据流环境中,考虑基分类器间的多样性可避免陷入局部最优解,提升集成模型的准确性和泛化性㊂而当前分类集成方法研究[13-14]主要把准确性作为基分类器唯一的质量衡量依据,对基分类器多样性问题却鲜有研究㊂如果能够设计出一种在准确性前提下考虑基分类器多样性指标的质量评价方法,并根据该评价方法对基分类器的选择制定合理的优化策略,将会提升集成模型的分类效果㊂为此,本文提出一种基于信息熵的基分类器不确定性度量方法,作为基分类器的多样性度量指标;将其与经典的准确性度量方法进行融合,作为基分类器的质量评价策略;结合三支决策思想[15],提出了一种改进的基于质量度量的基分类器三支过滤算法㊂㊀第1期徐健锋,等:面向概念漂移集成分类的三支决策优化方法1㊀相关技术研究1.1㊀基于数据块的集成分类模型集成技术被认为是处理概念漂移问题较为有效的方法,其中最常用的是把数据流分块[16]㊂为便于对算法进行描述,对问题进行符号化定义㊂数据流D ={d 1,d 2, ,d t , },其中d t =(x t ,y t )表示t 时刻到达的一个实例㊂按照实例的到达顺序,将实例划分为大小相同的数据块S ={S 1,S 2, ,S i , ,S n },其中S n 为最新数据块㊂C i 表示基于数据块S i 训练的基分类器,采用不同的评价方式给C i 赋相应的权重值并对基分类器进行筛选,然后采用加权投票等方式组合成集成分类器Π,最后对未知实例d t 进行预测㊂1.2㊀三支决策基本理论三支决策是在粗糙集基础上提出的一种求解不确定问题的理论,它在二支决策基础上增加了延迟决策,当信息不足以支撑接受,也不足以支撑拒绝,采用延迟决策避免二支决策所引起的不必要代价㊂其初始目的是为粗糙集理论中的三个分类区域,即正域㊁负域和边界域,提供合理的决策语义解释㊂三支决策通过引入一对阈值(α,β),0ɤβ<αɤ1,在评价函数λ(x )下将集合Π中的元素x 划分入三个不相交的区域:接受域POS (α,β)(Π)㊁延迟域BND (α,β)(Π)和拒绝域NEG (α,β)(Π)㊂当λ(x )ȡα时,元素x 被划分入接受域,记作x 属于POS (α,β)(Π);当β<λ(x )<α时,元素x 被划分入延迟域,记作x 属于BND (α,β)(Π);当λ(x )ɤβ时,元素x 被划分入拒绝域,记作x 属于NEG (α,β)(Π)㊂2㊀基分类器质量权重设定2.1㊀基分类器准确性度量方法当系统获取到最新数据块S n ,计算集合Π中的基分类器在S n 上的准确性㊂基分类器C i 在数据块S n 上的均方误差为MSE i =ð(x ,y )ɪS n(1-f i y (x ))2/S n ,(1)式中:f i y (x )表示基分类器C i 将实例x 分类到标签y 的概率㊂利用MSE r 表示在数据块S n 上进行随机预测的均方误差,用来作为当前数据类分布的参考,其计算公式为MSE r =ðyp (y )(1-p (y ))2,(2)式中:p (y )表示在数据块S n 中各个标签所占比例㊂对于集合Π中的基分类器,其准确性度量权重Acc _ωi 的计算过程有如下定义㊂定义1㊀对于任意基分类器C i ɪΠ,其准确性度量权重计算公式为Acc _ωi =1/(MSE i +MSE r +ε),(3)式中:ε是一个无穷小的正常数㊂在最新数据块S n 上建立的基分类器C n ,其准确性度量权重计算公式为Acc _ωn =1/(MSE r +ε)㊂(4)㊀㊀由于C n 是基于最新数据块建立的基分类器,它能够代表当前以及未来一段时间数据类分布信息,因此被赋予了最高的准确性度量权重㊂2.2㊀基分类器不确定性度量方法在信息论中,信息熵的提出是用来度量随机变量的不确定程度㊂在得到基分类器的不确定性度量之前,基于信息熵理论计算出基分类器之间的不确定性值㊂对于集合Π中任意两个基分类器C i 和C j ,它们在最新数据块S n 上的分类事件有四种组合结果:①N 11表示基分类器C i 和C j 对其正确分类的样例数目;②N 00表示基分类器C i 和C j 对其错误分类的样例数目;③N 10表示C i 对其正确分类且C j 对其错误分类的样例数目;④N 01表示C i 对其错误分类且C j 对其正确分类的样例数目㊂通过概率的基本运算可以得到上述四种组合结果出现的概率p 11(C i ,C j )㊁p 00(C i ,C j )㊁p 10(C i ,C j )及p 01(C i ,C j )㊂根据上述信息,可计算两个基分类器C i 和C j 之间的不确定性值,有如下定义㊂32郑州大学学报(理学版)第53卷定义2㊀对于任意两个基分类器C i ,C j ɪΠ,它们的不确定性度量H (C i ,C j )的计算公式为H (C i ,C j )=-ðk ɪ{11,10,01,00}p k (C i ,C j )log 2p k (C i ,C j ),(5)式中:p k(C i ,C j )表示C i 和C j 对最新数据块S n 分类情况的概率㊂但是,得到C i 和C j 之间的不确定性度量值仍不足以衡量某一个基分类器的不确定性度量,C i 的不确定性度量是相对于集合Π而言的㊂因此,在定义2的基础上,计算基分类器C i 与集合Π中其他基分类器的不确定性值后再取平均值,作为其不确定性度量值,有如下定义㊂定义3㊀对于任意基分类器C i ɪΠ,其相对于集合Π的平均值H (C i )为基分类器C i 的不确定性度量指标,计算公式为H (C i )=ðj ɪ(0,i )ɣ(i ,L ]H (C i ,C j )/(L -1),(6)式中:L 表示集合Π中包含的基分类器数量㊂通过上述过程得到所有基分类器相对于集合Π的不确定性度量H (C i ),也是每个基分类器的不确定性度量㊂同时也要为最新数据块S n 上建立的基分类器C n 分配相应的不确定性度量值,计算公式为H (C n )=H (max),(7)式中:H (max)为定义3中计算得到的平均值中的最大值㊂由于在最新数据块上建立的基分类器C n 在集成过程中有较好的推广性,因此将不确定性度量的最大值赋给C n ㊂为了能直观展示上述计算过程,下面给出一个实例㊂假设在一个数据流实例S 中,S ={S 1,S 2,S 3,S 4},S 4为实例中的最新数据块㊂C 1㊁C 2和C 3分别是在数据块S 1㊁S 2和S 3上建立的基分类器,它们在最新数据块S 4上的分类情况如表1所示㊂其中第2列表示的是t i 时刻到达的一个实例的属性,第3列表示的是每个实例属性所对应的标签值㊂根据基分类器对分类组合情况,整理表1中基分类器的分类结果,统计所有基分类器对分类组合结果的实例数目,可以得到表2㊂根据表2中实例数目的统计结果,通过计算得到各个基分类器对组合结果的概率分布情况为(C 1,C 2):p 11(C 1,C 2)=4/8;p 10(C 1,C 2)=1/8;p 01(C 1,C 2)=2/8;p 00(C 1,C 2)=1/8;(C 1,C 3):p 11(C 1,C 3)=2/8;p 10(C 1,C 3)=3/8;p 01(C 1,C 3)=1/8;p 00(C 1,C 3)=2/8;(C 2,C 3):p 11(C 2,C 3)=1/8;p 10(C 2,C 3)=5/8;p 01(C 2,C 3)=2/8;p 00(C 2,C 3)=0㊂表1㊀各基分类器的分类情况Table 1㊀Classification of each base classifiert 时刻S 4属性S 4标签值C 1预测值C 2预测值C 3预测值t 1A 1110t 2B 1101t 3C 1010t 4D 0110t 5C 1010t 6A 1110t 7E 1110t 8F表2㊀各基分类器对的分类情况Table 2㊀Classification of a pair of base classifiersN (C 1,C 2)(C 1,C 3)(C 2,C 3)N 11421N 10135N 01212N 0012㊀㊀由以上过程得到了所有基分类器对的概率分布信息,根据定义2中的不确定性度量公式计算弱分类对(C i ,C j )的不确定性值H (C i ,C j ),H (C 1,C 2)=-(48log 248+18log 218+28log 228+18log 218)=-(-0.5-0.375-0.5-0.375)=1.750;H (C 1,C 3)=-(28log 228+38log 238+18log 218+28log 228)=-(-0.5-0.531-0.375-0.5)=1.906;42㊀第1期徐健锋,等:面向概念漂移集成分类的三支决策优化方法H (C 2,C 3)=-(18log 218+58log 258+28log 228+0)=-(-0.375-0.424-0.5)=1.299㊂㊀㊀之后根据定义3的公式计算每个基分类器相对于所有基分类器的不确定性度量值,可得H (C 1)=(1.750+1.906)/2=1.828,H (C 2)=(1.750+1.299)/2=1.524,H (C 3)=(1.906+1.299)/2=1.602㊂由式(7),设置H (C 4)=H (max)=1.828㊂至此,通过计算得到了各个基分类器相对于集合的不确定性度量指标㊂此值越大,代表不确定性越大㊂2.3㊀基分类器质量评估为便于两项度量指标进行后续的权重融合过程,需要消除指标之间的量纲影响,即对定义1中的Acc _ωi和定义3中的H (C i )进行数据标准化处理㊂对于准确性度量值Acc _ωi ,其标准化过程为Acc _ω∗i=(Acc _ωi -Acc _ω(min))/(Acc _ω(max)-Acc _ω(min)),(8)式中:Acc _ω(max)和Acc _ω(min)分别为定义1准确性度量指标计算中得到的最大值和最小值㊂同理,基分类器C i 相对于集合Π的不确定性度量值H (C i )的标准化过程为H ∗(C i )=(H (C i )-H (min))/(H (max)-H (min)),(9)式中:H (max)和H (min)分别为定义3计算得到的平均值中的最大值和最小值㊂经过上述计算已经得到集合Π中任意基分类器C i 的准确性度量值Acc _ω∗i 和不确定性度量值H ∗(C i ),将两项度量指标进行权重融合得到用于度量基分类器质量的指标ωi ,有如下定义㊂定义4㊀对于任意基分类器C i ɪΠ,其质量度量指标ωi 的计算公式为ωi =γAcc _ω∗i+(1-γ)H ∗(C i ),(10)式中:γ为权重因子,取值为[0,1]㊂3㊀基分类器三支过滤3.1㊀池机制更新过程在进行基分类器过滤前,设置了一种缓冲池与选择池机制,选择池与缓冲池用来存放一定数量的基分类器㊂在集成过程中,优先从选择池中选取加入集成阶段的基分类器,当满足集成条件的基分类器数量不足时,再从缓冲池中调取所需数量的基分类器加入选择池,继续进行过滤过程㊂设置池机制的优势在于缓冲池中保留了从选择池中移除的基分类器,即保存了暂时表现不好的基分类器,它可能在之后重新变得有用,将来也可能加入集成过程㊂选择池的存在维持了优先选择高权重基分类器的过程,并且给予了新加入基分类器一定的容错性㊂池机制更新算法如算法1所示㊂算法1㊀池机制更新算法输入:数据块S ={S 1,S 2, ,S t , },最新数据块S n ,选择池容量K ,缓冲池容量M ㊂输出:选择池集合E ,缓冲池集合B ㊂Step 1每次新到数据块S n ,给S n 建立新的基分类器C n ;Step 2对基分类器C i 和C n 分别根据式(3)和式(4)进行准确性加权;Step 3对基分类器C i 和C n 分别根据式(5)~(7)进行不确定性加权;Step 4根据Step 2㊁Step 3和式(8)~(10)求得所有基分类器的质量权值;Step 5如果选择池容量没满,即E<K ,则把C n 添加到选择池中;Step 6否则将选择池中最低质量权值的基分类器C min 移至缓冲池;Step 7若缓冲池容量已满,则先移除缓冲池中权值最低的基分类器C ∗min ,并将C min 移至缓冲池;Step 8得到选择池集合E 和缓冲池集合B ㊂3.2㊀三支决策过滤方法三支决策在信息不足或者获取足够信息的代价较高时能够兼顾决策代价与正确性㊂基于基分类器质量5262郑州大学学报(理学版)第53卷度量方法及设置的池机制,提出一种三支决策基分类器过滤(3WQE)算法,如算法2所示㊂算法2㊀基于三支决策的分类器质量优化算法输入:由算法1得到的选择池集合E,缓冲池集合B,迭代次数Q,阈值α,β(0ɤβ<αɤ1)㊂输出:集成分类器Π∗㊂Step1将选择池E中的基分类器加入集合Π;Step2对于E中基分类器C i,根据式(3)~(10)求得所有基分类器的质量权值ωi;Step3如果C i质量权值ωiȡα,将基分类器C i划分到POS(α,β)(Π)域;Step4如果C i质量权值β<ωi<α,将基分类器C i划分到BND(α,β)(Π)域;Step5如果C i质量权值ωiɤβ,将基分类器C i划分到NEG(α,β)(Π)域;Step6删除NEG(α,β)(Π)中所有基分类器,更新集合Π=Π-NEG(α,β)(Π);Step7在缓冲池B中选取NEG(α,β)(Π)个基分类器加入集合Π;Step8返回Step1;Step9直到NEG(α,β)(Π)=0或到达指定迭代次数跳出循环;Step10得到最优的基分类器集合Π∗㊂4㊀实验与分析4.1㊀实验数据集数据集通常分为人工数据集与真实数据集㊂本文采用2个人工数据集与2个真实数据集进行实验,各数据集的参数设置如表3所示㊂人工数据集由数据流分析框架MOA[17]平台下的数据流生成器所生成,分别为SEA和LED数据集㊂真实数据集为CoverType和Electricity数据集㊂SEA数据集包含3个属性值和2个标签值,属性取值为0~10,标签值与其中两个属性相关,还有一个属性是随机取值的噪声属性㊂在SEA 生成器上创建了SEA GD数据集,其中包含了4个渐变漂移㊂LED数据集由24个二进制属性组成,用于预测7段二极管上显示的数字㊂在LED生成器上创建了LED M数据集,其中既包含渐变漂移也包含突变漂移㊂CoverType数据集的任务是预测某个区域的森林覆盖类型,包含581012个实例㊁53个属性和7个类标签㊂Electricity数据集来自澳大利亚新南威尔士州的电力提供商获得的电力数据,电价受供求关系的影响而变化,包括45312个样本,每个样本由7个属性组成,用于预测电价是上涨还是下跌㊂表3㊀各数据集的参数设置Table3㊀Parameter setting of each dataset数据集实例数属性数类值数漂移数类型SEA GD1ˑ106324Gradual LED M1ˑ1062423Mixture CoverType581012537Electricity45312724.2㊀实验设置与结果4.2.1㊀数据块大小对算法性能影响评估㊀对于不断到来的数据,将其划分为多个大小相同的数据块,用于基分类器的训练和集成分类器的评估,数据块的大小直接影响算法性能㊂如果数据块过大,集成分类器将不能有效地检测到短暂的概念漂移;如果数据块过小,则会降低集成分类器在数据平稳期的分类精度㊂为验证数据块大小对算法性能的影响,采用3WQE算法进行了多次实验,不同数据块大小的准确率对比结果如图1所示㊂由图1可以看出,随着数据块的增大,算法的准确率在整体上得到了提升,这是由于数据块内提供了较多的样本使得基分类器得到了充分训练㊂但是随着数据块的继续增大,算法准确率呈现出逐渐下降的趋势,这是由于数据块内所提供的样本过多,使得集成分类器对概念漂移的识别能力降低,从而导致模型泛化能力的降低,影响了算法准确率㊂各数据集在数据块大小为500~1000时,准确率达到了峰值㊂4.2.2㊀算法准确率评估㊀所提出的3WQE算法利用阈值(α,β)将基分类器划分为三支区域,设置合理的阈值将会有效提升算法效率㊂经过多次实验发现,当阈值设置为αɪ[0.6,0.8],βɪ[0.2,0.4],算法分类㊀第1期徐健锋,等:面向概念漂移集成分类的三支决策优化方法图1㊀不同数据块大小的准确率对比Figure 1㊀Accuracy comparison ofdifferent chunk sizes准确性有相对较好的表现㊂面对不同的数据集时,需要通过多次调整确定最佳阈值以达到算法的最佳性能㊂为验证3WQE 算法的有效性,选取经典算法AWE(accuracy weightedensemble)㊁AUE2(accuracy updated ensemble2)㊁ARF (adap-tive random forest)㊁DWM(dynamic weighted majority)[18]作为对比算法,对3WQE 算法的相关性能进行评估㊂设置选择池容量K 为14,数据块大小为500,α取值为0.7,β取值为0.3,权重因子γ取值为0.4,表4给出了这些算法在不同数据集上的平均分类准确率㊂可以看出,所提出的3WQE 算法在这4种数据集的分类准确率上平均排名最高㊂在SEA GD 数据集中,AUE2和ARF 算法的分类效果大体相当,3WQE 算法效果略优于二者㊂3WQE 算法在LED M 和CoverType 数据集中也维持了高效的最佳分类效果㊂而在Electricity 数据集中,ARF 算法的分类效果最佳,3WQE 算法次之㊂多组对比实验结果表明,3WQE 算法表现出高效的分类性能,能很好地处理渐变漂移和突变漂移问题㊂说明基于三支决策的思想,依据质量评价策略对基分类器进行三支过滤,3WQE 算法可以在保持较高分类准确率的同时提升集成模型的泛化性㊂表4㊀不同算法的平均分类准确率Table 4㊀Average classification accuracy of different algorithms单位:%数据集AWE AUE2ARFDWM 3WQE SEA GD 86.8287.9287.9386.7488.14LED M 72.9772.7872.9472.8373.12CoverType 82.9289.8393.0485.2193.34Electricity71.8878.5488.7578.3182.275㊀结论本文提出一种面向概念漂移集成分类的基分类器三支过滤方法㊂该方法基于信息熵理论构造了一种基分类器的不确定性度量策略,在此基础上融合经典的准确性度量方法作为基分类器的质量度量指标㊂结合三支决策方法对基分类器进行三支过滤,从而得到一组在当前概念漂移数据环境中有较好性能的基分类器㊂通过一系列实验验证和对比,证明该算法可有效提升概念漂移集成分类的准确性和泛化能力㊂参考文献:[1]㊀GAMA J.Knowledge discovery from data streams[M].New York:Chapman and Hall /CRC Press,2010.[2]㊀GAMA J.A survey on learning from data streams:current and future trends [J].Progress in artificial intelligence,2012,1(1):45-55.[3]㊀KHAMASSI I,SAYED-MOUCHAWEH M,HAMMAMI M,et al.Discussion and review on evolving data streams and conceptdrift adapting[J].Evolving systems,2018,9(1):1-23.[4]㊀DITZLER G,ROVERI M,ALIPPI C,et al.Learning in nonstationary environments:a survey[J].IEEE computational intelli-gence magazine,2015,10(4):12-25.[5]㊀GAMA J,ŽLIOBAITE ㊃I,BIFET A,et al.A survey on concept drift adaptation[J].ACM computing surveys,2014,46(4):1-37.[6]㊀ALIPPI C,BORACCHI G,ROVERI M.Just in time classifiers:managing the slow drift case[C]ʊInternational Joint Confer-ence on Neural Networks.Atlanta,2009:114-120.[7]㊀KRAWCZYK B,MINKU L L,GAMA J,et al.Ensemble learning for data stream analysis:a survey[J].Information fusion,2017,37:132-156.[8]㊀GOMES H M,BARDDAL J P,ENEMBRECK F,et al.A survey on ensemble learning for data stream classification[J].ACM7282郑州大学学报(理学版)第53卷computing surveys,2017,50(2):1-36.[9]㊀SUN Y G,WANG Z,LI H,et al.A novel ensemble classification for data streams with class imbalance and concept drift[J].International journal of performability engineering,2017,13(6):945-955.[10]REN S Q,LIAO B,ZHU W,et al.Knowledge-maximized ensemble algorithm for different types of concept drift[J].Informa-tion sciences,2018,430:261-281.[11]LI Y,XU L,WANG Y G,et al.A new diversity measure for classifier fusion[J].Communications in computer and informa-tionence,2012,346:396-403.[12]MINKU L L,YAO X.DDD:a new ensemble approach for dealing with concept drift[J].IEEE transactions on knowledge anddata engineering,2012,24(4):619-633.[13]BRZEZINSKI D,STEFANOWSKI J.Reacting to different types of concept drift:the accuracy updated ensemble algorithm[J].IEEE transactions on neural networks and learning systems,2014,25(1):81-94.[14]DHALIWAL P,KUMAR A,CHAUDHARY P.An approach for concept drifting streams:early dynamic weighted majority[J].Procedia computer science,2020,167:2653-2661.[15]YAO Y Y.Three-way decisions and cognitive computing[J].Cognitive computation,2016,8(4):543-554.[16]BRZEZINSKI D,STEFANOWSKI bining block-based and online methods in learning ensembles from concept driftingdata streams[J].Information sciences,2014,265(5):50-67.[17]BIFET A,HOLMES G,KIRKBY R,et al.MOA:massive online analysis[J].Journal of machine learning research,2010,11(2):1601-1604.[18]LU J,LIU A J,DONG F,et al.Learning under concept drift:a review[J].IEEE transactions on knowledge and data engi-neering,2019,31(12):2346-2363.Three-way Decision Optimization Method for Concept DriftEnsemble ClassificationXU Jianfeng1,2,3,XIN Peng1,XUE Guoze2,YANG Yingfang2(1.School of Information Engineering,Nanchang University,Nanchang330031,China;2.School of Software,Nanchang University,Nanchang330047,China;3.School of Electronics and Information Engineering,Tongji University,Shanghai201804,China) Abstract:The three-way filtering method of the basic classifier for concept drift ensemble classification was proposed.The uncertainty of the base classifier was firstly calculated based on the information entro-py theory.And its accuracy was fused as a quality measure of the base classifier.Then the base classifier was three-way filtered by presetting the thresholdsα,β.The three-way filtering strategy was:base classi-fiers with quality weight less than or equal to thresholdβwere removed;base classifiers with quality weight greater than or equal to thresholdαwere retained;and base classifiers with quality weight greater thanβless thanαwould be delayed for further decisions.A corresponding number of base classifiers were added,the quality weight of the base classifiers was recalculated,and the three-way filtering was applied again until no base classifiers were removed or the specified number of iterations was reached. Compared with several classical algorithms on real datasets and synthetic datasets,the results showed that the proposed algorithm could effectively improve the classification performance.Key words:three-way decision;ensemble classification;concept drift;uncertainty evaluation;informa-tion entropy(责任编辑:孔㊀薇㊀王浩毅)。

面向高速数据流的集成分类器算法

面向高速数据流的集成分类器算法
所 有 类 别 的 中心 点 和 对 应 的 子 空 间 ; 后 将 各 个 数 据 块 上 每 个 类 别 的 中心 点 和 对 应 的 子 空 间 集 成 作 为 分 类 模 型 , 此 并
利用统计理论 的相 关知识检 测概 念漂移 , 态地 调整模 型。 实验 结果表 明 , 动 该方 法能够在 自适应数 据流概 念漂 移的
前提 下 对 数 据 流 进 行 快 速 的 分 类 , 得 到 较 好 的 分 类 效 果 。 并
关 键 词 : 念 漂 移 ; 据 流 ; 空 间 ; 类 ; 成 概 数 子 分 集 中图分类号 : P8T 3 1 T 1 ;P l 文 献 标 志码 : A
En e bl l s i c to l o ih o i h s e d da a s r a s m e ca sf a i n a g r t m f r h g p e t t e m i
C ODE J I N YI DU
h p/ w w je.n t :/ w .oac t
di1. 74 S ..0 7 2 1 .0 2 o:0 3 2 / P J 18 .0 2 0 69
面 向 高速 数 据 流 的集 成 分 类器 算 法
李 南 , 郭躬德
(. 1福建师范大学 数学与计算机科学学院,福州 30 0 ; 5 0 7 2 福建师范大学 网络安全与密码技术重点实验室, . 福州 3 0 0 ) 5 07 ({通信作者电子邮箱 gd ja eu a ) g @f .d .n n
Af rdv d n ie aa sr a i t e ea aa b o k ,i c mp td t ec n r l on n u s a e fre e l s n e c t ii i g a gv n d t te m no s v r ld t lc s t o u e h e ta ita d s b p c v r ca s o a h e p o y b o k w ih w r ne r td a h l s i c t n mo e. Me n h l , i ma e u e o t t t s t ee t c n e t d i . T e l c h c e e i tg a e s te c a sf ai d 1 i o awi e t d s f sai i o d tc o c p r t h sc f e p r n a e u t s o h tt e p o o e t o o ny c a sf st e d t t a f s a d a a t o t e c n e td f wi x e me tlr s l h w t a h r p s d me h d n to l l s i e h aa sr m a t n d p h o c p r t i s i e t i t h h g e p e , b t lo h sa b t rc a sf ain p roma c . ih rs e d u s a et l s i c t e fr n e a e i o Ke r s o c p r t d t t a y wo d :c n e t i ; aa s e m;s b p c ;c a sf ai n it ga in d f r u s a e l s i c t ; n e rt i o o

基于情景特征的前馈动态集成分类器

基于情景特征的前馈动态集成分类器

0 引 言
当今 , 越 来 越 多 的 企业 都 想 引 入 数 据 挖 掘 技 术 来 发 现 隐 藏 在 海 量 数 据 中具 有 商 业 价 值 的 知 识 , 以 预 测 市 场 未 来 的 发 展 趋 势从 而 辅 助 决 策 者 决 策 。 因 此 数 据 挖 掘 技 术 应 用 的 领 域 十分广泛 , 例 如零 售业 、 电信 业 、 股 票 证 券 业、 制 造业 等 。
配权重组合分类 器 , 采 用 基 于 实 例 剪 枝 的方 法 , 选 择 分 类 准 确 率 较 好 的基 分 类 器 用 来 集 成 处 理 数 据 流 中 的 概 念 漂 移 ; 并
从 理 论 上 证 明 了 在数 据 流 中 发 生 概 念 漂 移 的 情 况 下 , 集 成 分
基 于情 景 特 征 的前 馈 动态 集成 分 类 器
琚 春 华 ,邹 江 波 ,魏 建 良 ,张 华
( 1 . 浙 江 工商 大 学 计 算 机 与 信 息 工 程 学 院 ,浙 江 杭 州 3 1 0 0 1 8 ; 2 . 浙 江 工 商 大 学 现 代 商 贸研 究 中 心 ,浙 江 杭 州 3 1 0 0 1 8 )
这些行 业不断产生的数据形成数据 流 , 但 数 据 流会 随 时 间 的 变化而变化 , 并且 这些 变化 是预先 不可 知 的, 这 种 潜 在 上 下 文 的 变 化 可 能 引 起 目标 概 念 的 变 化 , 即概 念 漂 移 … 。 对 含 有
出分 类 结 果 , 该 模 型 随 着 新 数 据 的到 达 , 采用 F I R S T — I N,
类 器 的 错 误 率低 于 阈值 时 才 开 始 学 习会 使 集 成 分 类 器 对 当前 概 念 的 判 断 产 生 一 定 滞 后 性 ,所 以 本 文 在 集 成 分 类 器 的 基 础 上 ,融 入 了情 景 特 征 的 分析 ,采 用 信 息 增 益 的方 法提 取 情 景 特 征 , 通 过 动 态 设 置 情 景 特 征 的 阈值 来提 前 预

自适应概念漂移的在线集成分类器

自适应概念漂移的在线集成分类器

数据流具有大量 、快速到来和概念漂移等特性 ,这 不仅要求 数据流挖掘算法在有 限的计算 时间和 内存资源内完成挖 掘任 务 ,而且要求算法能够 自适应地改变模型以求拟合 当前 的概 念 。近年来 出现 了大量有效 的数据流分类算法。文献【】 出 1 提

发 生何种概 念飘移并 不重要 ,只需要检测分类器在 当前分布 上 的误差率就可 以判 断数据流是否发生了概念漂移。 设分类模型 c在分布 上随机抽取 的 n 个样本组成 的数 据集 D上的分类精度为 err( ) 该模型在一个新数据集 s rotc , j 上 的分类精度为 err c 。则有如下定理 : r  ̄ ) o( 定 理 当 e o () e o ( 一 X a r r C + X a ) r r C∈( rr C G Z rs r o) er  ̄ )G z, o) ( 2
中图 分类号: P0. T31 6
自适 应 概 念 漂移 的在 线 集 成 分 类 器
王 黎 明 ,周 驰
( 郑州大学信息工程学院,郑州 4 0 0 ) 50 1

要: 数据流挖掘要求算法能快速地 响应 、 占用少量 内存 和 自 应概念漂移。根据以上要求提 出一种 自适应概念漂移的基于 H e d g 适 of i fn
t h e t e u t o u d t t e f i g te r r b i e Ho fd n r e . p rme t l e u t s ow h tt e a g rt m a i h y a c r c n o t e t s r s l t p a e t o fd n r e o e u l a n w e f i g te s Ex e i n a s ls h s d r t a h l o i h h sahg l c u a yi

适于渐变概念漂移数据的自适应分类算法

适于渐变概念漂移数据的自适应分类算法

适于渐变概念漂移数据的自适应分类算法张景祥;王士同;邓赵红【期刊名称】《模式识别与人工智能》【年(卷),期】2013(000)007【摘要】At present, the concept-drifting phenomena in various datasets receives considerable attention. Aiming at the classification of concept drift, an adaptive neighbor projection mean discrepancy support vector machine (NMD-SVM) is proposed. The concept of the neighbor projection mean discrepancy in the reproducing kernel Hilbert space is defined to measure the discrepancy between adjacent sub-classifiers, and the distribution characteristics of data are integrated into the process of global optimization. Thus, the adaptability of classification algorithm is enhanced. The experimental results on the simulation and real datasets validate the effectiveness of the proposed algorithm.% 数据的概念漂移特性是广泛存在的。

针对渐变概念漂移的分类问题,提出一种自适应近邻投影均值差支持向量机算法。

该算法基于结构风险最小化模型,以再生核Hilbert空间中近邻投影均值差为相邻分类器间差异的度量,在全局优化中融入数据自身的分布特征,提高算法的适应性。

一种自适应局部概念漂移的数据流分类算法

一种自适应局部概念漂移的数据流分类算法

计算机科学2008V ol 35 2一种自适应局部概念漂移的数据流分类算法尹志武 黄上腾(上海交通大学计算机科学与工程系 上海200240)摘 要 本文基于DB2算法提出一个能实时检测局部概念漂移,并随之自适应调整的数据流分类算法Incr eDB2。

该算法动态增量维护一个层次分类树。

当局部概念漂移出现时,IncreDB2不是重新构造一个全新的分类树,而是仅更新漂移所影响到的局部结点,具有较高的时间效率。

实验结果表明了该算法的正确性和有效性。

关键词 数据流挖掘,多分类,局部概念漂移Adaptive Method for Handling Local Concept Drift of Data Streams ClassificationY IN Zhi Wu H U A NG Shang T eng(Department of C om puter Science and Engineering,S han ghai Jiaotong U nivers ity,Sh angh ai200240)Abstract Based o n the DB2method,an adaptiv e met ho d called Incr eD B2is pr oposed to detect and adapt to local co n cept dr ift continuously in data str eam classificatio n.T his metho d dynamically maintains a hierar chica l classificat ion tree.W hen local co ncept dr ift is detect ed,Incr eDB2only updates the nodes that affected by this drift rat her than re builds a new classificatio n tr ee f rom scratch,w hich means that it has better t ime eff iciency.Ex per imenta l results dem o nstr ated the validity and efficiency of t his metho d.Keywords Data str eam mining,M ulti classif ication,L o cal concept drif t1 引言作为一种新的数据形式,数据流[1~3]在入侵检测、传感器网络、股票分析等许多领域有着广泛的应用。

基于CVFDT的网络流量分类方法

基于CVFDT的网络流量分类方法

分类和识别变得 尤为重要。网络流量分类将成为 自动入侵检 测系统 的核 心部分 ,用来拒绝 攻击性服务请求 ,对重要客户 重新分布 网络资源 。此外 ,流量分类在各种流量工程、 网络 安全、 网络计费等应用领域也起着至关重要 的作用 。
网络流量分类经历 了几个 阶段 。最早采用 的是 由 S n提 e
Ne wo k n a cCl s i c t0 e h d t r m a sf a i n M t o i
Ba e n Co c p - d p i gVe y Fa t c so e s d 0 n e ta a tn r s De ii n Tr e
ZHU n ZHAo iYANG iwe Xi , Le, J- n
流量 类型集合 为 Y=/ , …, 。 Y , ) 识别问题即抽象为构造 一个 ,
作者1介 : 时 朱 欣(96 , , 18 -) 女 硕士 研究生, 主研方向 : 数据挖掘 ;
赵 雷 ,副教授 ; 杨季 文 , 授 教
由于 网络流数据规模大并且动态变化快 ,具有 多变性 、 连续性等特点 ,需要识别方法能够处理 内容 的转变并且及 时 地更新 。数据流挖 掘的方法能更好地处理流量 的识别 问题 。 文献【】 3提出用概 念 自适应快速决策树( o cp—dpig V r C n et at ey a n
( c o l f o u e ce c n e h oo y S o h w Unv ri , u h u2 5 0 , ia S h o mp tr in ea d c n lg , o c o iest S z o 1 0 6 Chn ) oC S T y
[ b ta t o s e n nen t aas em y a cl fg ou s ti pp r rp ssat f ccas iao to s gdt t a A src ]C ni r gIt e t t a d nmia yi lrev lme,hs ae o oe a l ict nmeh dui a s em di r d r l n p ri sf i n a r

基于多分类器集成的数据流分类方法

基于多分类器集成的数据流分类方法

低( : 即 已经 过 时 的分 类 器 ) 单 体 分 类 器 直 接 抛 的 弃 , 易地 放 弃 了 已经 掌 握 的 知识 , 轻 以后 再 遇 到相
同概念 的 时 候 需 要 重 新 训 练 学 习 , 致 算 法 效 率 导
不高。
如果 集成 分类 器 保 留学 习过 的概 念 , 以后再 遇
提 取有 价 值 信 息 已 经 成 为 了 数 据 挖 掘 领 域 新 的
挑战。 数据 流模 型可 以 表示 成 D:{., , 0 , . Ⅱ 0,… ・

标概 念 给数 据 流 的 挖 掘 造 成 了极 大 的 困 难 。为 了 解 决 这个 问题 由 Wag等人 提 出 了一种 利用 加 权 n
达 的数据 。数 据 流 模 型 在 以 下 几 个 方 面 不 同 于 传 统 的数据 模 型 : 1 )数据 高速 到达 , 实时 性要 求高 ;
2 )数 据 的到达 顺序 无法 控制 ; 3 )数据 可能是 无 限多 的 , 据流 中 的元 素被 处 数 理后 将被 抛弃 , 无法 存档 (rhv ) ac i 。 e 传统 的数 据 挖 掘 技 术 要 求 数 据 全 部 保 存 在 存
算 法 给 出集 成 分 类 器 的更 新 过 程 。关 于 基 础
分类器 的权 值衰减 过程 , I 4算 法 以及 S 。针 对 概 念 重 复 出现 的数
据流 , 我们在 这里 没有 设定 阈值 用来 删 除 基础 分 类 器 , 是选择 了权 值 最 小 的删 除 , 证 每 次 只 删 而 保 除一个 基础分 类器 , 量 多保 存 目标概 念 。并 将这 尽
学 计算 机 与通 信 工 程 学 院 硕 士 研 究 生 。研 究 方 向 : 据 挖 掘 与 知 数

基于加权与动态选择的不平衡数据流分类算法

基于加权与动态选择的不平衡数据流分类算法

基于加权与动态选择的不平衡数据流分类算法1. 内容概述随着信息技术的迅猛发展,数据流处理已成为当前研究的热点问题。

在众多应用场景中,不平衡数据流分类作为一个重要研究方向,对于维护系统的稳定性和提高资源利用率具有重要意义。

传统分类算法在处理不平衡数据时存在一定的局限性,如分类精度下降、计算复杂度高等。

为了解决这一问题,本文提出了一种基于加权与动态选择的不平衡数据流分类算法。

该算法的核心思想是在保证分类精度的同时,充分考虑数据流的动态变化特性,通过引入加权机制和动态选择策略,实现对不同数据流的差异化处理。

我们首先对数据流进行预处理,提取其特征信息;然后,根据特征信息计算每个数据流的权重值,权重值的大小反映了数据流的重要性;接着,在分类过程中,根据权重值动态选择待分类的数据流,优先处理权重较高的数据流;结合动态选择策略和传统分类算法,实现对不平衡数据流的分类。

本算法的创新之处在于:一方面,通过引入加权机制,使得算法能够根据数据流的实际重要性进行差异化处理,从而提高了分类精度;另一方面,通过动态选择策略,有效降低了计算复杂度,提高了算法的实时性。

本算法还具有较好的适应性,能够适应不同类型的数据流和不同的应用场景。

本文提出的基于加权与动态选择的不平衡数据流分类算法,旨在解决传统分类算法在处理不平衡数据时存在的局限性,提高分类精度和计算效率。

相信该算法在未来的实际应用中,将为相关领域的研究和应用带来有益的启示和参考。

1.1 背景介绍随着互联网的发展,网络流量日益增长,其中不平衡数据流的分类成为一个亟待解决的问题。

在不平衡数据流中,某一类别的数据量可能远远大于其他类别,导致分类器在训练过程中产生偏见,从而影响分类性能。

为了解决这一问题,本文提出了一种基于加权与动态选择的不平衡数据流分类算法。

在不平衡数据流分类问题中,传统的分类方法往往无法取得良好的效果,因为它们通常只关注多数类,而忽略了少数类的重要性。

传统方法在处理不平衡数据时,往往采用简单的权重设置或者采样方法,这些方法在某些情况下可能无法有效地提高分类性能。

文本分类中的概念漂移检测与分类优化研究

文本分类中的概念漂移检测与分类优化研究

文本分类中的概念漂移检测与分类优化研究概念漂移是指在文本分类任务中,由于数据分布的变化,导致模型的性能下降的现象。

概念漂移的存在对文本分类系统的稳定性和准确性造成了很大的挑战。

因此,研究如何检测概念漂移并优化文本分类模型变得非常重要。

一、概念漂移检测方法1. 监督学习方法:监督学习方法通过使用已标注的数据来训练一个分类器来检测概念漂移。

这种方法需要大量的标注数据,并且在面对新的概念漂移时,模型需要重新训练。

其中常用的方法包括Kullback-Leibler散度和Hoeffding's bound等。

2. 无监督学习方法:无监督学习方法通过对数据进行聚类或降维等无标签的处理,来检测概念漂移。

这种方法不需要标签,但在某些情况下可能产生较高的误报率。

常用的方法包括k-means算法和PCA等。

3. 半监督学习方法:半监督学习方法利用已标记和未标记数据的组合来检测概念漂移。

这种方法相比监督学习方法更节约成本,但在未标记数据的质量较差时容易受到负面影响。

常用的方法包括一致性和标签传播等。

二、分类优化方法1. 特征选择:特征选择是指选择对分类任务有用的特征,以提高分类性能。

这样可以减少冗余的特征,降低维度,提高模型的泛化能力。

常用的特征选择方法包括信息增益、卡方检验和相关系数等。

2. 特征抽取:特征抽取是指通过将原始文本数据转化为具有一定语义信息的特征向量,以减少噪声和冗余信息,从而提高分类性能。

常用的特征抽取方法包括词袋模型、tf-idf和词嵌入等。

3. 模型优化:模型优化是指通过调整模型的参数或结构,以提高分类性能。

可以使用网格搜索、遗传算法等方法来寻找最优的模型参数。

此外,还可以尝试不同的模型结构,如深度学习模型、集成模型等。

4. 集成学习:集成学习是指将多个分类器组合起来,以提高分类性能。

常见的集成学习方法包括投票法、堆叠法和Boosting算法等。

通过这种方式,可以减少模型的方差和偏差,提高模型的泛化能力。

基于子空间集成的概念漂移数据流分类算法

基于子空间集成的概念漂移数据流分类算法
情况 。
关键词 :概念漂移 ;数据流 :予空间:分类 ;集成
Cl s i c to g rt m o nc p ・ itngDa a S r a s d o bs a eI e r to a sf a i n Al o ih f rCo e tDr fi t t e m Ba e n Su p c nt g a i n i
计 算 机 系 统 应 用
ht:w . Sa r. t / wwc -. gc p/ - o n
21 0 1年 第 2 卷 第 1 0 2期
基于子空间集成的概念漂移数据流分类算
李 南 ,郭躬德
f 建师范大学 数学与计算机科学学院,福 州 3 0 0 ) 福 50 7
摘 要 :具有概念漂 移的复杂结构数据流分类 问题 已成为数据挖 掘领域研 究的热点之 一。提 出了一种新颖 的子 空 间分类算法 ,并采 用层次结构将其构成集成分类器用于解 决带概念漂 移的数据流 的分类 问题 。在将数据 流划 分为数据块后 ,在每个数据块上利用子空间分类算法建立 若干个 底层分类器,然后 由这几个底层分类 器组成集 成分类模型 的基分类器 。同时 ,引入数理 统计 中的参数估计方法检测概念漂移,动态调整模型 。实验 结果表 明: 该子 空间集成算法不但能够提高分类模型对 复杂类 别结构数据流 的分类精度 ,而且还能够快速适应概念漂移的
r s lss o t tt e p o os d m eh d do sn to l i nfc n l m p o e t e ca sfc t n p ro ma c n d ts t e ut h w ha h r p e t o e o ny sg i a ty i r v ls i a i ef r n e o a es i h i o a

数据流中概念漂移检测的集成分类器设计

数据流中概念漂移检测的集成分类器设计

1 集成 分 类器决 策算 法 I A CE
就引起 了数据流 中的概念 漂移 问题。例如在 正常 的数据 中出 现 了一些不可预测 的情 况 , 通货膨胀 、 候反 常或新产 品上 如 气
市, 那么原来挖掘的消费趋 向对应 的知识就可能改变 。这种 由
于潜 在信 息的变化而导致 目标概 念发生 根本性 变化 的技术被
称 为概念 漂移 。 19 9 6年 , d r Wi me 等人 提 出 了概 念 漂移 的问题 J并 且之 , 后的学者利用 机器学 习等研究 方 法进 行 了广 泛 的讨论 。 19 97年 ,a a i f等 人提 出了 P C 算法 。P C Sl c g o n ES E S算法是一
维普资讯
第2 5卷 第 1期 20n Re e r h o mp tr p i t s a c fCo u e s c o
Vo . 5, . 1 2 No 1
Jn 0 8 a .2 0
数 据 流 中概 念 漂 移检 测 的集 成 分 类 器 设 计
孙 岳 ,毛 国君 , 刘 旭
( 北京 工业 大学 计 算机 学院 北京 市 多媒 体与 智能软 件 重点 实验 室 , 北京 1 0 2 0 2) 0
摘 要 :提 出 了一种 称为 I E ice na cas i t ne sm l a o tm) C A(nrme t lsic i ne bel r h 的数 据流 挖掘 算 法 。 它利 用集 成 分 l fao g i
y Bin 0 0 2 hn ) g , eig10 2 ,C ia j
Ab ta t A n w mi i g ag r h c l d I E w sp o o e rmi i g c n e t r t f m aa sra .whc s d e s m— s r c : e n n lo t m al C A a rp s d f n n o c p i s r d t t ms i e o d f o e ih u e n e

自适应概念漂移的在线集成分类器

自适应概念漂移的在线集成分类器

自适应概念漂移的在线集成分类器王黎明,周 驰(郑州大学信息工程学院,郑州 450001)摘 要: 数据流挖掘要求算法能快速地响应、占用少量内存和自适应概念漂移。

根据以上要求提出一种自适应概念漂移的基于Hoeffding 树在线Bagging 分类算法。

利用统计学理论,检验分类模型在自适应窗口内数据的分类精度是否落入真实错误率的单侧置信区间,由检测结果决定更新Hoeffding 树或重建新Hoeffding 树。

实验结果表明,该算法在处理带有概念漂移的数据流上表现出较高的分类精度。

关键词:数据流;概念漂移;Hoeffding 树;在线BaggingOnline Ensemble Classifier for Adaptive Concept DriftWANG Li-ming ,ZHOU Chi(School of Information Engineering, Zhengzhou Unversity, Zhengzhou 450001, China)【Abstract 】Mining data streams require algorithms that make fast response, make light demands on memory resources and are easily to adapt to concept drift. This paper proposes a new algorithm for data streaming mining with concept drift called AHBag, which is based on Hoeffding tree online Bagging ensemble. The algorithm tests data within an adaptive window using the statistical theory for capturing the concept drift. According to the test results to update Hoeffding tree or rebuild a new Hoeffding trees. Experimental results show that the algorithm has a highly accuracy in dealing with data streams with concept drift.【Key words 】data stream; concept drift; Hoeffding tree; online Bagging DOI: 10.3969/j.issn.1000-3428.2011.05.025计 算 机 工 程 Computer Engineering 第37卷 第5期V ol.37 No.5 2011年3月March 2011·软件技术与数据库· 文章编号:1000—3428(2011)05—0074—03文献标识码:A中图分类号:TP301.61 概述近年来有大量的研究工作集中在连续的数据流挖掘上。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

自适应概念漂移的在线集成分类器王黎明,周 驰(郑州大学信息工程学院,郑州 450001)摘 要: 数据流挖掘要求算法能快速地响应、占用少量内存和自适应概念漂移。

根据以上要求提出一种自适应概念漂移的基于Hoeffding 树在线Bagging 分类算法。

利用统计学理论,检验分类模型在自适应窗口内数据的分类精度是否落入真实错误率的单侧置信区间,由检测结果决定更新Hoeffding 树或重建新Hoeffding 树。

实验结果表明,该算法在处理带有概念漂移的数据流上表现出较高的分类精度。

关键词:数据流;概念漂移;Hoeffding 树;在线BaggingOnline Ensemble Classifier for Adaptive Concept DriftWANG Li-ming ,ZHOU Chi(School of Information Engineering, Zhengzhou Unversity, Zhengzhou 450001, China)【Abstract 】Mining data streams require algorithms that make fast response, make light demands on memory resources and are easily to adapt to concept drift. This paper proposes a new algorithm for data streaming mining with concept drift called AHBag, which is based on Hoeffding tree online Bagging ensemble. The algorithm tests data within an adaptive window using the statistical theory for capturing the concept drift. According to the test results to update Hoeffding tree or rebuild a new Hoeffding trees. Experimental results show that the algorithm has a highly accuracy in dealing with data streams with concept drift.【Key words 】data stream; concept drift; Hoeffding tree; online Bagging DOI: 10.3969/j.issn.1000-3428.2011.05.025计 算 机 工 程 Computer Engineering 第37卷 第5期V ol.37 No.5 2011年3月March 2011·软件技术与数据库· 文章编号:1000—3428(2011)05—0074—03文献标识码:A中图分类号:TP301.61 概述近年来有大量的研究工作集中在连续的数据流挖掘上。

数据流具有大量、快速到来和概念漂移等特性,这不仅要求数据流挖掘算法在有限的计算时间和内存资源内完成挖掘任务,而且要求算法能够自适应地改变模型以求拟合当前的概念。

近年来出现了大量有效的数据流分类算法。

文献[1]提出一个通用集成分类器框架。

文献[2]提出基于Hoeffding 树的VFDT 算法对高速数据流增量学习决策树。

文献[3]对该算法进行了扩展,提出可以处理概念飘移的Hoeffding 树算法CVFDT 。

文献[4]介绍了如何在数据流环境中对训练样本进行自助聚集,并据此提出了在线的Bagging 和Boosting 算法。

本文通过分析概念漂移对分类器的影响,使用统计学理论在一定置信度的保证下检测概念漂移,并将该方法应用于基于Hoeffding 树的在线Bagging 分类器上,构成一种自适应概念漂移的在线集成分类器。

2 概念漂移的检测概念漂移为联合概率p (x ,y )的改变。

将联合概率分解为p (x ,y )=p (x )p (y |x ),将概念漂移看作是由样本的先验概率p (x )和条件概率或后验概率p (y |x )的改变所导致。

当p (x )改变而p (y |x )不变,称为特征改变[5]。

此种漂移意味着某些先前频繁出现的特征向量变得越来越不频繁,反之亦然。

这种漂移是由数据分布变化引起了分类模型的变化,其实际对应的目标概念(规则)并没有发生变化,这对应于传统数据挖掘中的样本选择偏置问题。

当 p (y |x )不变而p (x )改变,称为条件改变[5]。

意味着特征分布相对稳定,但特征向量所对应的类标号往往发生了改变,即后验概率发生了改变。

在带有条件改变的数据流上建立分类模型时,增加历史数据往往会造成概念冲突。

从实践的角度考虑特征改变和条件改变是同时并存的,这使得概念漂移对分类器的影响难以度量。

但如果样本的分布发生了变化,分类器在此样本分布上的误差率将会增加[6]。

即发生何种概念飘移并不重要,只需要检测分类器在当前分布上的误差率就可以判断数据流是否发生了概念漂移。

设分类模型C 在分布Φ上随机抽取的n 个样本组成的数据集D 上的分类精度为()D error C ,该模型在一个新数据集S 上的分类精度为()S error C 。

则有如下定理:定理 当/2/2()((),())S D D error C error C z error C z αασσ∈−×+×时,有1α−的置信度表明数据集S 相对于分布Φ没有发生概念漂移。

其中,σ≈;/2z α为由置信度1α−和标准正态分布所决定的常数。

证明:将分类模型C 对每一个样本的输出结果描述为一个随机变量Z ,Z =false 表示分类错误,Z =true 表示分类正确。

那么随机变量()D error C 服从参数为n 、()p error C Φ=的二项分布。

基于中心极限定理,对于足够大的样本个数n ≥30时,二项分布近似于有着相同均值和方差的正态分布,则()D error C 为均值p µ=、标准差σ的正态分布。

那么分类器C 在分布Φ上的任一观察值有1α−的机会落入下面的区间:/2z αµσ±× (1)当然p 是无法计算的,由文献[6]可知,()D error C 是p 的一个无偏估计量,则有:()D error C µ=,σ作者简介:王黎明(1963-),男,教授、博士,主研方向:分布式数据挖掘;周 驰,硕士研究生收稿日期:2010-08-18 E-mail :zhouchill@第37卷 第5期 王黎明,周 驰:自适应概念漂移的在线集成分类器 75将其代入式(1)即可求得分类器C 关于真实概念在分布Φ上的期望错误率p 的置信区间。

当分类器C 的一个观察值()S error C 不在p 的置信区间内时,可以认为在1α−的置信度下数据集S 产生了概念漂移,反之亦然。

定理证毕。

3 自适应概念漂移在线Bagging 集成HABag 算法采用Hoeffding 在线学习算法作为基础分类模型。

每个基础的分类器对在数据流上进行自助聚集的样本集进行增量式的学习,当分类器遇到30次以上分类误差时,使用定理1捕获概念漂移。

增量学习器在学习不充分时带有较大的方差,随着训练样本的增多分类误差会逐渐降低,于是需要对理论作如下改变以适应增量学习算法需要:(1)保存µ和σ的最小值,记为min µ和min σ。

(2)采用单侧置信区间,即()D error C 置信度1α−时的单侧置信区间为(min min ,z αµσ+×+∞)。

(3)设置2个不同的置信度参数1α和2α,其中,1α>2α。

当()S error C ∈(1min min z αµσ+×,2min min z αµσ+×)时,认为数据流出现疑似概念漂移;当()S error C ∈(2min min z αµσ+×,+∞)时,认为数据流确实发生了概念漂移;当出现疑似概念漂移时,停止学习,并存储积累随后到来的数据。

在确认概念漂移后,使用所积累的数据重新建立一个新的Hoeffding 树。

当没有发生概念漂移时,根据文献[4]使用参数为1的poisson 函数产生一个整数k ,Hoeffding 树学习当前样本k 次。

选择30次分类误差既保证了概念漂移检测中的统计学理论的假设成立(n >30),也使得算法随着概念漂移的快慢自适应调整检测频度(概念漂移出现越严重检测越频繁)。

算法在任何时刻都输出一个在线集成分类器,随时对到来的未标号数据进行分类。

算法的伪代码如下所示:输入 数据流(,)i z x y =,其中,x χ∈;y Y ∈E ={1ht ,2ht ,…,m ht },其中,j ht 为Hoeffding 树分类器;E 为分类器集合警戒参数1α,漂移参数2α 输出 更新后的分类器系统E BEGIN for each z i dofor all classifier ht j in E do if(errorMax = 30) then DriftDection ();//检测概念漂移 elseif(DriftDection == alarm) thenInst.add(z i );//如果出于疑似概念漂移则保存样本 else if(DriftDection == drift) thenInst.add(z i );//如果检测到概念漂移重新建立分类模型 ht j = BuilderClassifier(Inst); elseInst = null;//进行在线学习自助聚集的样本 for k = passion(1) do Ci.trainOnInstanceImpl(z i ); end forend ifend ifht j .calculateError();//更新分类错误参数 end for end for END4 仿真实验4.1 实验参数设置Massive Online Analysis(MOA)[7]是一个基于WEKA 用Java 实现的可以从数据流中在线学习、产生仿真数据流和进行算法评估的一个软件平台。

本文算法基于MOA 软件平台实现,算法评估也是在MOA 上进行的。

AHBag 算法中的警戒参数和漂移参数分别为:1α=0.05,2α=0.01,所用比较算法的参数使用MOA 中的默认值。

相关文档
最新文档