基于卡方方法及对称不确定性的网络流量特征选择方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于卡方方法及对称不确定性的网络流量特征选择方法
刘雪亚;姜志侠;徐轩;杨子帅;李林
【摘要】对网络流量数据进行分类时,由于网络流量具有多个类别,并且各类样本数量不均衡,故在利用机器学习进行分类时,会导致分类的模型的性能降低,致使样本被误分为样本数量多的类别,进而致使样本数量较少的类别(小类别)的召回率过低.针对该问题,提出一种基于卡方方法及对称不确定性网络流量特征选择方法.该方法首先计算特征与类之间的加权卡方值,选择卡方值较大的特征组成候选特征子集,然后根据特征与所有类之间的对称不确定性进一步筛选特征集.在Moore网络流量数据集上进行实验,得到的实验结果证明,通过该方法选择的特征对网络流量数据进行分类,在保证准确率高的前提下也得到了较高的小类召回率,减轻了数据不均衡问题带来的不良影响.
【期刊名称】《长春理工大学学报(自然科学版)》
【年(卷),期】2019(042)002
【总页数】5页(P74-78)
【关键词】数据不均衡;网络流量;相对不确定性;召回率
【作者】刘雪亚;姜志侠;徐轩;杨子帅;李林
【作者单位】长春理工大学理学院,长春 130022;长春理工大学理学院,长春130022;长春理工大学理学院,长春 130022;长春理工大学理学院,长春 130022;长春理工大学理学院,长春 130022
【正文语种】中文
【中图分类】TP393
随着网络技术的日益发展,互联网已经成为人们获取和共享信息资源的非常重要的方式。
但同时由于互联网的飞速发展,互联网的用户规模、网络应用种类以及网络流量数据也随之急剧增长,使得网络结构愈加复杂,这就对网络管理、维护和检测技术提出更高的要求。
网络流量分类是指按照各个应用的属性将大量的混合网络流量数据进行归类的过程[1]。
但是由于互联网的用户对各种网络应用的使用频率不同,使得各个网络应用的数据出现了不平衡现象。
如剑桥大学Moore等提供的数据集,共包括10个
数据集,涵盖了12类的网络流量数据,共377526个样本[3]。
但是Moore数据集却是一个数据不均衡数据集,其中大类别(WWW类)占总样本的85%以上,而小类别(ATTACK、INTERACTIVE类等)在总样本中所占比例不足1%,故对
网络流量数据进行分类时,得到的分类模型对大类别效果更好,而对小类别效果欠佳,因此关注点不能只是整体的分类准确率,应对各个类别的召回率考虑更加重视。
如直接对Moore数据集分类时,由于WWW类别样本的个数较多,其召回率也
高达90%以上,但是由于ATTACK类别样本数量小,其召回率只达50%左右。
尽管有些类别的样本量小,但是并不能忽略其重要性,如P2P类型的网络流量数
据对于合理分配网络宽带具有指导意义;而ATTACK类型的网络流量属于网络攻击,准确地识别出此类型的流量也是十分重要的。
所以为了最大可能地减弱各类数据不均衡问题的影响,需要在保证分类准确的基础上,提高小类的召回率。
在网络流量分类问题中,每个样本都具有248个特征,特征属性繁多且许多特征
之间存在强相关性,这增加了网络流量分类问题中建模的复杂度,并且会降低分类的准确率。
因此需要在保证其分类准确性的前提下对网络流量进行特征选择,剔除一些具有冗余性和相关性极小的特征,以提高各个类别的召回率。
1 相关工作
相关领域的各国学者针对网络流量数据分类问题进行了分析研究,近些年来对于网络流量分类的研究中基于统计方法和机器学习的方法成为热点。
Lei等[3]利用
统计的方法计算出各个特征的卡方值并选择前k个,之后利用遗传算法和C4.5决策树对所选出的前k个特征再进行选择;褚慧琳等[4]提出了过滤型和封装型相结合的特征选择算法;孙兴斌等[5-6]先是提出了基于统计频率的特征选择方法,根据样本的频率计算特征选择系数,选择特征与类别相关性较强的特征,接着又提出基于相对不确定性和对称不确定性的Hybrid型特征选择方法,利用信息熵理论对特征进行选择;刘纪伟等[7]提出基于统计排序的网络流量特征方法,基于统计方法定义特征选择系数和特征影响系数对特征进行二次选择。
本文针对网络流量不均衡问题提出一种基于卡方方法及对称不确性的特征选择方法(Chi-square method and symmetric uncertain network traffic feature selection,CHI-SU),CHI-SU方法首先计算出所有特征和各个类别之间的卡方值,接着引入信息熵对所计算得到卡方值进行加权排序,选择出候选特征子集后再进行最优特征子集的搜索。
最终通过所构造的特征集利用C4.5决策树对网络流量进行分类,在分类准确率较高的情况下,可以提高各个类别的召回率。
2 基于卡方方法及对称不确定性的特征选择方法
2.1 卡方统计选择方法
卡方统计量可以衡量特征t与类别c的相关程度,假设t(共p个)和c(共q个)之间符合具有一阶自由度的卡方分布,则特征t对于类别c的χ2值的计算公式为:
其中,N :总样本的个数;N i̇j:有特征ti且属于类cj的样本个数;:有特征 ti
但不属于类 cj的样本个数;:没有特征 ti但是属于类 cj的样本个数;:没有特征ti也不属于类 cj的样本个数;Nj:属于类cj的样本个数;Njˉ:不属于类cj的样
本数。
从(1)式可以得到,特征ti与类别cj相关性大时,χ2值也会较大,计算所有特征ti与所有类别的χ2值,可以计算得到χ2矩阵,记为K,则K为:
QIU Y.F等[8]已经证明,用卡方方法对特征进行选择效果显著,但是从(1)式可看出所计算的χ2值仅体现在特征与类之间的相关性,χ2值较大时表示此特征含有较多类别的信息,反之亦然,这种方法在处理各类别样本数目相当时具有良好的效果,但是对于各类数据不均衡时卡方方法具有一些偏差。
所以对于处理不均衡的数据集,以往的卡方特征选择方法存在着不足之处,为了解决这一问题,综合考虑特征在每个类别中的具体分布,对各类别数据不均衡和特征选择问题进行处理,在卡方统计方法上融合信息熵[9],计算加权的χ2统计量,可以较好地表示出特征对类的区分能力,更好地解决不均衡数据集下特征选择问题。
2.2 对称不确定性
对特征ti与类别cj计算出的卡方值进行加权,加权后的卡方统计量记为
SUχ2(ti,cj),加权后的卡方统计量考虑了特征与类别之间的相关性又衡量在数据集不均衡的情况下特征对不同类别的区分能力,利用对称不确定性来衡量某个特征对总体类别C的区分能力[10],对称不确定性的定义为:
其中:
则:
p(cj|ti,k):cj类在特征ti离散化后的第k个取值条件下出现的概率;
Nti:特征ti离散化后的取值个数;
p(ti,k):特征ti离散化后第k个取值出现的概率;
H(ti):特征ti的信息熵;
H(C|ti)为总体类别C在特征ti下的条件熵;
IG(C|ti):总体类别C在特征ti下的信息增益。
对称不确定性可以用来衡量特征ti和类别C之间提供的信息量,为0表示特征ti
和类别C相互独立,如果,则表示特征ti能更容易地区分不同类别的样本。
对于
不均衡的数据集,首先根据卡方统计量可以看出一些特征含有较多的区分信息,再根据其信息熵、信息增益以及对称不确定性,对各个类别的权重加以调整,使得最终分类时提高其整体和小类别的召回率,对χ2统计矩阵进行加权得到矩阵K′:
2.3 特征选择方法(CHI-SU方法)
基于卡方特征选择方法首先根据公式(3)计算出的加权卡方矩阵(4)选择与每
个类相关性较高的k个特征,去掉重复的特征后再选择,构成候选特征子集;再
从已经构成的候选特征集中依次选择特征,利用C4.5决策树对数据集进行分类,同时记录结果,根据分类结果确定最优特征子集。
步骤如下:
步骤1.对于每个类cj,由(1)式计算出χ2(ti,cj);对于每个特征ti,由(2)式计算得到SU(ti,C );根据公式(3)计算SUχ2(ti,cj) ,得到加权χ2矩阵K′,按照矩阵(4)的列即对于每个类cj的每个特征ti排序,选择前l个加权χ2值大的特征。
步骤2.对于每个特征集合Tj,去除Tj中属于T1,T2,…,Tj-1的特征,将集合中所有特征按照其SU值降序排列,保留前k个特征,过滤其余特征,得到q个特征集
合Tj(j=1,2,…,q)。
步骤3.搜索最优特征子集,初始化特征集合T′为空集,对于每个特征集合Tj,从
中选择一个特征放入T′集合中。
步骤4.对数据集训练集S、测试集D进行预处理,保留T′集合中的特征,得到处
理后的训练集S′和测试集D′,用C4.5决策树分类器对S′进行训练,并利用D′进
行测试,记录分类效果;
步骤5.重复步骤3,直到完全搜索整个特征空间,选择分类效果最好的特征集合输出。
3 实验分析
3.1 实验数据集
实验数据集采用的为Moore数据集[3],该数据集共包含了10个数据集,分为了12个类型的网络流量数据,每条数据均有249个流特征,其中最后一项为类别特征。
但是由于GAMES、INTERACTIVE、DATABASE和MUTIMEDIA这四个类型的网络流量数据并不是在每个子数据集中都存在,故对过滤掉四类数据集进行分类预测,过滤之后的样本数及比例如表1所示。
表1 Moore数据集详细信息流量类型样本数所占比例
WWW29227487.888%MAIL236267.104%FTP-CONTROL24731.044%FTP-PASV26110.785%ATTACK14690.442%P2P15450.465%FTP-
DATA54531.640%SERVICES21030.632%TOTAL332554100.000%
3.2 实验工具与实验流程
实验使用的主要实验工具为Matlab R2012b和Weka 3.8,实验平台运行Windows 8操作系统,CPU为Iterl Core i5-4200 1.6GHz,内存大小为4.00GB。
实验的算法流程图如图1所示。
图1 实验的基本流程图
表2 三种方法所选的特征符号及物理意义FFS方法FSMID方法CHI-SU方法1 server port1server port1server port 60pushed_data_pkts b a24min data control60pushed data pkts b a 83Min_segm size a b83min_segm size a
b83min segm size a b 97Initial_window_packets a b74sacks sent b
a95initial window-bytes a b 95initial_window_bytes a b66rep_1323_ts
ab96initial window-bytes b a 66rep_1323_ts ab96Initial window-bytes b
a107data xmit time a b 88max_win_adv_b a137segs cum acked a b
155med_data_wire_a b181min data ip b a
孙兴斌等人在文献[6]中提出了FFS方法即基于统计频率的网络流量特征选择方法,在文献[7]中提出了FSMID方法即面向多类不均衡网络流量的特征选择方法,这两种方法都是讨论网络流量数据不均衡性,且使用的实验数据集均为Moore数据集,评价指标使用的均为准确率以及召回率,故将CHI-SU方法和FFS方法、FSMID方法进行对比分析,利用三种方法所选择的流量特征的序号[11]如表2所示。
3.3 评价指标
传统的分类器评价标准是分类的精确率,可增加召回率这一指标来共同衡量所选特征集合的优劣。
其中精确率和召回率可由二分类混合矩阵得出,二分类混合矩阵如表3所示。
表3 二分类混合矩阵实际正类实际负类预测正类TPFP预测负类FNTN
根据表3定义正类的Precision(精确率)和Recal(l召回率):
3.4 实验结果
由表1可以看到,ATTACK类别的网络流量数据占比为0.442%,数量相对较少,但是其在识别网络攻击时的重要性却远超于其他类别。
故对网络流量进行分类时,会对大类别如WWW类别的网络流量数据更有利,而小类别的数据极易被误分。
利用三种不同的方法得到的特征对少数类ATTACK类型的流量数据分类后的精确率如表4所示。
表5是通过三种不同的方法得到的特征对少数类ATTACK类型的流量数据分类后
的召回率,可以得到在精确率都在90%以上的情况下,CHI-SU方法明显也提高了小类ATTACK的召回率。
表4 三种方法在每个数据集中ATTACK类的精确率数据集FFS方法FSMID方法CHI-SU方法1 0.9470.9460.948 2 0.5710.8000.800 3 0.9091.0000.999 4
1.0000.9890.993 5 0.9690.9700.980 6 1.0001.0000.992 7 0.7000.7000.778 8 1.0000.9860.959 9 0.9830.9770.977 100.9560.9820.960平均
0.9040.9350.939
表5 三种方法在每个数据集中ATTACK类的召回率数据集FFS方法FSMID方法CHI-SU方法1 0.590.5740.698 2 0.2110.2110.211 3 0.2440.1950.544 4
0.8520.8520.855 5 0.7790.7870.795 6 0.8960.8960.896 7 0.0790.0790.567 8 0.5430.5350.827 9 0.8070.8090.804 100.7470.7470.838平均
0.57480.56850.7035
4 结语
对网络流量进行分类时,数据不均衡问题时常出现,故对网络流量数据不均衡问题的研究是一项热门的问题,提出的基于卡方方法及对称不确定性的网络流量特征选择方法对比于其他方法,准确率并没有明显的提高,但是在小类别召回率有明显提高。
如何简单迅速地选择出合适的特征集合,在保证整体分类准确率以及各类别准确率的同时,大幅度地提高其召回率及其他的一些指标,是未来研究的一个方向。
参考文献
【相关文献】
[1]王立东,钱丽萍,王大伟,等.网络流量分类方法与实践[M].北京:人民邮电出版社,2013.
[2] Moore A W,Papagiannaki K.Toward the Accurate Identification of Network Applications[C].International Conference on Passive and Active Network Measurement.Springer-Verlag,2005:41-54.
[3] Lei D,Xiaochun Y,Jun X.Optimizing traffic classification using hybrid feature selection[C].The Ninth International Conference on Web-Age Information Management.IEEE,2008:520-525.
[4]储慧琳,张兴明.一种组合式特征选择算法及其在网络流量识别中的应用[J].小型微型计算机系统,2012,33(2):325-329.
[5]孙兴斌,芮赟.一种基于统计频率的网络流量特征选择方法[J].小型微型计算机系统,2016,37(11):2483-2487.
[6]孙兴斌,孙彦赞,郑小盈,等.面向多类不均衡网络流量的特征选择方法[J].计算机应用研究,2017,34(2):568-571.
[7]刘纪伟,赵月显,赵杨.一种基于统计排序的网络流量特征选择方法[J]. 电子技术应用,2018(1):84-87.
[8] Qiu Y F,Wang W,Liu D Y.Research on an improved CHI feature selection method [C].Applied Mechanics and Materials.Trans Tech Publications,2013,241:2841-2844. [9] Dash M,Liu H.Feature selection for classification[J].Intelligent data analysis,1997,1(3):131-156.
[10] Xu K,Zhang Z L,Bhattacharyya S.Internet traffic behavior profiling for network security monitoring[J].IEEE/ACM Transactions on Networking(TON),2008,16(6):1241-1252.
[11] Moore A W,Zuev D.Internet traffic classification using bayesian analysis techniques[C].ACM SIGMETRICS Performance Evaluation Review.ACM,2005,33(1):50-60.。