SDN_中基于信息熵与机器学习的DDoS_攻击检测模型构建
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第6期2024年3月无线互联科技
Wireless Internet Science and Technology
No.6March,2024
基金项目:2022年校级科研重点项目;项目编号:SKZ -2022-09㊂2022年校级科研重点项目;项目编号:SZKZ -2022-05㊂2021年校级科研一般项目;项目编号:YJY -2021-06㊂
作者简介:鲁顶芝(1985 ),女,助教,硕士;研究方向:计算机应用技术,大数据㊂
SDN 中基于信息熵与机器学习的DDoS 攻击检测
模型构建
鲁顶芝
(滁州职业技术学院,安徽滁州239000)
摘要:软件定义网络(Software -Defined Network ,SDN )的集中控制特征使得网络管理更加灵活高效,但同时也成为网络攻击的主要对象,其中分布式拒绝服务攻击DDoS 是SDN 面临的主要威胁之一㊂结合统计学习和机器学习这2种SDN 中常用的检测方法,文章分析了基于信息熵与机器学习算法的DDoS 攻击检测模型,并利用信息熵的阈值判断检测出疑似异常流量,再用决策树算法构建的检测模型检测出DDoS 攻击㊂分类检测模型构建了6个特征属性,并通过计算信息增益值筛选出最优特征子集㊂通过与其他分类算法模型的比较,该模型提高了检测准确性,减少了检测时间㊂关键词:软件定义网络;分布式拒绝服务攻击;信息熵;攻击检测中图分类号:TP311㊀㊀文献标志码:A
0㊀引言
㊀㊀随着互联网的快速发展,网络成为人类生存的新型环境,网络安全也面临严峻考验㊂为了灵活高效地管理网络,软件定义网络(Software Defined Network,SDN)应运而生[1],其突破了传统网络固有的垂直整合模式,通过网络虚拟化将控制层和数据层进行解耦,由控制层实施网络信息的集中控制,实现了 软件管理网络 ,但也因此使SDN 控制层成为网络攻击的主要目标㊂分布式拒绝服务攻击(Distributed Denial of Service,DDoS)是SDN 面临的主要威胁之一,其通过伪装源互联网协议(Internet Protocol,IP)地址向交换机发送大量无用数据包,交换机无法匹配流表项,便将该数据包转发给控制器,控制器不断收到无用的数据包,导致资源耗尽,使整个SDN 陷入瘫痪㊂因此,如何快速精准地识别SDN 中DDoS 成为当前的研究难点㊂
1㊀研究进展
㊀㊀目前,针对SDN 中的DDoS 攻击检测主要基于统计学习和机器学习2类:统计学习方法通过信息熵体现数据流量的随机性,具有较高的检测速率,但准确率相对较低;机器学习方法具有更优的准确率,但相对复杂的计算成本导致检测速率较低㊂因此,结合统计学习和机器学习2种检测方法,本文提出基于信息熵与机器学习算法的DDoS 检测方法,以兼顾高检测速率和高准确率㊂如张龙等[2]提出一种基于信息熵和深度神经网络(Deep Neural Network,DNN)的检测方法,手动构建了2个特征,通过判断计算特征向量在窗口内信息熵是否超过阈值,进行异常初检,再使
用DNN 检测㊂齐鎏岭[3]提出基于条件熵和神经网络的检测方法,用条件熵构建了四元组特征向量,再用神经网络算法进行分类㊂傅友等[4]提出一种基于条件熵和决策树的检测方法,提取6个流量特征进行条件熵的阈值判断,再用C4.5决策树分类㊂王智等[5]提出联合熵与多重聚类的检测方法,通过两级检测方式,一级使用联合熵快速检测,二级使用多重聚类等技术进行半监督学习分类㊂本文基于信息熵与机器学习算法相结合的模型构建思想,进行特征构造㊁分类算法的比较等,以提高了SDN 中DDoS 攻击检测的准确率,缩短了检测时间㊂
2㊀SDN 中DDoS 攻击检测模型
㊀㊀本文通过在控制层设置DDoS 攻击检测模型,该模型由预警模块和检测分类模块组成,其中预警模块将信息熵超过阈值的数据进行报警,检测模块再对疑似异常的流量进行精准检测,SDN 中DDoS 攻击检测模型如图1所示㊂
2.1㊀基于信息熵的预警模块
㊀㊀预警模块根据收集的数据包,计算在一定的窗口时间内数据特征的熵值,再与阈值进行比较以判断是否异常,包含确定窗口周期㊁计算窗口特征熵值㊁设置阈值3个重要环节㊂2.1.1㊀确定窗口周期
㊀㊀该周期时间的确定会影响检测环节的实效性,若设置较大,则会因采样不及时,导致特征数据检测不准确;若设置较小,则增加南向接口和控制器的资源占用㊂因此,采用自适应的方式设置采样周期,不仅能够减少资源占用,还可以保证数据流特征的准确性㊂
图1㊀SDN 中DDoS 攻击检测模型
2.1.2㊀计算窗口特征熵值
㊀㊀熵即信息熵,信息熵值越小,样本的不确定性就越大;信息熵值越大,样本的不确定性就越小㊂当SDN 受到DDoS 攻击时,使用源IP 地址欺骗,窗口中受害者的目标IP 地址会相对集中㊂因此,本文通过计算目标IP 地址的熵值作为初检㊂样本熵值计算公式如式(1)所示㊂
E (d )=-ðc -1
i =0P (i |
d )log 2P (i |d )
(1)
其中,c 代表窗口容量,d 代表窗口样本,P (i 丨d )代表目标IP 地址占总样本IP 地址的比例㊂
2.1.3㊀确定阈值
㊀㊀阈值设置不合适将造成较高的误报率㊂阈值通常包含静态阈值和动态阈值2种㊂其中静态阈值设置增加了人为设置的因素,不易根据网络流量变化而调整,沈浩桐等[6]提出利用指数加权移动平均(Exponentially Weighted Moving Average,EWMA)模型动态阈值计算方式,当目标IP 地址的熵值在动态阈值区域,则进行下一个窗口采样,反之,则使预警信号进入攻击检测模块,以提高模型的准确率并降低其误报率㊂
2.2㊀基于机器学习的攻击检测模块
㊀㊀攻击检测模块基于机器学习算法检测疑似异常流量是否属于DDoS 攻击㊂此处构建二分类模型进行攻击检测,主要包含数据收集㊁数据预处理㊁数据建模㊁模型评价4个模块㊂其中数据收集模块主要是通过初级预警模块收集疑似异常的流量信号㊂异常流量与正常流量之间有明显的特征区别,根据DDoS 攻击特征,所建模型进行流表项分析,构建符合DDoS 攻击的特征并进行标准化处理㊂对处理后的六元组特征序列进行各特征信息增益的计算,并进行决策树分类检测㊂最终,本文通过比较决策树㊁支持向量机(Support Vector Machine,SVM)㊁KNN 等多种分类算法的检测效果进行检测模型评价㊂具体分类模型检测流程如图2所示,其中关键环节是特征构造㊁分类算法的选用
㊂
图2㊀分类模型检测流程
2.2.1㊀特征构造
㊀㊀当SDN 发生DDoS 攻击时,攻击者会伪造数据包源IP 地址,使得源IP 地址分散程度增加,并不断地发送请求,使得单位时间的流量增加异常,针对受害者的攻击,使得目标IP 地址相对集中㊂因此,从异常流量的流表信息中获取相关信息,构造DDoS 攻击特征信息六元组㊂
(1)流表平均包数㊂DDoS 攻击常以较小的数据流发送大量的请求,或者以大容量的数据包占用网络资源,实施攻击㊂因此,数据流表的平均数据包过高或过低均有可能被判定为DDoS 攻击㊂
(2)流表平均字节数㊂同样地,攻击者会使用较少的流表平均字节数以提高DDoS 攻击效率,或使用较多的流表平均字节数占用系统资源㊂
(3)流表增速㊂当DDoS 攻击发送大量数据包请求至受害主机时,系统中在一定时间间隔内的数据流请求增速明显,这是DDoS 攻击中不可忽略的重要
特征㊂
(4)源IP 地址的熵值㊂DDoS 攻击通常发生在源IP 地址相对松散㊁目标IP 地址相对集中的网络中㊂预警模块算法已经根据目标IP 地址的信息熵进行初步检测,在该算法中计算源IP 地址的信息熵,当DDoS 攻击发生时,源IP 地址随机性较大,其熵值也相对较大㊂
(5)端口增速㊂服务端口通常处在相对稳定的范围内,当发生DDoS 攻击时,端口增速较之前的正常状态有明显提升㊂
(6)成对流比例㊂当发生DDoS 攻击时,其伪造源IP 地址,使单向流量增加,该过程表现为目标IP 地址响应源IP 地址的流表项减少,源IP 地址流表项增多,进而使对称流量比例明显下降㊂2.2.2㊀分类算法
㊀㊀机器学习在攻击检测流量分类中起着关键作用,不同的算法存在不同的分类效果和应用㊂常用的分
类算法包括决策树㊁支持向量机㊁K近邻算法等㊂决策树算法采用自顶向下递归的方式,总结出分类决策规则并用树状图来体现,其利用信息增益,选择信息增益最大的特征作为决策树节点的分割特征㊂决策树算法简单,计算成本低㊂支持向量机算法相对决策树具有更高的计算复杂度㊂K近邻算法支持增量学习,但其计算成本较大㊂
因此,为了提高算法的检测速率,本文使用决策树算法进行攻击检测分类,同时,与支持向量机㊁K近邻算法进行分类效果的比较,以检验不同分类模型在攻击检测中的准确率和误报率㊂
3㊀实验与分析
㊀㊀实验过程中,洪范发起DDoS攻击,抓取的OpenFlow数据包具有正常流量与异常流量,通过动态阈值判定,进行目标IP地址的信息熵检测,筛选出疑似异常流量㊂对疑似异常流量构造6个特征属性,该实验步骤形成6维数据集,划分20%作为训练集,并多次动态地选取训练集㊂该处实验使用决策树算法原理,先对特征信息增益值进行计算,选择信息增益最大的特征进行迭代分割节点构建决策树,并使用投票计数,赋予权重并排序,选择最优特征子集,最终进行分类预测㊂将此模型的预测结果与支持向量机㊁K近邻算法模型进行比较,其在查准率㊁召回率等方面均有明显提升,该模型的检测时间也有所减少㊂
4㊀结语
㊀㊀本文结合信息熵与机器学习算法进行SDN中DDoS攻击检测,通过把目标IP地址的信息熵进行疑似异常流量的初级预警,再用决策树算法构建的检测模型检出DDoS攻击㊂该模型在查准率㊁召回率和检测时间等方面均表现较好㊂接下来,课题组将进一步研究对初级预警模型进行信息熵的组合算法,如结合源IP地址熵值构造条件熵㊁联合熵等,或在分类检测模块进行集成算法优化,进一步提高检测的准确率,降低误报率㊂
参考文献
[1]AMIN R,REISSLEIN M,SHAH N.Hybrid SDN networks:a survey of existing approaches[J].IEEE Communications Surveys&Tutorials,2018(4): 3259-3306.
[2]张龙,王劲松.SDN中基于信息熵与DNN的DDoS 攻击检测模型[J].计算机研究与发展,2019(5): 909-918.
[3]齐鎏岭.SDN中基于熵和神经网络的DDoS攻击检测方法研究[D].保定:河北大学,2019.
[4]傅友,邹东升.SDN中基于条件熵和决策树的DDoS攻击检测方法[J].重庆大学学报,2023(7): 1-8.
[5]王智,张浩,顾建军.SDN网络中基于联合熵与多重聚类的DDoS攻击检测[J].信息网络安全,2023 (10):1-7.
[6]沈浩桐,魏松杰.SDN环境下DDoS攻击检测和缓解系统[J].计算机系统应用,2023(8):133-139.
(编辑㊀沈㊀强)
Construction of DDoS attack detection model based on information entropy and
machine learning in SDN
Lu Dingzhi
Chuzhou Polytechnic Chuzhou239000 China
Abstract The centralized control features of software-defined network SDN make network management more flexible and efficient but it also becomes the main object of network attacks among which distributed denial of service attack DDoS is one of the main threats that SDN bining the two commonly used detection methods of statistical learning and machine learning in SDN networks the DDoS attack detection model is analyzed based on information entropy and machine learning algorithm.The threshold value of information entropy is used to judge and detect suspected abnormal traffic and then the detection model is used to construct by decision tree algorithm to detect DDoS attacks.The six feature attributes are constructed in the classification detection model.The optimal feature subset is selected by calculating the information gain pared with other classification algorithms this model improves the detection accuracy and reduces the detection time.
Key words software-defined network distributed denial of service attack information entropy attack detection。