一种面向新型入侵的获取和分类方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常熟理工学院学报(自然科学)
Journal of Changshu Institute Technology (Natural Sciences )
第26卷第8Vol.26No.8
2012年8月
Aug.,2012
收稿日期:2012-06-13作者简介:朱磊(1990—),男,江苏涟水人,常熟理工学院电气与自动化工程学院自动化专业学生.
通讯作者:王
飞(1977—),男,山东滨州人,讲师,博士,研究方向:模式识别、信息安全,E-mai:wangleea@.
一种面向新型入侵的获取和分类方法
朱
磊,王
飞,徐本连
(常熟理工学院电气与自动化工程学院,江苏常熟215500)
摘
要:针对网络异常检测方法对新型入侵提供信息不足的缺点,提出一种面向新型入侵的
获取和分类方法.首先,通过异常检测方法捕获入侵,然后利用匹配过滤机制筛除已知入侵,最后将获取的新型入侵作为聚类模块的输入,通过聚类及提出的类别获取算法对新型入侵做进一步分类匹配,从而获得其类别信息.最后,采用KDDCUP99数据集进行实验仿真,结果表明该检测方法具有较好的检测率和较低的误报率,并且该方法对于识别并分类新型入侵是有效的.
关键词:异常检测;分类映射;信息获取中图分类号:TP309
文献标识码:A
文章编号:1008-2794(2012)08-0103-06
1引言
计算机网络的复杂性、可访问性和开放性使得网络信息安全成为全球关注的重要问题.特别是随着网络的广泛应用,政府信息和军事数据在网络上的传播对网络安全提出了更高的要求.入侵检测系统(intru⁃sion detection system ,IDS )是网络安全控制中最为核心的技术之一,是对传统网络安全技术有力的补充.入侵检测根据其采用的技术分为:误用(Misuse )检测和异常(Anomaly )检测[1].由于新型攻击的不断增长以及攻击技术的不断改进使得异常检测方法在入侵检测技术中占据了越来越重要的位置,日益成为研究的重点[2-3].异常检测方法在不断地被研究和改进的同时却忽略掉了其另一个重要的不足:异常检测虽然能检测到新型的入侵,却无法判断检测到的异常是否是新型入侵,因此更加不能对新型入侵给出更多有效的信息,如入侵所属类型等.这是因为异常检测的方法是一种通过确定“自我”来辨别“非我”的检测手段,这种“非我”即是异常的检测方法能够检测新型威胁,但不能判断其是否为新型攻击的方法也无法给出其攻击类型等有用信息.基于以上原因,为了既能够检测新型入侵又能够获得入侵的更多信息,以增强异常检测系统的实用性和响应性,本文提出了一种面向新型入侵的获取和分类方法.
本文提出的检测方法目的是检测并获得新型入侵,进一步再将新型入侵划归到入侵的基本类型,从而获得其基本类型和行为目的等信息.目的是能够检测新型的安全威胁,检测方法采用了异常检测方法,由两个功能模块完成:异常检测模块和基于扩展需要的新型入侵的获取和分类模块.首先,异常检测模块对网络连接进行异常检测,然后将检测捕获的异常作为后续模块的输入以获取新型入侵及其基本类型信息,进一
步对新型入侵进行分类和扩展信息库(更新),从而增强对新型入侵的检控能力.
2012年
常熟理工学院学报(自然科学)
2检测模型
本文提出的检测模型包
括两个功能模块:异常检测模块和信息获取模块.异常检测模块包括数据预处理和二分类两个部分,信息获取模块包括入侵过滤和新型入侵类别获取两个部分.其流程如图1所示.
为了实现新型入侵的检测和识别,首先要采用异常检测方法实现对象的二分类,将
检测对象分成正常行为类和异常行为类,从而可以将正常行为放行,而异常行为作为后续模块的输入,检测得到的异常通过一种过滤机制实现已知入侵的过滤,进而剩下的入侵则被认定为新型入侵,最后的聚类模块实现未知入侵的映射,通过映射的方法找到新型入侵的类别信息.
异常检测方法的选取选择了分类识别方法中使用最为广泛的支持向量机(Support Vector Machine ,
SVM ),支持向量机作为模式识别中重要的学习和分类方法,已经被应用到入侵检测中.入侵检测的本质是分类问题,是通过检测将正常行为与异常行为分开.但IDS 中用于分类的数据比较复杂,体现在高维性、小样本性和不可分性几个方面.SVM 是在小样本学习的基础上发展起来的分类器,适用于小样本数据,且对高维数据不敏感,能用于密度估计和孤立点的发现.因此,适用于入侵检测领域高维异构不均衡数据集的分类及其设计和异常发现[4-5].
为了捕获新型入侵和对其分类,首先需要对已知入侵进行过滤,已知的入侵过滤由一类支持向量机(One Class Support Vector Machine ,OC-SVM )完成.一类支持向量机是设某一类样本数据在特征空间中具有一定的概率分布,通过构建描述样本概率分布的二值模型来判断待测试的样本在特征空间是否服从该模型分布,也就是该待测的数据是否属于该类[6].入侵检测中,采用OC-SVM 对网络样本集进行训练,获得一个区域,区域内的样本隶属于该类,区域外的一般称为孤立点(outlier ).本文中,选用已知入侵作为训练样本,获得已知入侵的涵盖区域,因此,由异常检测模块获得的异常通过OC-SVM 分类器进行分类匹配,落入已知入侵涵盖区域的网络连接可直接作为确定的入侵输出,落在区域外的连接则是新型的入侵,通过这种办法过滤已知入侵从而获得新型入侵.
最后,获得的新型入侵通过映射进行分类以获得其基本类别信息和行为目的,新型入侵的归类由自组织映射(Self-Organizing Map ,SOM )和类别获取算法共同完成.
自组织映射完成新型入侵的映射,利用SOM 良好的映射机理将新型入侵映射到确定的已知入侵类中,从而确定新型入侵的入侵类别信息.
SOM 是神经网络,以竞争学习规则进行训练,对刺激反应最强烈的神经元赢得竞争.在竞争中获胜的神
经元获得以后对这种刺激响应的权力[7].在训练阶段,SOM 将输入向量映射到输出网格上与该向量距离(就
欧氏距离而言)最近的神经元上[7].为了更好地对进入的异常连接进行划分,SOM 部分的训练仅使用入侵数据集.采用入侵数据进行训练的神经元对应的是各种类型的入侵,因此当检测到的异常作为输入进入到
SOM 学习器,通过查看其映射所对应神经元就可以得到该新型入侵所隶属的攻击类型,进而得到其更多有效的信息.
对于异常连接的类别信息获取采用归类标识的方法给出,每一个进入的连接通过分析研究其所归属的类别来获得其有价值的信息.具体的,网络攻击类型分为4大类:Dos ,Probe ,R2L ,U2R ,每个大类内又包含多
图1检测系统流程图
104
朱磊,王飞,徐本连:一种面向新型入侵的获取和分类方法
8种攻击,虽然攻击名称各异但是最终目的或采用的手段是相似的,因此知道一个攻击隶属于某一种攻击类型则能够获得该攻击可能的行为以及其行为目的,即只要能够得到进入的异常连接所隶属的类别则可获取该异常连接的行为目的及行为特征等信息,同时扩展到对新型入侵的更多信息的获取,如隶属类别,行为目的等[8].
为了能够获取异常连接的类别信息,需要先对输出网格神经元贴标签,然后对进入的异常连接进行检
查,查看其所映射的输出神经元上,再查看该神经元的标签从而获得异常连接的类(标签)[8].使用文献[8]中提出的两个算法分别实现标签的获得和类别的映射,完成新型入侵的类别信息获取.
通过算法可以获得进入的异常连接所属类型,进而可以分析获得有价值的信息.
3实验
实验选择入侵检测领域中权威的测试数据集KDD⁃
CUP99[9],该数据集是麻省理工学院Lincoln 实验室仿真美国空军局域网环境而建立的网络流量测试数据集.数据集包含多种网络环境下的模拟入侵,包含了前文提到的4大类入侵
方式(见表1).本文从“10%ofKDDCUP99”选取数据集分别作为训练集train 和测试集test.
表2对训练集和测试集五大类网络连接样本的数量进行了统计,由于本文的检测系统的目的是识别和分类未知入侵,所以在测试集test 中加入了300条Unknow 的样本作为未知入侵.
对于加入测试集test 的Unknow 样本的种类与数量,如表
3所示,被选取为未知入侵的样本类型在训练集train 中均不会出现.
根据数据的特性及实验的需要,对数据进行以下处理:分类属性特征的量化;标准化处理.量化的过程有多种,在实验中选择将字符串型属性与数值对应,如protocol type :ic⁃mp-1;tcp-2;udp-3;others-4;不改变原数据集的维度,即不增加计算的复杂度.
标准化处理:
设有n 个样本,每个样本有d 项特征(变量),待观测数据x ij (i =1,2,⋯,n ;j =1,⋯,d ),
每个样本为x i =(x i 1,x i 2,⋯,x id ),
一维属性为x j =(x 1j ,x 2j ,⋯,x ij )T ,选择对样本按维标准化,x min 与x max 分别为一维属性x j 的最小值与最大值,则标准化的x ′j 为
x ′j =
x ij -x min
x max -x min
3.1基于SVM 的异常检测性能
在异常检测模块中,选取RBF 核函数K (x ,x i )=exp{-
|
|x -x i 2
g 2
}作为标准SVM 的核函数.由于检测系统采
用串行结构,上一级模块的输出即为下一级模块的输入,需要保证每一模块有较好的检测性能.
因为参数的选择并没有先验知识,必须通过一定的过程进行参数选择,目的是确定好的(c ,g )使得分类器能正确地预测测试集数据,有较高的分类准确率.确保在选好的参数情况下能正确地对数据分类,并得到最优的检测率,以及最低的虚检率和漏检率.
表1训练集train 和测试集test 样本的选取类型normal
dos
probe R2L
U2R
名称back
neptune smurf
teardrop ipsweep
portsweep satan
buffer_overflow rootkit guess_passwd imap multihop
warezclient
warezmaster
训练集train 946061
250366902530425938222515422776测试集test 203136
17154563203132533801051542273
6105
2012年
常熟理工学院学报(自然科学)
对应测试集test 中,正常样本数量为2031,异常样本数量为7895,计算四种(c ,g )情况下的虚警率与漏警率,见表5.
综上所述,在检测率尽量高的情况下,我们追求虚检率和漏检率
都尽量的低.在虚警率相差不大的情况下,(c ,g )=(10000,0.01)时,检测的各项指标分类准确度、漏警率以及检测率均有更好的表现,故可以确定(c ,g )=(10000,0.01)为最优参数值.3.2
基于OC-SVM 的未知入侵获取性能
此模块由四个一类支持向量机(OC-SVM )串行连接,每一个OC-SVM 均可看做一种类型攻击的信息库.因此,对四个OC-SVM 分别用训练集中DoS 、Probe 、R2L 和U2R 样本进行训练获得检测器
模型,对输入的入侵样本依次匹配和过滤,匹配则直接输出;当通过四个OC-SVM 均被判为不匹配,则认为这条入侵样本为未知的新型入侵.
但需要注意的是,OC-SVM 的检测效果受到两个方面的影响:一方面在于OC-SVM 受限于自身的检测性能,而另一方面训练样本的不足也导致检出率较低,由于数据集中R2L 和U2R 的数量很少,所以无法获得充足的数据样本进行训练.实验中OC-SVM 同样选取RBF 核函数,通过实验选取参数如下:
(1)DoS :n =0.0001,g =0.001;(2)Probe :n =0.1,g =0.001;(3)R2L :n =0.001,g =1;(4)U2R :n =0.1,g =0.001.表6为4个OC-SVM 在已选定的参数下的检测性能,包括虚警率、漏警率以及检测率三种指标.
从表6中可以看出,受到
OC-SVM 的性能限制,这四个一
类支持向量机会有较高的虚警
和漏警,而对R2L 进行检测的OC-SVM 受到样本容量过少的影响,对已知型R2L 有大量漏检,但为了保证未知入侵的样本不被误检,可以进入未知入侵信息获取模块,所以仍以分类准确率最优为选择标准.
3.3
基于SOM 的信息获取性能
对于OC-SVM 检测性能不高的弱点,SOM 对其是有效的
补充,未被检出过滤的连接进入SOM 分类模块,通过SOM 可以进一步对其进行分类,因此,SOM 不仅是对未知入侵的获取与分类,同时也是对一类分类器的补充.
对于上一级模块输入进信息获取模块的未知入侵样本,
SOM 分类效果记录在表7中.在已选定的OC-SVM 参数下,以如下数据作为SOM 仿真参数:
输出神经元网格为方形;迭代次数1000;
η0=0.1;σ0=输出网格的边长.表3测试集test 中的未知入侵的种类与数量Unknow land pod
nmap
loadmodule perl phf
spy ftp_write 合计
数量12
15012452214300表4在不同c,g 的情况下的检测精确度
c 1
10
100
1000
10000
g
1
0.1
0.01
0.001
0.0001
97.7433%97.7030%97.7232%97.7131%97.7131%
97.7937%98.1060%98.4082%97.4814%97.7332%96.4739%98.4384%98.3881%98.4485%98.8515%94.7109%96.3127%98.4586%98.3578%98.1664%93.9452%94.7109%96.2724%98.4485%97.8743%
表6OC-SVM 的检测性能
类型DoS
Probe R2L U2R 检测率97.75%67.10%25.00%91.26%
漏警率2.25%
32.90%75.00%8.74%虚警率16.43%9.21%0
6.46%表2训练集train 和测试集test 的样本数量类型normal DoS
Probe R2L U2R Unknow 合计
标签123456/
训练集数量9460927994527
304/20015测试集数量2031633494615
3003009926106
朱磊,王飞,徐本连:一种面向新型入侵的获取和分类方法
8由表7决定选择σ0=9作为SOM 参
数,图2给出了SOM 图示,图中以2,3,4,5依次标记DoS 、Probe 、R2L 、U2R.
由于R2L 、U2R 两类的训练样本较少,且受到本文数据量化方式——将占比较少的属性归为‘other ’类的影响,降低了部分样本的特异性,所以SOM 对数量较少的R2L 、U2R 类的未知入侵的检测效果不理想.但对于数量较大的DoS 、Probe 类的未知入侵,本文设计的SOM 分类器还是可以识别,并获得其攻击信息的.
3.4
综合表现与分析
综合以上图表中的各项指标,本系统的异常检测模块可
以较好地完成正常/异常识别,在之后的未知入侵获取以及信息获取模块,当样本容量足够时,其检测性能良好,对未知入侵识别和分类可以完成,但对于训练样本较少的攻击类型,效果并不理想.这一方面是受到训练样本容量的限制,以及一类支持向量机的性能局限,另一方面是本文量化方法降低了部分数据样本的特异性,影响了检测效果.
整个系统采用分步模块化处理,将复杂的问题简化,每个模块仅负责单一功能,降低了计算复杂度.其中模块一基于SVM 进行异常检测,仅完成对网络连接的正常/异常识别,以此实现入侵检测系统在网络安全中最基本的功能,即阻隔入
侵,保护用户不受窥探与攻击;模块二基于串行连接的OC-SVM 进行对未知入侵的获取,此模块以四个
OC-SVM 作为已知入侵的信息库,对模块一检测出的异常连接匹配和过滤,将无法识别的异常连接认定为未知入侵,缩小了对未知入侵的检测范围;模块三基于SOM 对未知入侵完成入侵信息的获取,完成本系统设计的初衷,即在完成入侵检测的同时,获取未知入侵的样本及信息.同时,更为重要的意义在于,当获得足够数量的未知入侵样本后,可以再利用这些样本对信息库(模块二)进行更新,加强系统检测性能.
4结论
本文提出了一种面向新型入侵的获取和分类方法,采用分步的方法分别完成网络的异常检测、新型入侵的获取和分类,进而可以通过对入侵所属类的研究获得该新型入侵更多有效信息.检测方法首先采用支持向量机算法执行异常检测,采用单纯的异常检测方法能够避免系统趋向于检测已知攻击,这提高了检测器对新型入侵的检测性能,异常检测之后获得的异常连接通过由OC-SVM 和SOM 共同组成的新型入侵的获取和分类模块完成对异常连接的匹配过滤、映射和分类.已知入侵通过匹配的方法直接输出,对新型入侵的信息获取通过映射和分类获取算法完成.获得的新型入侵的类别信息通过反馈更新可以扩展信息库,增强系统对于入侵的响应能力尤其是对新型入侵的响应能力.仿真实验表明该系统在具有较高的检测率和较低的误报率的情况下可有效获取进入的异常和新型入侵的信息.参考文献:
[1]Shelly Xiaonan Wu,Wolfgang Banzhaf.The use of computational intelligence in intrusion detection systems:A review.[J].Applied Soft Computing,2010,10:1-35.
[2]Chih-Fong Tsai a,Yu-Feng Hsu b,Chia-Ying Lin c,et al.Intrusion detection by machine learning:A review[J].Expert Systems
图2SOM
分类示意图
表7攻击分类性能
Attack type DoS
Probe R2L U2R Accuracy σ0=5(%)89.571000
1592.57σ0=7(%)
89.5773.370
9575.62σ0=9(%)89.571000
2592.95σ0=11(%)96.5272.371015
74.29σ0=13(%)
89.5772.372030
73.52
107
2012年108
常熟理工学院学报(自然科学)
with Applications,2009,36:11994-12000.
[3]WEI Yu-xin,WU Mu-qing.KFDA and clustering based multiclass SVM for intrusion detection[J].The Journal of China University of Posts and Telecommunications,2008,15(1):123-128.
[4]Taeshik Shon,Jongsub Moon.A hybrid machine learning approach to network anomaly detection[J].Information Sciences,2007, 177:3799-3821.
[5]Rachid Beghdad.Critical study of neural networks in detecting intrusions[J].Computers&Security,2008,27(5-6):168-175.
[6]Giacinto G,Perdisci R,Rio M D,et al.Intrusion detection in computer networks by a modular ensemble of one-class classifiers[J]. Information Fusion,2008,9(1):69-82.
[7]Kayacik H G,Zincir-Heywood A N,Heywood M I,et al.On the Capability of an SOM based Intrusion Detection System[C].2003In⁃ternational Joint Conference on Neural Networks,Oregon,USA,2003:1808-1813.
[8]王飞.入侵检测分类器设计及其融合技术研究[D].南京:南京理工大学,2011.
[9]Pfahringer B.Winning entry of the kddcup99classifier learning contest[EB/OL]./sigs/sigkdd/kddcup/,1999.
A Method of the Capture and Classification of New Intrusions
ZHU Lei,WANG Fei,XU Ben-lian
(School of Electrical and Automation Engineering,Changshu Institute of Technology,Changshu215500,China) Abstract:In view of less useful information for new intrusions that can be obtained by anomaly detection,a method of the capture and classification of new intrusion is proposed.First,an anomaly intrusion detection meth⁃od is used to find intrusions.Second,pattern matching plays a role in filtering out the known intrusions,and the remaining new intrusions are regarded as the input to clustering module,through which further classification is carried out.As a result,the valid information about its class is obtained.Finally,based on the experiment simu⁃lation,which uses data set KDDCUP99,the results show that the detection method has a better detection rate and low false alarm rate,and that the method to identify and classify the new intrusions is valid.
Key words:anomaly detection;classification map;information acquisition。