基于机器学习方法的入侵检测技术_许戈静
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于机器学习方法的入侵检测技术
许戈静
(泉州信息工程学院,福建泉州362000)
摘要:随着信息技术的不断发展,人们生活发生了翻天覆地的变化,它给人们带来了很多便利,但与此同时,安全问题也日益突出。目前,传统的入侵检测系统已经不足以完成对越来越复杂的网络攻击的检测任务。入侵监测系统技术之中引入机器学习,可以有效地提高系统性能。文章主要介绍了几种机器学习方法在入侵检测中的应用。
关键词:机器学习方法;入侵检测技术;贝叶斯分类神经网络;遗传算法;支持向量机
中图分类号:TP393.08;TP18文献标识码:A文章编号:1673-1131(2015)12-0127-02
0引言
虽然入侵检测系统可以检测出网络系统中存在的入侵隐患和行为,可是鉴于入侵检测技术和网络技术的局限性,以及网络系统的复杂性等多种原因,传统的入侵检测系统还是很难满足完整性的同时,也满足并行性的要求,它主要的检测手段仅仅是利用简单的模式匹配来发现是不是原有的攻击,但是这种方法却不可以预测出新的攻击,同时也不可以通过自我学习的方式来产生新的检测规则,所以入侵检测系统仍存在很多缺陷和隐患。针对上述的不足,如果将例如数据挖掘技术、专家系统、机器学习等知识融入到现有的入侵检测系统中,就能够既保留原有系统的高性能,还能够使它更加智能化,还可以在现代网络环境中,提高入侵检测的效率、降低漏报率和误报率。本文主要是对于几种基于机器学习方法入侵检测技术做简单的概述。
1基于机器学习方法的入侵检测系统的设计基于机器学习的入侵检测系统,是采用机器学习的方法来检测那些通过网络捕获到的数据包,以此完成入侵检测。此系统由四个模块构成:机器学习、网络数据包捕获、误用规则处理和数据预处理,其中系统的核心是机器学习模块。
(1)机器学习模块:此模块是本系统的核心,通过此模块的训练,使学习机可以检测入侵。
(2)网络数据包捕获模块:一般情况下,监视和验证网络实时的流量和工作状态常常用到它。网络入侵检测系统的设计,以及其他网络管理软件、网络安全软件实现的基础,就是要实现在网络上截获和分析各个协议层次上的数据包。而Sniffer(数据包嗅探器)就是实现这部分功能的程序,也是本系统有效并高效工作的基础。所以,整个系统中最基础的程序就是网络Sniffer。
(3)数据预处理模块:对于网络数据包捕获模块送来的大量的原始数据包该模块要先进行预先处理,从而方便随后的检测分析。
(4)误用规则处理模块:该模块是实现以规则为参照的误用检测的,它用系统己存在的模式数据库和已知的网络入侵与收集到的信息进行对比,从而找出不符合安全策略的行为,确保了目前的误用规则的检测准确率和效率都较高的优势。2侵检测系统中使用的机器学习方法
侵检测系统中机器学习模块中可以采用的机器学习的方法很多,这里对其中几种做介绍。
2.1基于贝叶斯分类的方法
贝叶斯分类模型其实是一种典型的运用统计学的方法来实现的分类模型。它能够用数学公式的精确方法来表示出来,
和JDBC的连接性,同时应用SQL语言完成添加、修改以及查询等各项工作。另外,可以在对数据进行处理后,将结果输送给相关视图。
2.2.2设计手持RFID终端服务子系统的方法
子系统中的手持RFID终端系统,主要包括上位机(And-roid)及RFID读写设备两个组成部分。其中,RFID读写设备的具体设计中,又包含了软件设计和硬件设计两个方面,其作用主要是:读写电子标签。上位机(Android)具有的功能是:有效控制读写器。该设计环节的主要设计内容及步骤包括以下几个方面:第一步,硬件的选型工作:设计人员应该以满足数据中心工作需求为基本的设计理念,结合数据中心的系统的功能性以及应用环境要求,考虑设计结果的可靠性以及成本多少等多重因素,对射频模块、电子标签等相关元器件进行合理选型;第二步,设计电路:将单片机AT89S51作为一项具有主控性的单元,进行供电、USB连接、射频读写等电路的设计,进而完成与上位机(Android)的有效连,并可以对相应射频模块中的读写功能进行控制;第三步,设计读写器应用软件的方法:读写器具有与上位机进行通信和进行电子标签读写的功能,因此,可选择运用外部中断法实现和射频模块的数据通信,并设计好读写电子标签的具体操作方法。另外,在和上位机进行数据传输的过程中,可以选择使用串口转换USB的方式进行通信式的传输;第四步,设计上位机(Android):该设计环节主要包括以下两个部分:一是和读写器进行通信,完成电子标签读写。二是访问Web服务器。
3结语
综上所述,在为数据中心设计管理设备系统时应用RFID 技术,对提升数据中心的管理质量具有重要意义。数据中心,对环境具有很高的要求。当前,除了需要对设备线缆构建出结构化、科学化的数据设计模型,另外,噪声、温湿度等相关境参数、能源消耗以及其他设备的信息均是相关单位比较关注的数据问题。本次设计主要基于RFID的技术理念,并结合数据中心设备管理信息服务系统的实际需求,对系统中的管理数据子系统以及手持RFID终端子系统进行设计分析。但是,为全面提升数据中心的管理质量,数据中心还应该结合实际发展需要,对管理数据的服务系统进行持续性的研究,进而促使数据中心实现信息化、自动化、与时俱进的管理。
参考文献:
[1]天津市小蜜蜂计算机技术有限公司.基于RFID技术的物
流仓库管理解决方案[J].物联网技术,2014,1(6):11-12 [2]郭岩,赵嘉,张鹏,等.基于RFID技术的中国疾控中心固定资
产管理系统应用效果[J].中国数字医学,2015,10(1)
:99-101
127
128
是一种具有最小错误率的概率分类法,而且它能够用多种概率理论来解决,因此许多源于贝叶斯理论的分类方法均被成功地应用了。
而贝叶斯理论中最重要的内容,无疑就是贝叶斯定理,它同时也是贝叶斯理论的基础,把事件的先验概率与后验概率联系起来,通过先验信息和样本数据的信息,来推测出事件的后验概率。
判断观察到的事件是正常行为还是入侵就是入侵检测的基本任务,那么可以将其看作是一个分类的过程。所以,可以使用贝叶斯算法把检测对象的行为进行分类,每一个矢量都是一个对象所对应的一个行为,将这些矢量进行划分,可以分为四类:正常行为、标准行为、异常行为和入侵行为。针对随机变量,一定要明白此变量对每一个分类的概率的分布,然后将该变量归入概率最高的类。
贝叶斯分类的方法中有不同的叶斯分类模型。而这些贝叶斯分类模型的区别就是,它们是通过不同的方法来获得事件的后验概率的。在朴素贝叶斯分类器中,假设全部的属性变量均是相互类条件独立的,此算法的最大优势就是不用搜索,只用简单地计算训练例中的每个属性值所发生的频率数,就能够估算出每个属性的概率估计值,而这一假设也在很大程度上降低了系统的复杂性,目前在一些领域上也获得了十分理想的效果。例如:斯坦福研究院的Valdes 和Skinner 等,就是通过朴素贝叶斯分类器分析了网络流量,从而设计了称为eBayes 的入侵检测系统。
2.2基于神经网络的方法
人工神经网络通过模拟人脑处理、存储和加工信息机制,
实现的一种智能化信息处理技术。它所包含的抽象概括能力、自适应和学习能力,以及内在的并行计算特性,让它在入侵检测方面拥有独特的优势:
(1)神经网络能够通过大量的实例,进行训练,然后学会知识,并从中得到正常的用户或系统活动的特征模式,拥有预测的能力,从而不需要获取描述用户行为特征的特征集以及用户行为特征测度的统计分布。
(2)能够把新发现的入侵攻击实例展示给神经网络,经过第二次的训练让神经网络可以对新的攻击模式做出反应,由此让入侵检测系统获得自适应的能力。
(3)当入侵检测系统正常的工作模式被神经网络掌握了之后,它就可以对偏离系统正常工作的事件产生反应,还能够发现一些新的攻击模式。
(4)神经网络经过训练,能够把对模式的判断和匹配转换成数值的计算,这样有利于加快系统的处理速度,使其更适合于实时处理。
所以,想让IDS 变得更加高效,就可以使用神经网络来构建IDS ,特别是使它拥有自适应能力,来适应入侵行为,并跟踪其变化,这样才可以检测出新型的入侵行为和模式。
2.3基于基因箅法的方法
基因算法(Genetic Algorithm )也叫做遗传算法,是一种模仿生物界的自然选择和进化机制而发展起来的随机、高度并行、自适应搜索的算法。
由于基因算法主要是依靠生物进化和遗传的思想,所以把它应用于入侵检测的规则,发现了它与传统方法具有很多不同的特征:第一,它的处理对象不是参数本身,而是问题参数的编码集;第二,基因算法在搜索空间中,可以同时对很多点进行求解,这样就可以减小收敛于局部的最小可能,以此同时还可以增加处理的并行性。
在网络攻击检测系统当中,通过基因算法产生简单的规则,从而对网络通信量进行监控。这些规则是通过把正常连接和异常连接进行比较,所产生的模式形成的。它们是简单的单连接模式,可以从网络连接中区分非正常连接和正常连接,例如,只与异常连接相匹配的规则表示为:if (模式匹i~d )then (产生警告)。
这些规则能够用于对新的连接和历史记录进行过滤,让管理员可以注意到可疑行为。
基因算法的问题在于变异、交叉和选择算子的设计上,现在主要依靠的经验和实验的方法,如果选择不合理,可能会产生过早收敛的问题。
2.4基于支持向量机的方法
支持向量机(SVM )是利用结构风险最小化(SRM )原理。支持向量机的基本思想是对于一个给定的拥有有限数量训练样本的学习任务.如何机器容量(机器可无错误地学习任意训练集的能力)和在准确性(对于给定训练集)这两个方面进行折衷来获得最好的推广性能。
入侵检测系统存在着在先验知识较少的情况下推广能力差的问题。将支持向量机方法应用到入侵检测系统中。能够确保在先验知识不足的情况下,支持向量机分类器仍有较好的分类正确率,才能使得整个入侵检测系统获得不错的检测性能。
在入侵检测系统中,目前的SVM 方法较多是用来区分正常数据和各种攻击的,通过检测攻击并发出攻击报警,来取得较好的结果。例如:在DARPA 设计的KDD 竞赛数据库上,Mukkamala 等利用SVM 的实验,取得了很好的效果。
还有的研究人员将其他算法和SVM 相结合,发现了更好的入侵检测算法。例如:Wu 等人将SVM 和向量量化技术融合在一起,首先运用向量量化技术使网络审计的数据库变小,产成一个训练编码本,然后在这个训练编码本上再运用SVM ,建立一个入侵检测的模型;Kim 等人将SVM 和基因算法结合了起来,以此来寻找一个“最佳的检测模型”,此方法不但可以找到SVM 的“最佳参数”,还可以找到整个属性集中“最优的属性子集”。
3结语
除了上面介绍的几种方法以外,入侵的特征进行辨识的
还有粗糙集、免疫原理、专家系统、数据挖掘、Agent 等智能化方法。尤其是实现了知识库的不断扩展和更新,并且拥有自学习能力的专家系统,令入侵检测系统的防范能力不断地提高,所以我相信它一定会有更广泛的应用前景的。
随着入侵检测技术的不断进步,它的保护对象,例如网络和系统本身也在飞速地发展,IDS 技术主要面临着下列的挑战:必须减少入侵检测系统的漏报和误报,要提高安全性和准确度。