数据挖掘技术在网络安全中的运用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘技术在网络安全中的运用
随着网络技术的发展,无时无刻都在产生大量的数据,网络资源则愈发呈现出异构性和动态性,传统的网络管理技术难以满足对大型复杂网络管理的需要,但是我们却缺乏高效的工具可以从其中挖掘出有价值的知识,为网络管理引入高效准确的方法愈发紧迫。在网络管理中引入数据挖掘技术,将网络中的海量数据抽取、转换、集成为所需数据,提供相关分析综合技术,为决策者和分析人员及时、准确地对数据资源进行全局综合分析,从中挖掘出有用的知识,高效地实现对网络的综合管理。将数据挖掘技术引入到网络管理系统中,可以构建智能的、高效的网络管理系统。数据挖掘的引入与发展已经成为发展智能网络管理系统的一个必然趋势。
数据挖掘的定义
数据挖掘(Data Mining),是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[1]。
数据挖掘技术是面向应用的,它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行深入的统计、分析和推理,发掘数据问的相互关系,完成从业务数据到决策信息的转换。
在人工智能领域,数据挖掘又被称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。
数据挖掘的功能
数据挖掘的功能包括分类(Classification)、估值(Estimation)、预言(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚集(Clustering)、描述和可视化(Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频)等七种。
以上七种数据挖掘的分析方法可以分为两类:直接数据挖掘和间接数据挖掘。直接数据挖掘的目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。间接数据挖掘的目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘。
数据挖掘处理过程模型
数据挖掘是一个需要经过反复的多次处理过程。人们通过对数据挖掘过程的归纳与总结提出了很多模型,其中U.M.Fayyad等人提出的KDD阶段处理模型是其中主要代表之一。
3.1 在网络入侵检测中的作用
入侵检测是用于检测任何损害或企图损害系统的保密性、完整性或可用性行为的一种网络安全技术,也是网络安全的核心技术之一,它通过从计算机网络或计算机系统中的若干关键点收集信息并对其进行分析,从而发现网络或系统中是否有违反安全策略的行为和遭到袭击的迹象。利用入侵检测技术,不但能够检测到外部攻击,而且能够检测到内部攻击或误操作[3]。
入侵检测有2种基本的方法是异常检测(Anomaly Detection)和误用检测(Misuse Detection)。误用检测是基于规则的检测技术或者模式匹配检测技术,它是将已知的攻击特征进行编码,存入特征库,入侵检测将所监视的事件与特征库中的攻击特征进行匹配,当发现有匹配时,就认为有入侵发生。这种检测的优点是检测效率高,误报率低,缺点只能检测已知的入侵,对未知的入侵活动或已知入侵活动的变异元能为力,需要不断更新特征库;异常检测是基于行为的检测技术,是根据用户的行为和系统资源的使用情况判断是否存在网络入侵。异常检测技术首先假设网络攻击行为是不常见的或是异常的,区别于用户和系统的“正常行为”,通过比较被检测的信息与“正常行为”的偏离程度来检测入侵,通过关注异常的信息来分析是否有攻击产生.这种检测技术是假定正常的工作行为模式相对稳定,有入侵发生时,用户或系统的行为模式会发生一定程度的改变.异常检测的优势在于与系统无关,通用性强,它的最大优点是可以检测以前从未出现的攻击方法。异常检测是目前入侵检测系统的主要研究方向。
目前在异常检测的研究方法,大量的工作集中在通过统计分析专家系统神经系统模式预测等方法来构建监测系统的政策请按行为模式,而将数据挖掘方法应用于入侵检测系统尚属起步阶段,因为入侵检测实质是数据分析和知识发现的过程吗所以数据挖掘在网络入侵检测领域极具应用潜力[4]。
(一)关联规则挖掘在入侵检测中的应用
关联规则是数据挖掘中最为广泛应用的技术之一,也是最早用于入侵检测的技术。最早运用这种技术是作为一种工具去产生关于网络流的报告。发现关联规则问题就是发现所有支持度和可信度均超过规定阀值的关联规则,这个发现过程分为两步:第一步识别所有的频繁项目集,即所有支持度不低于用户规定的最小支持度闹值的阀目集;第二步是从第一步得到的频繁集中构造可信度不低于用户规定的最小可信度阀值的规则。
(二)聚类分析挖掘入侵检测中反应
聚类分析是识别数据对象的内在规则,将对象分组以构成相似对象类,并导出数据分布规律。分类与聚类的区别在于分类是将分类规则应用于数据对象,而聚类是发现隐含于混杂数据对象中的分类规则。根根据Portnoy提出的基于聚类分析的入侵检测算法,基于两个假设:第一,正常行为记录数目远大于入侵行为记录数目。第二,入侵行为本质上与正常行为不同。通过对未标识数据进行训练检测入侵。