基于机器学习的入侵检测系统研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2006年7月

July 2006

—107—

计 算 机 工 程Computer Engineering 第 第14期

Vol 32卷.32 № 14 ·安全技术·

文章编号:1000—3428(2006)14—0107—02

文献标识码:A

中图分类号:TP309

基于机器学习的入侵检测系统研究

王旭仁1,2,许榕生2

(1. 首都师范大学信息工程学院,北京 100037;2. 中科院高能物理所计算中心,北京 100039)

摘 要:入侵检测系统存在特征不能自动生成、特征库更新慢、无法适应大量数据等缺点。该文该文提出了基于机器学习的入侵检测系统,将遗传算法和贝叶斯分类算法结合使用,使得检测规则可以自动生成,克服手工编码的不精确、更新慢的缺陷,同时能够处理和分析大数量数据。最后给出了实验分析结果。

关键词:机器学习;入侵检测系统;遗传算法;贝叶斯分类法

Intrusion Detection System Based on Machine Learning

WANG Xuren 1,2, XU Rongsheng 2

(1. Information Engineering College, Capital Normal University, Beijing 100037; 2. Computing Center, Institute of High Energy Physics, CAS, Beijing 100039)

【Abstract 】Intrusion detection system has some defects, such as signatures being generated manually, updating difficulty and doing nothing in front of large data set. This paper discusses intrusion detection system with machine learning techniques. By making usage of Gene algorithm and Bayes classifiers, the defects mentioned above can be reduced to some extent and some tests have been done to show machine learning magic capability in intrusion detection system.

【Key words 】Machine learning; Intrusion detection system; Gene algorithm; Bayes classifiers

入侵检测(ID)是“识别出那些未经授权而使用计算机系

统以及那些具有合法访问权限,但是滥用这种权限的人”[1]。进行入侵检测的软件与硬件的组合便是入侵检测系统(IDS)。

目前的入侵检测系统大多数是基于特征检测(误用检测),用特征来检查攻击是一个有用和可行的方法。但也存在很多缺点,例如特征库精确性的缺乏、特征自动更新能力的缺乏、无法适应数据量增大的趋势等。入侵检测中,收集到的数据越多,分析结果就越精确。随着网络技术的突飞猛进,数据量日益增大,如何从其中自动提取出入侵行为和正常行为,单靠人工分析十分困难。因此出现了把智能数据分析技术应用到IDS 中的趋势。

近年来随着机器学习技术研究领域的拓展,该领域朝着智能数据分析发展,T.Mitchell 定义机器学习为“利用经验改善系统自身的性能”。把机器学习的技术应用到入侵检测系统中来,得到很多学者的研究[2,3],基于机器学习的入侵检测系统可以较好地解决上述问题:

(1)检测新攻击能力。机器学习的技术对网络入侵的检测既可以从已有的数据中抽取入侵特征,也可以对正常活动建立模型,从而可以检测新攻击。例如,修改远程登录缓冲区溢出代码以便绕过IDS 特征库,使用机器学习的技术进行异常检测,这种活动将被标记。

(2)精确性。机器学习的技术对网络入侵自动建立检测规则和模型,避免了手工建立模型的缺点。

(3)适应数据量增大的趋势。机器学习的技术能处理大量的网络数据分析任务,在减少数据上发挥重要作用。

1机器学习技术

机器学习技术发展迅速,常用技术有神经网络、决策树、支持向量机、k 近邻、序列分析、聚类等。在选择用于入侵

检测的机器学习技术时,更多的是来自经验和领域知识,在系统中采用的是遗传算法(Genetic Algorithm)和贝叶斯分类器(Bayes Classifier)。

1.1 遗传算法

遗传算法(Genetic Algorithm ,GA)在本质上是一种不依赖具体问题的直接搜索方法,遗传算法的基本思想是基于Darwin 进化论和Mendel 的遗传学说的。待解决的问题编码成位、字符、数字序列,被编码的单位称为基因,编码序列称为染色体,又叫串。传统基因算法原理是:首先进行编码,把解空间的解数据表示成遗传空间的基因型串数据, 生成初始群体,决定群体大小(群体中个体个数);根据适应度函数计算每个个体的适应度,作为个体生存的能力度量,即解的优劣;进行循环选择(selection)、交叉(crossover)、变异(mutation),在迭带过程中,使用繁殖(reproduction)和变异来产生新的解决方案,并朝着选择适应度强的个体发展。当最优个体的适应度达到给定的阈值,或者最优个体的适应度和群体适应度不再上升时,则算法的迭代过程收敛、算法结束。否则,用经过选择、交叉、变异所得到的新一代群体取代上一代群体,并返回到选择操作处继续循环执行。

1.2 贝叶斯分类器

贝叶斯分类是机器学习和数据挖掘中最有效的学习算法之一,是一种无监督学习。试验表明,朴素贝叶斯分类算法预测能力和决策树C4.5一样好[3],并且具有更强的学习能力。贝叶斯分类总是基于这样一种假设:对于给定的类,所有属

基金项目:国家“973”计划基金资助项目(G1999035806)

作者简介:王旭仁(1972—),女,博士,主研方向:网络安全,人工智能;许榕生,研究员、博导

收稿日期:2005-08-07 E-mail :wangxr@

相关文档
最新文档