几种机器学习方法在IDS中的性能比较
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
& & & M in
i j yi yj ( xTi xj ) -
i
i= 1 j= 1
i= 1
N
s. t.
& iyi = 0
i= 1
i% 0
i = 1, 2, ∀, N
( 3)
通过求解 最优化问题 的对 偶问 题 (3) 式 得到 最优 分类
函数为:
s
& f ( x) = sign { g ( x ) } = s ign
造方法构造的 。决策树 构造的结果是一棵二 叉或多叉 树, 它 的输入是一组 带有类 别标 记的训 练数 据。对一 批训 练数据 集通过训练产 生一棵决策树后, 就可以 根据属性的 取值对一 个未知数据集 进行分 类。使用 决策 树对实 例进 行分 类时由 树根开始对该实例的属 性逐渐测试其值, 并且顺着 分支向下 走, 直至到达某个叶 结点, 此叶 结点 代表的 类即 为该 对象所 处的类。
查事件数据中 是否存在 与之 相违背 的异 常模式 [ 2]。 异常检 测最大的优点是可以检 测出未知模式的攻击 行为, 但是由于 系统本身的 正常 行 为的轮 廓、阈值等难 以界定, 异 常检测 主要存在误报 和漏报率较高的问题。
贝叶斯分 类的方法, 神 经网络 的方 法, 决 策树 方法 和支 持向量机的方法作为当 前主流的机器学习算 法, 在 许多学科 领域中都有着 广泛的应用, 也是入侵检 测系统最常 用的几种 机器学习算法 [ 3, 4]。本文将这几种 机器学习方法分别应用于 入侵检测系统 , 并在 kdd99数据集上对各学 习方法进 行了仿 真实验。通过性能比较 发现 SVM 和 神经网络 方法在 实验中 效果较好, 为选择构建高效的基于算法 融合的入侵 检测系统 提供参考。
图 1 BP神经网络结构图
2. 3 决策树学习算法 决策树是树形结构 的知识表示, 决 策树的叶结 点是所要
学习划分的类, 内部结点 (非叶结点 )一般表示为一个逻辑判 断, 如形式为 ( x= y) 的逻辑判断, 其中 x 是属性, y是该属 性的某个属性值; 树的边是逻辑判断 的分支结 果。内部结点 的属性也称为 测试属 性。决策 树是 采用自 上而 下的 递归构
P erformance Comparison of SeveralM ach ine Learn ing M ethods for Intrusion D etection
W ANG Sh i- y i1, 2, TAO L iang1, W ANG H ua- bin1
( 1. MO E K ey L ab o f Inte lligent Com puting & S igna l P ro cessing, A nhuiU n iv ers ity, H e fei A nhu i 230039, Ch ina; 2. Com puter D epartm ent o f Chaohu Co llege, Chaohu A nhu i 238000, Ch ina)
实质 上 是 求 解 约 束 条 件 下 通 过 解 下 面 约 束 最 优 化 问 题 求出 [ 8] 。
M in
w
1 wT w 2
s. t. yi ( wT xi + b) - 1 % 0
( 1)
i = 1, 2, ∀, N
式 ( 1)中 x 是一样本 向量, w 是权 向量, b 为 分类阈 值。求解
AB STRACT: In trusion D etection M ethod is a new em erg ing ne tw ork security technology. The traditional intrusion detection system s have h igh fa lse negative rate, so it is im portant to introduce m ach ine learn ing into intrusion detec tion system s to im prove the perform ance. In th is paper, currently popular m ach ine learn ing m ethods inc lud ing the Bayes m ethod, the neura lne tw ork m ethod, the dec ision tree m ethod and the SupportV ectorM achines( SVM ) me thod are app lied to intrusion de tection sy stem, experim ents w ith the data set kdd99 show that the m ethod SVM and the neura l netw ork me thod have better perfo rmance and are m ore suitable fo r in trusion de tection. K EYWORDS: N e tw ork secur ity; M ach ine lea rning; In trusion detection system ( IDS)
2. 4 支持向量机 支持向量 机是统计学理论的 V C维理论和结构风险最小
化原理的具体 体现, 其最大的优点是能 够尽量提高 学习的泛 化能力, 也就是能够保证在有限的训练 集样本得到 的小误差 对独立的测试 集也有小的误差。
支 持向量 机的解 决分类 问题的 本质是通 过将输 入样本
空间非线性变换到另一 个特征空间, 然 后在这个新 的特征空 间中以求得使 两类样本 的分类 间隔 最大为 目标 求取 样本的 最优线性分类 面, 而这种非线性变换是 通过定义适 当的内积 函数 (或称为核函数 ) 实现 的。其中那 些与最 优分类 面最近 的两类样本被 称为支 持向 量。这样 最优分 类面 的构 造问题
1 引言
入 侵检测 系统作 为一种 可以放置 在受保 护网络 内部的 原始 过 滤器, 它 是 符合 动态 安 全模 型 P 2DR 的 核心 技 术之 一。根据分析引擎中使用的检 测方法的不同, 可以 把入侵检 测模型分为误用 检测 和异 常检测。 误用检 测搜 索审计 事件 数据, 查看其中是否 存在预 先定 义的误 用模 式, 对获得 数据 使用各种模式识别算 法进行匹配, 检测 主体的活动 是否符合 已知的入侵模式 [ 1] 。误用检测存在误报率 低的优点, 但是漏 报率较高。异常检测提取正常 模式审计数据 的数学特 征, 检
神 经网络 模式识 别成为 神经网络 最成功 的应用 领域之 一 [ 6] 。神经网络以其高 度并 行处理、高 度非 线性、高度 鲁棒 性、自组 织性、记忆推 理、对任意函 数的任 意精度 逼近能 力、 自学习能力和类似人的思维的 不透明映射性 能, 成 为模式识 别中最热的焦点。 神经 网络是 指模 仿人脑 神经 网络的 结构 和某些工 作机 制 而建 立 的一 种新 的 计算 模型。 由输 入 层, 隐含层和输出层组成 [ 7], 其结构图如图 1所示。模 式识别中 的分类问题本 质就是 模式 特征空 间的 一种 映射 问题, 而 BP 神经网络的输入输 出关 系可以 看成 是一种 高度 非线性 的映 射关系, 在神经网络 中, 由权重 和网 络的拓 扑结 构决定 了它 所能识别的模式类型 。 BP 神经网络 分类器就 是在这 个基础 上实现对模式空间的 分类的。
2 基于机器学习的入侵检测方法工作原理
机器学习的研究是 根据生理学、认 知科学等对 人类学习
! 92 !
机理的了解, 建立人 类学习 过程 的计算 模型 或认识 模型, 发 展各种学习理论和学 习方法, 研究通用 的学习算法 并进行理 论上的分析, 建立面向任务的具有特 定应用的学 习系统。入 侵检测的本质问题就是一个分 类的过程, 入侵检测 系统中的 事件分析器负责对事件行为进 行分析, 判断观察到 的事件是 入侵还是正常行为, 因此入侵检测技术 研究的主要 工作是对 事件分类技术的研究 。 2. 1 基于贝叶斯分类方法
摘要: 入侵检测是一种保障网络安全的新技术, 传统的入侵检测方法存在误报漏报及实时性差等缺点, 将机器学习的技术引 入到入侵监测系统之中以有效地提高系统性能具有十分重要的现实意义。将 目前主要的基于 机器学习的贝 叶斯分类的方 法、神经网络的方法、决策树方法与支持向量机的方法应用于入侵检测系统中, 以 kdd99公共数据集进行了 仿真实验, 仿真 测试结果表明支持向量机方法 ( SVM ) 和神经网络方法具有较好的分类识别性能, 适合用于入侵检测。 关键词: 网络安全; 机器学习; 入侵检测系统 中图分类号: TP309 2 文献标识码: A
第 27 卷 第 8期 文章编号: 1006 - 9348( 2010) 08 - 0092- 03
计算机仿真
2010年 8月
几种机器学习方法在 IDS中的性能比较
汪世义 1, 2, 陶 亮 1, 王华彬 1
( 1. 安徽大学智能计算与信号处理教育部重点实验室, 安徽 合肥 230039; 2. 巢湖学院计算机系, 安徽 巢湖 238000)
贝叶斯分类器的分类原理 是通过某对象 的先验概 率, 利 用贝叶斯公式计算出 其后验概率, 即该 对象属于某 一类的概 率, 选择具有最大后验概率的类作为该对象 所属的类 [ 5] 。设 每个数据样本 n个属 性的值用一个 n 维特 征向量来表 示, 即 A = a1, a2, ∀, an 。假定有 m 个分类, 分 别用 C1, C2, ∀, Cm 表示。对于一个给定的末知 类别的 数据样本 A, 如果 将样本 A 分 配给类 C i, 则仅当满足条件: p ( Ci |A ) > P ( Cj |A ), 1# i, j # m, i∃ j 由贝叶斯定理: p ( A |B ) = (P ( B |A ) P (A ) ) /P ( B ), 因 P ( B )对所有类为常数, 最大化后验概率 P ( Ci |A ) 可转化 为最大化先验概率 P ( A |Ci ) P ( Ci )。 2. 2 BP神经网络
sv l
yslv
∋x,
x
sv l
(
+
bop
l= 1
( 4)
! 93 !
3 实验结果与讨论
3. 1 实验数据与环境 为了比较各种机 器学习算法的性能, 实验系统 测试采用
通用的 kdd99数据集。每个连接由 41个标记 连接状 态的属 性和一个标记是 否正 常的 标志性 属性 组成。检 测数据 描述 了每个网络连接的 41个属性的前 9个 本质特征: 持续 时间, 协议类型, 服务类型, 源端到 目的端 发出的 字节 数, 目 的端 到源端的字节数, 连 接状态 标志, 源 和目的 主机 端口是 否相 同, 错误分片的数 目, 紧急包 的数 目。训练 用的每 条网 络连 接都进行了 以下 标记: no rm al( 正常 连接 ) , DoS( 拒绝服 务攻 击 ) , probe (探 测攻 击 ), U 2R ( U ser to R oot 攻击 ), R 2L ( R e m ote to Loca l攻击 )。由于 K DD 数据 集非常 大, 为了减 少机 器学习算法的学 习时间, 选 取数 据的一 个子 集, 将得到 的入 侵数据经过 数据 预 处理 和属 性 权值 离散 化, 得 到训 练 数据 31644条, 其中 正常 连接 10150条 , DoS 攻击 20493 条, probe 攻击 470条, U 2R 攻 击 19 条, R2L 攻 击 512 条。在 实验 中, 采用了十折 交 叉 验证 的 方法 将 31644 条 数据 均 分 为 10等 份, 每次提取其中的 9份作为训练数据, 余下的 1 份作为测 试数据, 实验重复 10 次, 最后 取 10次 实验的 平均值 作为算 法的好 坏 评 价 标 准。 实 验 环 境 操 作 系 统 为 W indows XP, Pentium CPU 2 4GH z, 内 存: 1 0GB。 程 序 执 行 环 境 采 用 V isual C + + 6 0 3. 2 贝叶斯分类实验性能
基金项目: 国家自然科学基金资助项目 ( 60572128) 、安 徽省高校 省级 自然科学研究计划项目 ( K J2008B38ZC ) ( K J2007B239 ) 、巢湖学 院自 然科学基金资助项目 ( XLY - 200713 ) 和巢湖 学院科研 启动基金 项目 资助 收稿日期: 2009 - 02- 19 修回日期: 2009- 03- 20
( 1)式的过程是 通过构造如下 L agrange函数
& L ( w, b,
)=
1 wT w 2
Hale Waihona Puke Baidu
N i= 1
i [ yi ( wT xi + b) - 1]
( 2)
其中 i% 0为 L ag range 系数, = [ 1 2 ∀ N ] T。根据最
优化理论得到 (1)式优化问题的对偶问题:
NN
N