基于朴素贝叶斯分类方法的校园网络入侵行为检测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 贝叶斯分类方法简介
贝叶斯分类器的分类原理是通过某对象的先验概率,利 用贝叶斯公式计算出其后验概率,在网络入侵行为检测中,就 是该用户的网络行为属于正常行为还是入侵行为的概率。对于 每个新的网络用户,都可以选择具有最大后验概率的类作为该 对象所属的类,从而判断新连接的网络用户的行为类别。 假设某个网络连接有 n 个特征,分别为 F1,F2,…,Fn;另 外对每个网络连接都可能有 m 个类别,分别为 C1,C2,…,Cm。 贝叶斯分类就是计算出某个网络连接从属概率最大的分类, 即以下分类概率中的最大值: P(C|F1F2…Fn)=P(F1F2…Fn|C)P(C)/P(F1F2…Fn) 而传统的朴素贝叶斯分类器则在此基础上进行了更多的 简化,假设所有的特征彼此独立,于是有如下等式存在: P(F1F2…Fn|C)P(C)=P(F1|C)×P(F2|C)×…×P(Fn|C)×P(C) 式(1)右边的每一项,都可以通过历史数据的统计和
[1]
分析得出。从而只要统计大量网络访问数据的历史资料,就 可以算出新的网络连接对应每个类别的概率,从而找出最大 概率的那个类。
2 贝叶斯分类的特征选取
在进行分析之前,首先要收集数量充分的网络数据。通 过对校园网用户行为的监测和提取,收集了 2789 条用户网 络连接行为的数据。在用户的连接行为中,需要利用互联网 领域的知识确定数据的属性,去掉不需要的属性,以确保数 据的质量。 将 2789 条数据进行了分类标定,分为正常的网络访问 和 4 种网络攻击共五个类别。之后建立了网络入侵行为检测 模型,模型包含三类属性,分别是基本属性、连接内容的属 性和连接的流量属性。每种属性的具体内容如表 1 所示。
在数据清理阶段,需要将采集到的数据的噪声和空缺值 进行特殊处理。数据噪声是采集的数据中明显错误或不符合 要求的数据,而空缺值往往是采集或存储数据的过程中引起 的问题,这些数据往往由数据采集过程中的错误或误差引起 的。对于噪声数据或空缺值,需要在正式的预测流程前剔除, 否则这部分数据会对最后的预测结果产生不可预知的影响。 对于不符合要求的噪声数据,采用平滑处理的技术降低这些 数据对最终结果产生的影响;而对于空缺值,使用该属性最 常出现的值或平均值来替代。这个过程如表 2 所示。
表 2 数据清理阶段的处理内容 数据类型 噪声数据 空缺值 数据条数 37/2789 15/2789 处理方法 平滑处理,降低噪声影响 用最常出现的值或平均值代替
成了模型的建立和求解过程。结果发现,贝叶斯分类模型有 着良好的预测性能,在测试集上的网络攻击识别准确率达到 93.75%,同时对于训练集上未包含的 12 种攻击类型,识别出 了 10 种,证明了基于贝叶斯分类方法的网络入侵行为检测具 有很强的自适应性和成长能力,可以防范一些未知的病毒。
表 1 网络连接数据属性分类 属性类别 连接基本属性 连接内容属性 连接流量属性 属性内容 连接的协议类型、连接的持续时间、 客户端发出的数据长度、服务器发出的数据长度 是否登录服务器、是否获取根权限、 登录失败的次数、创建文件次数、执行搜索次数 2 秒内相同 IP 的连接数、2 秒内 SYN 出缩率、 REJ 出错率、2 秒内相同服务的连接数
2016 年第 19 期
信息与电脑 China Computer&Communication
网络与通信技术
基于朴素贝叶斯分类方法的校园网络入侵行为检测
刘劲隆
(宝鸡市长岭中学,陕西宝鸡 721006)
摘 要: 面对网络入侵的多样性的挑战,校园网的传统安全防护行为很难起到切实有效的作用。笔者讨论了如何利 用朴素贝叶斯分类的方法,甄别网络中未知类型的攻击。该方法的关键是收集足够量的网络正常使用的数据和攻击数据, 从而描述网络行为模式,根据不同的属性集建立正常连接和网络攻击的分类规则。由于贝叶斯分类具有较好的分类性能, 它能发现已知的网络攻击并能发现未知的攻击,具有较好的识别效果。 关键词:贝叶斯分类;网络入侵;校园网络 中图分类号:TP393.08 文献标识码:A 文章编号:1003-9767(2016)19-173-02
校园网络给教师的教学带来了很多便利,但同时也成为 蓄意窃取数据、破坏教学秩序的黑客们竞相攻击的目标 。现 在校园网的防护措施主要是用户认证和防火墙等工具,其核心 是维护一个需要不断更新的网络攻击特征知识库(也就是病毒 库)[2]:对于已知的攻击,它们可以详细、准确地报告出攻击 类型,但对于未知类型攻击的防范是效果甚微的。这种被动的 防护很难适应当前网络环境中不断变化的攻击手段。 数据挖掘的观点认为,入侵检测(Intrusion Detection) 可以看成是一个以数据为研究中心的数据分析任务,即从数 据中获取知识,或者称为规则 [3-4]。只要从大量的数据中获 得这种规则,就可以根据攻击类型的特征来防范已ห้องสมุดไป่ตู้和未知 类型的攻击 [5]。针对这种情况,本文使用贝叶斯分类的方法, 在较长一段时间内收集校园网服务器的登录数据,将这些测 试数据分为正常登陆、已知攻击和未知攻击,并利用贝叶斯 分类的方法学习其中的关键特征规则,从而在未来很好地识 别正常登陆和网络攻击。
表 3 网络入侵检测模型验证结果 训练集数据量 已知攻击类型 识别准确率 75M 22 种 93.75% 测试集数据量 未知攻击类型 未知攻击类型识别率 45M 12 种 10/12
3 数据的预处理
在数据采集和存储之后,需要对采集到的数据进行预处 理,从而提高贝叶斯分类和预测过程的准确性和有效性。数 据的预处理过程包含三部分的操作:数据清理、相关性分析 和数据变换。
— 173 —
网络与通信技术
信息与电脑 China Computer&Communication
2016 年第 19 期
如表 1 所示,选取了共 3 方面、13 个连接属性,作为贝 叶斯分类中每条数据关注的特征。部分特征的值是连续变量, 例如连接持续时间、REJ 出错率等,而部分特征的值是离散 变量,例如连接的协议类型、是否登录服务器等。对于每一 类特征,需要在贝叶斯分类前进行数据的预处理,以提高预 测的准确性和有效性。
相关文档
最新文档