在线自适应网络异常检测系统模型与算法(精)
基于快速自适应聚类算法的网络异常检测方法
关
键
词 : 常检 测 , 类算 法 , 据安 全 , 异 聚 数 www
等 同于入 侵性 活 动 , 么 它们 之 间存 在 以下 几 种组 那 合 的情况 : 入侵 但 非 异 常 , 入 侵 但 异 常 , 入侵 且 非 非 非异 常 , 入侵且 异 常 。因 此入 侵 检 测 要 解 决 的 问题 就是构 造 异常 活动 集并 从 中发现 入侵 活动 子集 。因 此 异常 检测方 法 与实 际系 统相 对无 关 , 用性 较强 , 通 能够 检测 出新 的和 未 知 的 人 侵 攻击 行 为 。但 是 , 由 于不 可 能对整 个 系统 内的所 有用 户 行为进 行 全面 的
误报率 较 高 J 国内外 的研 究 表 明 , 如 参 考 文献 。 正 [ 6 中介绍 的那 样 , 来越 多 的科 研人 员 将 聚类 2~ ] 越 算法用于异常检测 。本文提出了一种新型的快速 自 适应 异 常检测 算法 , 验结 果表 明 , 实 与现 有 的基于 聚
点进行入侵攻击方法的变种 。误用检测模型能针对 性 地建 立高效 的入侵检 测 系统 , 检 测准 确度 高 , 其 误 报率 低 , 但它对 未 知 的 入侵 活 动 或 已知 入 侵 活动 的
描述 , 每个用 户 行为 又不 是一 成不 变 的 , 以导致 且 所
关 注 。各种各 样 的病毒攻 击 和安 全 防卫手 段层 出不 穷, 入侵 检测 系统 (D ) IS 就是 当前 网 络 安 全 体 系 中
通信网络故障自愈系统
1.随着5G、物联网等新技术的不断发展,通信网络将更加复杂和庞大,需要更加智能和高效的故障 自愈系统来保障网络的稳定运行。 2.未来可以进一步探索将人工智能、机器学习等先进技术应用于通信网络故障自愈系统,提高系统 的智能化程度和自适应能力。 3.加强与其他行业和领域的合作与交流,探索通信网络故障自愈系统在智能制造、智慧城市等领域 的应用和推广,促进数字经济的发展。
系统性能和优化策略
▪ 优化硬件设备性能
1.选用高性能、高稳定性的硬件设备,提升系统整体性能。 2.定期对硬件设备进行维护和升级,确保设备运行在最佳状态。 3.通过硬件加速技术,提高数据处理能力和网络传输效率。
▪ 软件优化与定制
1.对软件系统进行优化,减少系统资源占用和提高运行效率。 2.针对特定业务需求,定制开发功能模块,提升系统的适用性和可扩展性。 3.加强软件系统的安全防护,确保数据安全和系统稳定。
系统引言和背景介绍
▪ 通信网络故障自愈系统的应用场景
1.故障自愈系统适用于各种通信网络,包括固定网络、移动网 络等。 2.在智能交通、智能制造等领域,故障自愈系统能够保证业务 的连续性和稳定性。 3.在物联网、边缘计算等领域,故障自愈系统能够提高设备的 可靠性和可用性。
▪ 通信网络故障自愈系统的经济效益和社 会效益
▪ 故障自愈系统的重要性
1.随着通信网络规模的扩大和复杂度的提高,故障发生的概率也在不断增加,故障自愈系统的 重要性愈加凸显。 2.故障自愈系统能够减少人工干预,提高网络维护的效率和质量,降低因故障造成的损失和影 响。 3.该系统能够提高通信网络的可靠性和稳定性,保证网络服务的连续性和可用性,为用户提供 更好的体验和服务。
故障检测和定位技术
▪ 故障检测和定位技术应用
自适应检测算法的性能分析及应用
自适应检测算法的性能分析及应用自适应检测算法的性能分析及应用摘要:随着信息技术的不断发展,自适应检测算法在各个领域都有着广泛的应用。
本文将对自适应检测算法的性能进行分析,并讨论其在实际应用中的潜力和局限性。
首先,我们将介绍自适应检测算法的基本原理和常用的实现方法。
然后,我们将重点讨论算法的性能评估指标,并通过实验对几种常见的自适应检测算法进行性能比较。
最后,我们将探讨自适应检测算法在网络安全、图像处理和智能交通等领域的应用前景。
一、引言随着互联网的快速发展和各类智能设备的普及,我们面临着越来越多的安全威胁和数据风险。
传统的检测算法往往只能针对特定的攻击模式进行检测,无法应对新型的未知攻击。
而自适应检测算法则可以根据不断变化的环境和攻击模式,实时调整检测策略,以应对多样化的威胁。
二、自适应检测算法的原理和实现方法自适应检测算法的核心思想是根据当前环境和攻击模式的变化,动态调整检测策略。
常见的实现方法包括基于机器学习的自适应检测算法和基于统计模型的自适应检测算法。
前者通过训练样本学习攻击模式的特征,然后根据实时数据判断是否存在异常;后者通过建立统计模型对数据进行建模,然后根据模型判断是否存在异常。
三、性能评估指标性能评估是衡量自适应检测算法优劣的重要指标。
常用的性能评估指标包括准确率、召回率、误报率和漏报率。
准确率是指检测算法正确判断的比例,召回率是指检测算法正确检测到的异常的比例,误报率是指检测算法错误判断为异常的比例,漏报率是指检测算法错误判断为正常的比例。
四、自适应检测算法的性能比较为了对不同的自适应检测算法进行性能比较,我们设计了一系列实验。
实验结果表明,在特定的应用场景下,基于机器学习的自适应检测算法表现出更高的准确率和召回率,而基于统计模型的自适应检测算法表现出更低的误报率和漏报率。
这意味着,在不同的应用场景中,我们选择合适的自适应检测算法可以最大程度地提高检测效果。
五、自适应检测算法的应用自适应检测算法在许多领域都有着广泛的应用。
面向异常流量检测的自适应抽样算法的探究
面向异常流量检测的自适应抽样算法的探究0 引言随着高速网络技术和栅格技术的快速发展,网络链路速率在不断提高,网络带宽和网络流量规模也在不断扩大,这使得对网络骨干链路上的流量进行实时在线的全采集测量变得越来越困难。
同时,对海量流量数据库进行维护和对数据进行分析处理也相当困难,并且开销很大。
为了解决上述问题,流量抽样技术研究已经成为当前甚至今后高速动态网络流量测量的研究重点之一。
抽样测量主要应用于网络异常流量检测和网络管理两方面,但其对前者的影响远远超过了后者。
这主要是因为异常流量检测的网络环境复杂,可能存在网络攻击和正常突发访问等情况,将会同时涉及正常流量和异常流量以及各种检测指标等多个因素,抽样过程对这些因素的特征和行为影响颇大。
在面向异常流量检测的抽样测量中,一方面,抽样数据流量必须逼近于真实数据流量,一般而言,抽样数据流量相对于真实数据流量分布必然存在着偏差,抽样获得的流量数据越多,网络异常流量检测的难度越小,检测结果也越可信; 另一方面,为了实现高速、海量信息的快速准确检测,人们希望需要分析处理的流量数据越少越好。
如何有效地缓解异常流量检测准确性与实时性之间的失衡是目前流量抽样技术研究面临的巨大挑战。
1 抽样技术分类面向网络异常流量检测的抽样方法多种多样,大致可分为静态抽样、自适应抽样、基于流的抽样和BF( bloom filter) 抽样四种。
1. 1 静态抽样技术1993 年,网络流量抽样技术首次得到应用,针对NSFNET主干流量测量中流量大的问题,Claffy 和Polyzos 采用了基于事件和时间驱动的两种经典静态抽样方法。
静态抽样技术也称传统抽样技术,主要有系统抽样、分层随机抽样和随机抽样三种静态抽样方法。
假设样本容量为N,抽样间隔为K,每个抽样间隔内有相等的样本数,系统抽样是抽取每个固定抽样间隔内的第一个样本,分层抽样是从每个固定抽样间隔内随机抽取一个样本,随机抽样是直接从样本容量中随机抽取K 个样本。
网络安全中的入侵检测方法及算法原理
网络安全中的入侵检测方法及算法原理随着互联网的快速发展,网络安全问题变得日益突出。
为了保护网络的安全,入侵检测成为了一项重要的任务。
入侵检测系统能够监视和分析网络中的数据流量,识别出潜在的入侵活动,并及时采取相应的措施。
本文将介绍网络安全中常用的入侵检测方法及其算法原理。
一、基于特征的入侵检测方法基于特征的入侵检测方法是一种常见的入侵检测方式。
该方法通过建立一系列的特征模型,检测网络流量中的异常行为。
这些特征模型可以基于已知的入侵行为进行定义和训练,也可以使用机器学习算法从大量数据中学习并自动识别新的入侵行为。
1.1 签名检测签名检测是一种常见的入侵检测方法,它通过比对网络流量与已知的入侵签名进行匹配来判断是否存在入侵行为。
入侵签名是已知入侵的特征集合,可以基于已有的安全知识进行定义。
然而,签名检测方法无法有效检测新型入侵行为,因为它只能识别已知的攻击模式。
1.2 统计检测统计检测方法使用统计模型分析网络流量的变化,并通过比较实际数据与期望模型之间的差异来检测入侵行为。
常见的统计检测方法包括:基于异常的检测和基于异常的检测。
基于异常的检测依赖于对正常行为的建模,当网络流量的行为与已定义的模型出现明显偏差时,就会发出警报。
基于异常的检测则是通过建立正常流量的统计模型,当流量中的某些特征值与期望模型差异较大时,就认为存在异常行为。
1.3 机器学习检测机器学习检测方法基于大量的对网络流量数据进行训练,使用机器学习算法来自动识别入侵行为。
常见的机器学习算法包括决策树、支持向量机、神经网络等。
这些算法可以根据已有的训练数据来学习网络流量数据的特征,从而能够检测新的入侵行为。
机器学习方法相较于传统的特征基础方法更加灵活和自适应,但需要大量的训练数据和算力支持。
二、基于行为的入侵检测方法除了基于特征的入侵检测方法外,基于行为的入侵检测方法也是一种常见的方式。
该方法通过分析网络中各个节点的行为,检测异常行为并判断是否存在入侵活动。
基于机器学习的网络异常检测与分析
基于机器学习的网络异常检测与分析网络异常检测与分析是当今互联网时代非常重要的一项任务。
随着网络规模的不断扩大和复杂度的增加,网络安全成为人们关注的焦点。
网络异常指的是网络流量与正常行为模式不符合的情况,可能是由于网络攻击、系统故障或恶意行为导致的。
本文将介绍基于机器学习的网络异常检测与分析的方法和应用。
首先,机器学习是一种广泛应用于数据分析和模式识别的技术。
在网络异常检测中,机器学习通过分析和建模网络流量数据,提取特征并训练模型来识别异常。
常用的机器学习算法包括支持向量机(SVM)、决策树和随机森林等。
这些算法可以通过对已知正常流量和异常流量进行训练,来学习正常和异常模式之间的差异。
其次,网络异常检测可以应用于各种场景,包括网络入侵检测、DDoS 攻击检测和网络操作异常检测等。
其中,网络入侵检测是网络异常检测的一个重要方面。
通过机器学习算法,可以对网络流量进行实时监测,识别并阻止潜在的攻击行为。
DDoS 攻击检测是指识别和过滤分布式拒绝服务攻击。
网络操作异常检测则主要用于识别异常用户行为,如异常的上网时间、访问频率等,以便发现可能的黑客攻击或内部泄漏行为。
在实际应用中,基于机器学习的网络异常检测与分析需要解决一系列挑战。
首先是数据的预处理。
网络流量数据通常大规模而复杂,需要进行特征提取和降维等操作,以便于机器学习算法的处理。
其次是样本不平衡的问题。
正常流量远远多于异常流量,这样会导致模型对正常流量更为敏感,而对异常流量的检测效果较差。
因此,需要采取适当的方法来平衡样本,并加强对异常流量的学习。
另外,网络流量的属性和模式也可能随时间变化,因此模型需要具备一定的适应性和演化能力。
为了提高网络异常检测的准确度和实时性,研究人员还不断提出新的方法和算法。
一种常见的方法是结合多个机器学习算法,形成集成学习。
集成学习通过融合多个独立分类器的决策,可以提高整体的分类性能。
另一种方法是引入深度学习技术。
深度学习可以通过构建多层神经网络,对网络流量数据进行端到端的学习和表示,以实现更精确的分类和检测效果。
基于Transformer的网络异常检测系统
基于Transformer的网络异常检测系统Transformer是一种近年来在自然语言处理领域取得巨大成功的神经网络架构,但其在其他领域的应用也逐渐得到了广泛的关注和探索。
本文将探讨基于Transformer的网络异常检测系统,介绍其原理、设计思路和实际应用情况。
一、背景介绍网络异常检测是网络安全领域中非常重要的一环,通过监控网络流量和行为,及时发现和应对网络中的异常情况,以保障网络的安全稳定运行。
传统的网络异常检测系统往往基于规则或者统计方法,但这些方法在面对复杂多变的网络环境时表现并不理想,因此需求一种更加先进且适应性更强的网络异常检测技术。
二、Transformer在网络异常检测中的应用Transformer是由Google提出的一种强大的神经网络架构,其独特的自注意力机制使其在处理序列数据时表现出色。
在网络异常检测中,我们可以利用Transformer对网络流量数据进行建模和分析,发现其中的异常模式和规律。
通过将网络流量数据输入Transformer模型进行训练,我们可以让模型学习正常的网络流量特征,从而能够检测出与正常情况不同的异常数据。
三、基于Transformer的网络异常检测系统设计基于Transformer的网络异常检测系统主要包括数据预处理、Transformer模型构建、异常检测和反馈等步骤。
首先,我们需要对网络流量数据进行预处理,将其转换为适合Transformer模型输入的格式。
然后,我们设计一个多层Transformer模型,通过多个Encoder层和Decoder层对输入数据进行编码和解码,从而提取出网络流量数据中的特征信息。
接着,我们通过构建一个异常检测器,利用Transformer提取的特征信息进行异常检测,当检测到异常情况时可以及时发送警报或采取相应的防御措施。
最后,我们可以通过对异常检测结果的反馈,不断改进和优化系统性能,提高网络异常检测的准确率和可靠性。
网络流量监测中的异常检测算法
网络流量监测中的异常检测算法随着互联网的普及,网络攻击也越来越频繁,网络管理员需要不断地监测和防范各种攻击。
其中,异常检测算法就是一种重要的监测手段。
本文将从异常检测算法的基本原理、常见的异常检测算法、算法的优缺点和应用实例等方面进行探讨。
一、基本原理异常检测算法一般基于统计学原理,其主要思想是将样本数据与正常行为进行比对,如果样本数据与正常行为偏离过大,则认为它是异常的。
因此,异常检测算法的核心是在样本集合中发现与“正常”数据差异明显的数据。
二、常见的异常检测算法1. 方差检验方差检验是一种基本的检测方法,它认为数据集的方差代表数据的波动程度。
当数据的方差超过了一定的阈值,则认为它是异常的。
2. 箱型图检测法箱型图检测法是一种快速判断异常值的方法,通过画出数据的箱型图(或盒须图),然后根据箱型图的分布情况判断是否存在异常值。
3. 离群点检测法离群点检测法是一种基于距离度量的检测方法,它通过寻找样本值与其它样本之间距离的异常点来判断数据是否异常。
其中,常用的距离度量方法有欧几里得距离和曼哈顿距离等。
4. 基于聚类的异常检测算法聚类是一种将样本数据分为不同群体的方法,它可以帮助我们找到数据中的规律。
基于聚类的异常检测方法是一种将样本数据分成两个群体,即正常数据和异常数据的方法。
三、算法的优缺点1. 方差检验优点:方差检验是一种快速判断是否存在异常数据的简单方法,执行速度快,准确性高。
缺点:方差检验的结果受样本容量、样本分布等因素的影响,因此其适用范围有一定的局限性。
2. 箱型图检测法优点:箱型图可以通过数据的四分位数、中位数等指标反映数据的分布情况,便于理解数据的结构特点。
缺点:箱型图对于数据分布不均、样本容量小等情况,容易造成误差。
3. 离群点检测法优点:离群点检测法能够找到样本中的噪声数据和异常数据,对数据预处理效果好。
缺点:离群点检测法对数据集的样本容量有一定的要求,样本容量小、数据分布不均等情况容易造成误差。
基于机器学习的网络异常检测系统设计
基于机器学习的网络异常检测系统设计近年来,随着网络技术的迅速发展,互联网已经渗透到我们日常生活的方方面面。
然而,网络中的异常事件和攻击也随之增加,给网络安全带来了极大的挑战。
为了及时发现和应对这些异常事件,基于机器学习的网络异常检测系统应运而生。
本文将对基于机器学习的网络异常检测系统的设计进行探讨,并介绍其优点和挑战。
首先,我们需要明确网络异常检测系统的目标。
该系统的主要目标是使用机器学习算法自动检测网络中的异常事件,如恶意软件、入侵、DDoS攻击等,并及时发出警报,以便安全团队采取相应的措施。
与传统的基于规则、模式的异常检测方法相比,基于机器学习的网络异常检测系统能够更好地适应网络环境中快速变化的攻击和异常模式。
设计基于机器学习的网络异常检测系统需要考虑以下几个方面。
首先是数据采集和预处理。
网络异常检测系统需要收集大量的网络数据,包括网络流量、日志和安全事件等。
在数据预处理阶段,我们需要对收集到的数据进行清洗、转换和标准化,以便后续的分析和建模。
其次是特征选择和提取。
特征选择是指从原始数据中选择出能够最好地区分正常数据和异常数据的特征。
通常,我们会使用统计学方法、信息论方法等来进行特征选择。
特征提取是指从原始数据中提取出更高层次的特征表示。
常用的特征提取方法包括主成分分析(PCA)、奇异值分解(SVD)等。
第三是模型选择和训练。
在选择合适的机器学习模型时,需要考虑模型的拟合能力、计算复杂度和训练时间等因素。
常用的机器学习模型包括支持向量机(SVM)、朴素贝叶斯(Naive Bayes)、决策树(Decision Tree)等。
在训练模型之前,需要将数据集划分为训练集和测试集,以验证模型的性能和泛化能力。
最后是模型评估和优化。
在模型训练完成后,需要对模型进行评估和优化。
常用的评估指标包括准确率、召回率、F1值等。
如果模型表现不佳,我们可以考虑调整模型的超参数、增加训练样本、采用集成学习等方法来提升性能。
融合知识的多视图属性网络异常检测模型
融合知识的多视图属性网络异常检测模型杜航原 1曹振武 1王文剑 1, 2白 亮2摘 要 属性网络异常检测在网络安全、电子商务和金融交易等领域中具有重要的理论与现实意义, 近年来受到了越来越多的关注. 大多数异常检测方法凭借网络有限的属性或结构信息进行决策生成, 往往难以对异常模式做出可靠的描述. 此外, 网络节点对应的实体往往关联着丰富的领域知识, 这些知识对于异常的识别具有重要的潜在价值. 针对上述情况, 提出一种融合知识的多视图网络异常检测模型, 在多视图学习模式下通过数据与知识的互补融合实现了对异常节点的有效识别. 首先, 使用TransR 模型由领域知识图谱抽取知识向量表示, 并借助输入网络的拓扑关系构造其孪生网络. 接着, 在多视图学习框架下构建属性编码器和知识编码器, 分别将属性网络及其孪生网络嵌入到各自的表示空间, 并聚合为统一网络表示. 最后, 综合不同维度上的重构误差进行节点异常分数评价, 从而识别网络中的异常节点. 在真实网络数据集上的对比实验表明, 提出的模型能够实现对领域知识的有效融合, 并获得优于基线方法的异常检测性能.关键词 属性网络, 异常检测, 图神经网络, 知识融合, 多视图学习引用格式 杜航原, 曹振武, 王文剑, 白亮. 融合知识的多视图属性网络异常检测模型. 自动化学报, 2023, 49(8): 1732−1744DOI 10.16383/j.aas.c220629Multi-view Outlier Detection for Attributed Network Based on Knowledge FusionDU Hang-Yuan 1 CAO Zhen-Wu 1 WANG Wen-Jian 1, 2 BAI Liang 2Abstract Outlier detection on attributed networks is of important theoretical and practical significance in the net-work security, ecommerce, financial transaction and many other fields, and receives more and more attentions in re-cent years. Most existing outlier detection methods usually generate decisions by pattern mining on the network structure or node attributes. However, it is difficult to make a reliable description for abnormal objects by just rely-ing on the limited attribute and structure information directly available from given network data. Furthermore, the nodes in networks are usually associated with abundant domain knowledge in the real world, which has great poten-tial value for outlier detection. To this end, this paper proposes a multi-view network outlier detection model based on knowledge fusion, which identifies the abnormal pattern effectively by complementary fusion of network data and associated knowledge under the multi-view learning mode. Firstly, the model applies TransR to extract know-ledge vector representation from domain knowledge graph, and constructs a twin network with the topology struc-ture of the input network. Then, the attribute encoder and the knowledge encoder are constructed under the multi-view learning framework to embed he attributed network and its twin network into their respective representation spaces separately. On this basis, the network embeddings in two views are integrated into a unified representation by the aggregator. Finally, the abnormal score of each node is evaluated by integrating the reconstruction errors in the two different dimensions, and the abnormal nodes in the network are then recognized. Extensive experiments on real network datasets demonstrate that the proposed model can realize effective fusion of domain knowledge and ac-quire better outlier detection performance than baseline approaches.Key words Attributed networks, outlier detection, graph neural network, knowledge fusion, multi-view learning Citation Du Hang-Yuan, Cao Zhen-Wu, Wang Wen-Jian, Bai Liang. Multi-view outlier detection for attributed network based on knowledge fusion. Acta Automatica Sinica , 2023, 49(8): 1732−1744属性网络[1]作为一种包含丰富语义信息的数据组织形式, 在现实世界中普遍存在, 例如社交网络、生物信息网络、电商网络等. 这些网络中的节点除了彼此关联形成拓扑结构外, 往往还伴随一组丰富的特征或属性. 例如, 社交网络中的用户之间存在好友关系, 用户自身还具有兴趣标签、职业和年龄等重要属性. 电商网络中的商品可能与其他商品被收稿日期 2022-08-08 录用日期 2023-01-18Manuscript received August 8, 2022; accepted January 18,2023国家自然科学基金 (U21A20513, 62076154, 61902227, 62022052,62276159), 山西省重点研发计划项目(202202020101003)资助Supported by National Natural Science Foundation of China (U21A20513, 62076154, 61902227, 62022052, 62276159) and the Key R&D Program of Shanxi Province (202202020101003)本文责任编委 张敏灵Recommended by Associate Editor ZHANG Min-Ling1. 山西大学计算机与信息技术学院 太原 0300062. 山西大学智能信息处理研究所 太原 0300061. School of Computer and Information Technology, ShanxiUniversity, Taiyuan 030006 2. Institute of Intelligent Informa-tion Processing, Shanxi University, Taiyuan 030006第 49 卷 第 8 期自 动 化 学 报Vol. 49, No. 82023 年 8 月ACTA AUTOMATICA SINICAAugust, 2023同一用户购买形成拓扑关系, 商品自身还具有价格、产地等属性信息. 属性网络具有建模现实世界复杂系统的强大能力, 近年来随着学术界和产业界的持续关注, 面向属性网络的异常检测问题也逐渐成为一个重要的研究领域.属性网络异常检测的目标是识别与大多数节点具有显著差异的离群节点, 对于帮助决策者发现、管理和规避数据中的异常模式具有重要意义, 被广泛应用于诸多领域中. 例如, 对计算机网络中威胁网络安全的恶意软件或网络入侵的检测[2], 对电商网络中可能带给商家和客户巨大经济损失的欺诈行为的识别[3], 以及对社交媒体中恶意广告和垃圾邮件的过滤[4]等.由于获取异常标记的成本十分高昂, 目前大多数检测方法主要以无监督学习模式实现异常节点的识别. 这些方法大体上可以分为浅层学习方法和深度学习方法. 其中, 浅层方法通常采用异常度评价、残差分析或局部上下文分析等策略发现异常对象.例如, LOF[5]算法通过计算节点属性与其邻居的局部密度之间的距离, 在上下文中检测异常. Perozzi 等[6]提出的AMEN方法, 基于邻域的内部相似性和外部分离性定义了normality指标, 将结构和属性结合起来量化属性邻域的质量, 将normality较低的低质量邻域识别为异常社区. Li等[7]构建了一种Radar框架, 该框架学习线性回归函数以拟合由网络结构正则化的节点属性, 回归函数的残差被用作衡量异常的分数. Gutierrez-Gomez等[8]提出一种能够在多个尺度进行网络异常检测的方法, 该方法利用信号平滑后节点存留的聚集性对异常节点进行刻画, 引入Markov稳定性框架进行社区发现, 以寻找异常所在的上下文结构.受限于浅层学习机制对复杂分布和非线性问题有限的建模能力, 上述方法难以有效捕获网络中结构和属性不同信息模式之间的复杂交互关系. 深度学习模型凭借强大的表示学习能力和优秀的非线性决策能力, 能够在复杂的属性网络中为节点学习更为有效的表示. 为此, 一些研究尝试将深度神经网络用于解决属性网络上的异常检测问题. 例如, Chen等[9]设计了一种基于生成对抗属性网络的异常检测框架GAAN, 利用生成器产生伪节点, 在编码器对真实和伪节点进行编码后, 使用鉴别器区分给定的两个连通节点来自原始网络还是生成数据,并综合样本重构损失和判别损失构造异常检测的优化目标. Ding等[10]提出一种基于自编码器框架的深度异常检测模型Dominant, 使用图卷积网络(Graph convolutional network, GCN) 作为编码器将输入属性网络映射为低维嵌入. 解码器由网络嵌入重构拓扑结构和节点属性, 并通过重构误差来发现属性网络中的异常节点. Li等[11]提出一个基于谱卷积和反卷积的框架SpecAE, 将属性网络嵌入到隐空间中, 利用拉普拉斯锐化来放大异常嵌入与正常节点嵌入之间的距离, 并结合密度估计模型来实现异常检测.尽管上述方法在一些属性网络异常检测任务上获得了成功的应用, 然而由于异常样本的稀缺性以及先验信息的有限性, 仅仅依赖网络数据本身仍然难以对异常的分布特性做出准确可靠的描述. 在许多实际场景中, 在网络数据之外, 还以其他形式存在着关于网络系统的领域知识描述. 例如, 电商网络中的商品除了包含属性信息外, 还蕴含着现实世界中各类与其相关的知识信息, 如图1所示. 网络数据和领域知识源于对同一复杂系统在不同视角下的描述与刻画, 网络数据本身是数据生成机制作用下形成的一种表现形式, 而这些数据所属领域的知识则可能隐含着揭示网络数据形成和异常节点产生背后机理的有用信息. 因此, 如何对领域知识进行有效融合与利用, 进而提高网络异常检测的有效性,将成为一个极具价值的问题.投票数音乐创作人价格剧中城市编剧销售商评分制片公司导演销量排名评论数剧中角色相关电影月销量创作人(a) 影片及其属性信息(a) The movie and itsattribute information(b) 影片及其领域知识(b) The movie and itsdomain knowledge图 1 电商网络中的属性信息与知识Fig. 1 Attribute information and knowledge in thee-commerce network本文提出了一种融合领域知识的多视图异常检测 (Multi-view outlier detection based on know-ledge fusion, MOD-KF) 模型. 该模型首先利用领域知识为属性网络构造孪生网络, 形成对该网络的多视图描述. 接着在多视图模式下学习网络的低维表示, 通过视图聚合将领域知识融入到节点的统一表示中. 最后从网络拓扑和节点特征两个维度进行网络的解码重构, 依据重构误差计算节点的异常得分, 实现对异常节点的识别. 通过对领域知识的融合, 该模型可以使网络表示中保留更多有助于下游决策生成的关键信息, 进而改善可用数据较少的情况下异常检测的决策有效性.8 期杜航原等: 融合知识的多视图属性网络异常检测模型1733本文的主要贡献如下:1) 设计了一个多视图决策框架, 将属性网络以及相关领域知识构建的孪生网络作为复杂系统在不同视图下的信息形式表现. 借助图神经网络学习二者的网络表示, 并通过视图聚合操作实现了网络数据和领域知识在决策生成中的有效融合.2) 提出了一种融合领域知识的属性网络异常检测模型MOD-KF, 在图自编码器框架下, 以多视图的方式并行学习输入网络和孪生网络的表示, 丰富和完善了对网络中对象的描述, 使异常检测的有效性和可靠性得到提升.3) 在真实网络数据集上对MOD-KF和几种异常检测基线方法进行了比较分析, 实验结果验证了该模型的有效性.本文的结构组织如下: 第1节对相关工作进行了简要介绍; 第2节给出了问题定义; 第3节详细阐述了MOD-KF模型的构成及原理; 第4节通过实验对提出模型的有效性进行了验证; 第5节对本文的工作进行了总结和展望.1 相关工作目前, 较少有工作探讨在网络异常检测中融合领域知识, 这里着重对以下几个相关领域的工作进行简要介绍, 包括网络异常检测、图神经网络和知识图谱嵌入.1.1 网络异常检测近年来, 越来越多的业务场景中不断生成以图或网络结构表示的复杂的、相互关联的数据. 在这些复杂网络中, 往往存在部分和其他大多数对象具有明显不同行为表现的异常对象. 它们常表现为与网络中其余部分具有不同连接模式的单个节点, 或者是彼此之间频繁交互, 形成密集联系的团体. 为了识别这些异常对象, 一些研究工作借助网络数据中的拓扑结构, 对不同节点间的交互行为和依赖关系加以分析, 进行网络异常的识别. 例如, Fraudar 算法[12]定义了一个表示节点平均可疑度的全局度量, 通过逐步移除二部图中可疑度最低的节点, 使得剩余网络结构的全局平均可疑度达到最大, 从而找到异常子网络. SCAN算法[13]根据节点的结构和连通性进行聚类, 基于节点在结构上的相似性度量同时检测网络中的簇、桥节点和离群点. NetWalk 模型[14]利用游走机制将网络分解为一系列团组, 通过团组嵌入的方式学习网络表示, 并使用蓄水池采样策略在网络的动态变化中对学习到的表示进行更新, 在此基础上采用动态聚类模型检测网络中的异常.除了结构信息外, 网络数据中还常常具备描述节点特征的属性信息. 将结构与属性信息进行融合,有助于提升异常检测的有效性. 这些检测方法可分为如下几类: 1)从社区分析或测量自我中心网络的角度上发现异常, 例如AMEN[6]从每个节点的自我中心网络信息发现属性网络上的异常邻居; 2) 通过对节点特征子空间进行选择, 然后在子空间中发现异常, 例如Sanchez等[15]提出了一种统计选择全等子空间的方法ConSub来捕获节点属性和图结构之间的依赖关系, 将其应用于社区离群点检测; 3) 基于残差分析的方法[7], 认为异常节点无法通过其他参考节点进行近似替代; 4) 基于属性网络重构损失的方法, 例如Dominant[10]通过图自编码器和图卷积神经网络的协同作用, 利用GCN学习到的节点表示对属性网络进行重构, 根据结构和属性两方面的重构损失评估节点的异常水平. Chen等[9]构建了基于生成对抗网络的检测模型, 训练以高斯噪声为输入的生成器借助先验数据分布进行数据生成, 通过鉴别器对编码器产生的真实节点和生成数据的成对嵌入进行判别, 并由节点属性重构误差和判别损失共同产生节点的异常分数.1.2 图神经网络图神经网络[16−17]是一种利用图结构对节点属性和连接关系进行建模和学习, 并从网络数据中实现特征提取与表示的神经网络模型. 近年来, 随着网络数据在真实世界中大量涌现, 图神经网络在网络数据的分析处理中受到广泛关注, 取得了大量研究成果, 并在网络表示学习、图分类、链路预测和社区发现等各类任务中获得成功应用.图卷积网络[18]是一类被广泛使用的图神经网络模型, 根据特征提取方式的不同可以分为频域模型和空域模型两类. 前者从图信号处理的角度, 将图卷积层定义为一个滤波器, 使用图傅里叶变换及其扩展形式将节点表示转换至频谱域来执行卷积操作, 相当于通过滤波器从网络数据中过滤特定频带的信号. 后者从网络节点的空间关系出发, 通过邻域信息聚合机制迭代更新节点表示来定义卷积算子. 这类模型通常由邻域聚合函数、节点更新函数以及读出函数组成. 在邻域信息聚合的过程中, 考虑到各节点对当前节点状态更新的重要性可能存在差异, 图注意力网络 (Graph attention network, GAT)[19]将图卷积和注意力机制相结合, 根据每个节点和邻居节点的属性信息, 在节点状态更新时依据自注意力机制计算各邻居节点的贡献度, 据此在信息聚合过程中给予各节点不同程度的关注, 提高模型的学习效率.1734自 动 化 学 报49 卷面向网络数据的无监督学习任务, 自编码器也经常被用作信息传播框架构建图神经网络. 例如, Hou等[20]设计了一种对抗属性自编码器A3Graph,由编码器将节点属性编码为低维隐空间中的低维表示, 并通过解码器将节点表示映射到由正值点互信息矩阵 (Positive pointwise mutual information, PPMI) 和属性矩阵组成的聚合矩阵, 再借助对抗式学习模式为编码器的输出施以先验分布来提高表示学习的稳定性. Wang等[21]提出了一种图卷积编码器框架GASN, 首先使用改进的GCN对图结构和隐空间中的节点属性进行编码, 在此基础上设计了一种高通图解码器重构节点属性, 接着利用内积层重构网络结构关系, 最后构建统一优化框架对编码器和两个子解码器进行联合优化.1.3 知识图谱嵌入网络中的异常除了反映在拓扑结构和节点属性两个维度外, 还可以通过挖掘其领域知识描述进行识别. 作为一种常见的知识组织形式, 知识图谱[22]以图的形式描述了客观世界中的实体及其之间的多种关系. 其中, 实体表示真实存在的对象或抽象概念, 关系记录了实体间的某种联系. 知识图谱作为丰富且易获取的重要知识来源, 在图像分类和推荐系统[23−26]等各种应用中展现出重要价值, 受到人们的广泛关注. 近年来, 一些大型知识图谱数据库如Freebase、WordNet和DBpedia[27]等相继问世.为了获取和在学习模型中使用知识图谱中的知识, 需要通过嵌入方法[28]将知识图谱中的实体和关系映射到低维向量空间, 在保留知识图谱结构信息的同时获得知识的表示. 知识图谱嵌入方法可大致分为3类: 1) 基于距离的模型[29], 将关系建模为从头实体到尾实体的距离变换, 通过最小化变换后两个实体间的距离误差, 将知识图谱中的实体和关系类型分别映射到低维空间; 2) 基于语义匹配的模型[30], 利用相似度评分函数构建实体和关系嵌入向量之间的交互关系, 通过匹配不同实体和关系类型的潜在语义, 在度量事实合理性的过程中学习知识嵌入; 3) 基于神经网络的模型[31], 凭借神经网络对非线性复杂关系的表达能力, 通过对输入数据特征分布的空间转换, 学习知识图谱中的结构特征和语义特征, 在结构和关系建模方面提升知识图谱嵌入的性能.领域知识在网络数据之外的另一个视角为下游任务的决策生成提供了重要信息依据. 为此, 本文借助知识图谱嵌入在知识视图中为输入网络构造孪生网络, 并通过对数据视图和知识视图中网络表示的聚合实现对异常节点的识别, 提高异常检测的有效性.2 问题定义G=(V,E, X),V={v i|i=1,2,···,n}nd x i∈X(i= 1,2,···,n)v i X∈R n×dE={e(i,j)|v i∈V,v j∈V}e(i,j) v i v j|E|=mA∈R n×nv i v j A ij=1A ij=0定义 1. 属性网络: 给定一个网络其中, 表示网络中个节点构成的集合, 每个节点具有个属性,表示节点的属性向量, 表示所有节点的属性向量组成的矩阵.是网络中所有边构成的集合, 表示节点和之间的边, 共 条边. 此外, 通过邻接矩阵表示属性网络的拓扑结构, 若节点和之间存在边, 则, 否则.T= (N,R,T)N Rr(h,r,t)∈T h∈N t∈NT定义 2. 领域知识图谱: 通常被表示为, 其中, 为实体构成的集合, 表示关系的集合, 集合中的关系连接两个实体构成三元组, 为头实体, 为尾实体,表示三元组构成的集合. 知识图谱以三元组形式描述了相关对象的概念及联系, 例如三元组(狮子王, 制片公司, 迪士尼), 表述了“电影《狮子王》的制片公司是迪士尼”这一事实.G TF(G,T)V→R n定义 3. 融合领域知识的多视图异常检测: 给定属性网络和领域知识图谱, 该任务的目标是学习一个异常检测模型: , 获得属性网络中各节点的异常得分, 进而衡量其异常程度.3 MOD-KF模型针对属性网络在有限信息来源下难以对异常对象做出可靠描述的问题, 提出了一种异常检测模型 —— MOD-KF. 该模型的总体架构如图2所示,以图自编码器为信息处理框架, 由4个基本组件构成: 1) 孪生网络构造模块, 使用TransR模型学习属性网络对应的领域知识图谱嵌入, 并依据网络的拓扑关系构造其知识视图下的孪生网络; 2) 多视图编码器, 在数据视图和知识视图下通过两组并行的GAT 分别构造属性编码器和知识编码器, 学习属性网络和孪生网络的嵌入; 3) 聚合器, 将不同视图下的网络嵌入聚合为统一表示; 4) 解码器, 由节点的统一表示对网络的拓扑结构和节点特征进行重构, 借助这两个维度上的重构误差建立模型的优化目标, 并输出网络节点异常评分.3.1 孪生网络构造模块孪生网络具有和输入网络相同的拓扑结构, 与后者使用属性信息进行节点描述不同, 孪生网络将领域知识作为另一个视角下对节点的特性描述.8 期杜航原等: 融合知识的多视图属性网络异常检测模型1735G =(V,E,X )对于属性网络 , 其孪生网络的构造包含两个步骤: 首先, 使用TransR 模型对其相关的领域知识图谱进行嵌入学习, 以获得节点知识的向量表示; 接着依据网络的拓扑结构将这些知识表示进行关联, 完成孪生网络构造. 在知识图谱中, 每个实体通常会通过不同的关系连接到其他实体上, 这些关系从多个方面对实体的特性进行刻画. TransR 模型在实体空间和关系空间分别对实体和关系进行建模, 并通过在相应关系空间中投影实体间转换来学习实体和关系的嵌入.(h ,r ,t )h t r r M r h r t r 具体来说, 对于一个三元组 , 将头实体与尾实体的嵌入分别记作 和 , 令 表示实体间关系的嵌入. 通过为关系 设置一个映射矩阵 ,可以将实体由实体空间投影到相应的关系空间, 分别获得头实体投影向量 和尾实体投影向量 如式 (1) 所示:随后, 在投影实体之间建立转换, 通过式 (2)的得分函数计算头尾实体投影向量之间的距离, 以此来衡量事实成立的可能性:特定关系的投影可以使那些实际具有这种关系的头尾实体彼此靠近, 否则使它们相互远离.K ∈R n ×d G =(V,E,X )G ′=(V,E,K )使用式 (1) 和式 (2) 以迭代方式对三元组的嵌入表示不断更新, 从表示结果中抽取与各网络节点相关的知识向量表示, 构建输入网络的知识矩阵,记作 , 该矩阵的每一行记录了各节点的知识特征. 在此基础上, 基于属性网络 的拓扑结构构造其孪生网络, 记作 .3.2 多视图编码器多视图编码器由属性编码器和知识编码器构成, 分别用于在不同视图下对属性网络和孪生网络进行编码, 学习节点在低维隐空间中的相应表示.属性网络中的节点是对现实世界相应实体的抽象表达, 在实际场景中, 实体的不同邻居通常对其有着不同程度的影响, 为此本文使用两组并行的GAT 网络构成多视图编码器. 通过自注意力机制对节点权重进行自适应匹配, 在对邻域信息进行聚合的过程中, 将节点之间的关联关系更好地融合到节点表示中.G =(V,E,X )1) 属性编码器. 由两个注意力层堆叠而成, 在数据视图下对属性网络 进行编码. 其中, 第一层使用多头注意力机制, 第二层使用单头注意力机制, 属性编码器输出如式 (3) 所示:Z G ∈R n ×d ′f (X,A )其中, 为属性编码器输出的节点表示,函数 表示图注意力层. 在进行节点邻域信息聚合的过程中, 图注意力机制对邻域内各节点赋予了不同的注意力系数. 节点与其邻居节点之间的注意力系数由式 (4) 计算:e ij v i v j v j v i v j ∈N i N i v i W enc ∈R h ′×d ∥c ∈R 2h ′式中, 是节点 和节点 之间的注意力系数, 表示节点 对于节点 的重要程度, , 为节点 的一阶邻居节点集合. 是作用到每个节点上的可学习权重矩阵. 表示拼接操作,为权重向量.为了使节点之间的注意力系数易于比较, 通过式 (5) 对注意力系数进行归一化:领域知识TransR知识图谱孪生网络 ′知识编码器拓扑结构v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v 属性网络属性编码器sigmoid (UU )结构解码器异常分数聚合器特征解码器KXˆAˆ图 2 MOD-KF 模型总体框架Fig. 2 The overall framework of the MOD-KF model1736自 动 化 学 报49 卷利用归一化注意力系数对邻居节点进行聚合,如式 (6) 所示:σ(·)其中, 为激活函数, 实现对数据的非线性变换.v i 以上步骤通过单头注意力机制聚合邻域信息对节点表示进行了更新. 进一步地, 为了增强模型泛化能力, 在图注意力层中引入多头注意力机制, 通过多个相互独立的单头注意力网络分别计算出一组注意力系数, 再通过式 (7) 将多个表示结果进行拼接, 得到节点 的表示输出:P αpij pW penc p 其中, 表示单头注意力网络的数量, 表示第 个注意力网络计算得到的注意力系数, 表示第 个注意力网络的权重矩阵.G ′=(V,E,K )2) 知识编码器. 知识视图下的编码器具有和属性编码器完全相同的结构, 用于学习孪生网络 的表示, 其构成如式 (8) 所示:Z G ′∈R n ×d ′其中, 为知识编码器输出的孪生网络的节点表示.3.3 聚合器原始属性网络及其孪生网络是对不同视角下同一复杂系统的信息描述, 二者的网络表示在模型决策过程中能为彼此提供互补信息. 为了提高模型决策的有效性, 本文利用聚合器对不同视图下的网络表示进行融合, 进而获得网络节点的多视图统一表示. 我们采用了两种视图聚合策略,具体如下:1) 拼接聚合器(Concat): 对两个视图的节点向量表示进行纵向拼接, 形成一个维度更高的向量,如式 (9) 所示:concat (·)U ∈R n ×(2d ′)其中, 表示纵向拼接操作,表示拼接聚合后形成的多视图统一表示.2) 加和聚合器(Add): 由两个视图的节点向量表示按照对应元素相加的方式, 获得一个同维度的新向量, 如式 (10) 所示:U ∈R n ×d ′其中, 为使用加和聚合器获得的多视图统一表示.3.4解码器解码器包含结构解码器和特征解码器两个部分, 依据节点统一表示分别对网络的拓扑结构和节点特征进行重构.1) 结构解码器, 通过计算节点统一表示间的内积实现对网络拓扑的重构, 如式 (11) 所示:ˆA其中, 表示重构后的网络拓扑结构.2) 特征解码器, 使用两层全连接网络实现对节点特征的重构, 如式 (12) 所示:ˆXb (l )l 其中, 为节点的重构特征信息, 表示第 个全连接层的偏置向量. 特征解码器的输出是对网络的节点属性和领域知识两类信息在同一特征空间中的重构.在上述框架中, 经过对属性网络和孪生网络的多视图编码、聚合以及重构过程, 实现了领域知识和属性网络在低维表示中的有效融合, 丰富和完善了学习模型的信息来源和决策依据, 对于提升模型决策的有效性和可靠性具有积极作用.3.5 优化模型及异常评分MOD-KF 模型的优化目标由两部分组成, 如式 (13) 所示:L f 其中 为特征重构误差, 使用F-范数由式 (14)定义:L s 由于解码器的输入为聚合后的节点统一表示,因此在计算特征重构误差时将原始网络与孪生网络中的属性作为共同参照. 为结构重构误差, 由式(15) 定义:λ∈[0,1] 为平衡系数, 用于调整两种重构误差间的权重.网络中的异常节点通常与其他节点存在某种数据模式上的显著差异, 因而本文将节点重构误差作为评价节点异常分数的重要手段, 并给出节点异常评分函数如式 (16) 所示:8 期杜航原等: 融合知识的多视图属性网络异常检测模型1737。
网络流量分析中的异常检测算法研究
网络流量分析中的异常检测算法研究随着互联网的普及,网络流量越来越大。
互联网上的流量涉及到了网站访问、文件下载、视频播放等多种用途。
而随着互联网的全球化和数字化,网络安全问题愈发突出。
如何保证网络的安全性和可靠性,一直是人们关注和研究的焦点。
常规技术不能满足我们的需求,异常检测算法应运而生。
本文将介绍网络流量分析中的异常检测算法,包括流量特征分析、流量量化与描述、异常检测模型及其性能评价等方面的内容。
一、流量特征分析在进行网络流量分析时,需要首先了解流量的特点和规律,以便更好地进行异常检测。
1.1 时间窗口时间窗口是指一段时间内网络流量的采集周期。
时间窗口的选择是网络流量分析中的一个重要问题。
短的时间窗口能够提供更高的精度,缺点是流量的噪声和波动较大。
长的时间窗口则可以减少噪声和波动,但可能会导致精度下降。
因此,在实际应用中,需要根据具体情况选择合适的时间窗口。
1.2 流量数据类型在网络流量分析中,流量数据可以分为标准流量数据和非标准流量数据两种类型。
标准流量数据指的是符合网络通信协议规范的流量数据,如TCP/IP协议中的数据包,UDP协议中的数据包等。
这种类型的流量数据具有清晰、规则、可预测的特点。
非标准流量数据指的是不符合传统网络通信协议规范的流量数据,如DDoS攻击、网络蠕虫和木马等。
这种类型的流量数据具有复杂、随机、不确定性强等特点。
1.3 流量特征分析流量特征是网络流量的本质属性,可以用来帮助识别异常流量。
按照流量数据类型的不同,流量特征也可以分为标准流量特征和非标准流量特征两种类型。
标准流量特征包括IP地址、端口号、数据包数量、数据包大小、传输速率、延迟等基本属性。
非标准流量特征则包括攻击行为特征、威胁等级、攻击来源、攻击目标、攻击类型等多方面的综合特征。
二、流量量化与描述在流量特征分析的基础上,需要将流量数据转换为数值数据,以方便后续的分析和处理。
2.1 流量量化流量量化指的是将流量数据转化为具体的数值。
网络流量分析中的异常检测与行为识别算法研究
网络流量分析中的异常检测与行为识别算法研究随着互联网的普及和发展,网络流量分析成为了网络安全领域中的重要研究方向。
在大规模网络中,异常检测和行为识别算法的研究对于保护网络安全至关重要。
本文将探讨网络流量分析中的异常检测与行为识别算法的研究。
一、引言网络流量分析是指对网络数据包进行分析和监测的过程,通过对网络流量的分析可以发现网络中的异常行为,并识别出潜在的威胁。
异常检测和行为识别算法是网络流量分析中的核心技术,它们可以帮助网络管理员及时发现并应对网络攻击。
二、异常检测算法异常检测算法是通过对网络流量的统计和分析来检测网络中的异常行为。
常见的异常检测算法包括基于统计的方法、机器学习方法和深度学习方法。
1. 基于统计的方法基于统计的方法是最常用的异常检测算法之一。
它通过对网络流量的统计特征进行分析,如流量大小、流量变化趋势等,来判断是否存在异常行为。
其中,常用的统计特征包括均值、方差、峰度和偏度等。
2. 机器学习方法机器学习方法在网络流量分析中也得到广泛应用。
它通过训练模型来学习网络流量的正常行为,然后通过与模型的比较来检测异常行为。
常用的机器学习方法包括支持向量机、决策树和随机森林等。
3. 深度学习方法深度学习方法是近年来兴起的一种异常检测算法。
它通过构建深度神经网络模型,对网络流量进行特征提取和异常检测。
深度学习方法具有较强的自适应能力和泛化能力,可以有效地发现复杂的网络攻击。
三、行为识别算法行为识别算法是通过对网络流量的行为模式进行分析,来识别网络中的正常行为和异常行为。
常见的行为识别算法包括基于规则的方法、基于模式匹配的方法和基于机器学习的方法。
1. 基于规则的方法基于规则的方法是最简单直观的行为识别算法。
它通过事先定义一系列规则来判断网络流量的行为是否正常。
例如,当某个主机的上传流量超过一定阈值时,就可以判断该主机可能存在异常行为。
2. 基于模式匹配的方法基于模式匹配的方法是一种常用的行为识别算法。
含自适应阈值的ARMA网络流量异常检测算法
c a n ’ t a c c u r a t e l y d e s c r i b e t h e n e t w o r k a b n o r m a l b e h a v i o r a n d f u r t h e r a f f e c t s d e t e c t i o n p r e c i s i o n .B a s e d o n A R MA( A u —
t o r e g r e s s i v e Mo v i n g A v e r a g e ) w i t h s e l f - a d a p t i v e t h r e s h o l d , t h e n e t w o r k t r f a f i c a b n o r m a l i t y d e t e c t i o n a l g o i r t h m w a s p r e s —
i n t e r v a 1 .T h e e x p e ime r n t a l r e s u l t s s h o we d t h a t t h e t r a f f i c mo d e l c a n a c c u r a t e l y d e s c r i b e t h e n e t w o r k r u n n i n g s t a t u s a n d h a s v e r y h i g h a v a i l a b i l i t y . Ke y wo r d s : a b n o r ma l d e t e c t i o n;s e f r - a d a p t i v e t h r e s h o l d ;t r a f f i c f o r e c a s t i n g
入侵检测系统中两种异常检测方法分析【我的论文】(精)
网络入侵检测系统的研究摘要:随着互联网络的广泛应用,网络信息量迅速增长,网络安全问题日趋突出。
入侵检测作为网络安全的重要组成部分,已成为目前研究的热点,本文介绍了入侵检测系统的概念、功能、模式及分类,指出了当前入侵检测系统存在的问题并提出了改进措施,特别是针对异常入侵检测方法的研究,着重分析了基于神经网络的和层次聚类的异常检测方法,并从理论和试验层次队两种检测技术进行分析比较,客观分析了两种算法的优缺点。
同时预测了入侵检测系统的发展趋势。
关键词:入侵检测;入侵检测系统;BP神经网络;层次聚类;网络安全。
在基于网络的计算机应用给人们生活带来方便的同时,网上黑客的攻击活动正以每年10倍的速度增长,因此,保证计算机系统、网络以及整个信息基础设施的安全已经成为刻不容缓的重要课题。
防火墙作为一种边界安全的手段,在网络安全保护中起着重要作用,其主要功能石控制对网络的非法访问,通过监视、限制、更改通过网络的数据流,一方面尽可能屏蔽内部网的拓扑结构,另一方面对内屏蔽外部危险站点,以防范外对内的非法访问。
然而,由于性能的限制,防火墙通常不能提供实时的入侵检测能力,为了弥补防火墙存在缺陷,引入了入侵检测IDS( Intrusion Detection System )技术。
入侵检测是防火墙之后的第二道安全闸门,是对防火墙的合理补充,在不影响网络性能的情况下,通过对网络的检测,帮助系统对付网络攻击,扩展系统管理员的安全管理能力(包括安全审计、监视、进攻识别和响应),提供对内部攻击、外部攻击和误操作的实时保护。
一、入侵检测系统的概念入侵检测定义为识别为被授权使用的计算机系统和有合法权利使用系统但却滥用特权的过程。
即通过对计算机网络或系统中的若干关键点收集信息并对其进行分析,从而发现是否有违反安全策略的行为和被入侵的迹象。
进行入侵检测的软件与硬件的组合便是入侵检测系统(IDS)。
一个入侵检测产品通常由两部分组成,即传感器与控制台。
基于Transformer的网络异常检测系统
基于Transformer的网络异常检测系统一、引言网络异常检测是保障网络安全的重要任务之一。
随着网络规模的不断扩大和网络攻击手段的不断更新,传统的异常检测方法已经显得力不从心。
近年来,基于深度学习的异常检测方法得到了广泛应用,而Transformer作为一种具有强大序列建模能力的神经网络模型,也逐渐被应用于网络异常检测系统中。
二、Transformer模型简介Transformer模型是Google提出的一种用于自然语言处理任务的神经网络模型。
相较于传统的循环神经网络(RNN)和卷积神经网络(CNN),Transformer模型通过引入自注意力机制(self-attention)和位置编码,实现了并行计算和长距离依赖建模,具有更好的建模能力和计算效率。
三、基于Transformer的网络异常检测系统设计为了应用Transformer模型于网络异常检测任务,我们需要进行系统的设计和实现。
1. 数据预处理首先,我们需要对网络数据进行预处理。
常见的预处理方法包括数据清洗、归一化和特征提取等。
在网络异常检测中,可以利用网络传输流量数据,提取特征并将其转化为时间序列数据。
2. 建立Transformer模型接下来,我们需要建立基于Transformer的网络异常检测模型。
可以借助开源深度学习框架如TensorFlow或PyTorch来实现Transformer 网络结构,并根据具体任务进行模型的设计和调优。
3. 训练与优化在建立好的网络异常检测模型上,我们需要进行训练和优化。
通常采用监督学习的方式,通过已知正常与异常数据进行模型的训练。
同时,可以结合自适应学习、迁移学习等方法,提高模型对异常样本的泛化能力。
4. 网络异常检测训练完成后,我们可以使用训练好的基于Transformer的网络异常检测模型对新的网络数据进行异常检测。
将网络数据输入模型,根据模型输出的异常程度得分进行判断,进而发现网络中的异常行为。
基于云计算的网络异常检测技术研究
基于云计算的网络异常检测技术研究云计算技术的快速发展为网络异常检测提供了更加强大和灵活的平台。
本文通过对基于云计算的网络异常检测技术的研究,探讨了其相关概念、方法和挑战,以及应用领域和未来发展趋势。
一、概述随着云计算技术的兴起,大量的网络交通被转移到云端,在虚拟化环境中运行的各种应用和服务需要可靠而高效的网络通信。
然而,网络异常的出现会导致云计算环境的性能下降和安全风险增加,因此网络异常检测技术在云计算环境中显得尤为重要。
二、基于云计算的网络异常检测方法1. 流量分析方法流量分析方法是网络异常检测中常用的一种方法。
通过对网络流量的监测和分析,可以识别出异常行为和异常流量。
常用的流量分析方法包括入侵检测系统(IDS)和入侵防御系统(IPS),它们基于特征匹配、模式识别和机器学习等技术来实现异常检测。
2. 机器学习方法机器学习方法在云计算网络异常检测中也得到了广泛应用。
通过构建训练集,利用监督学习和无监督学习算法对网络流量数据进行训练,可以实现对网络异常的自动识别和实时监测。
常用的机器学习方法包括支持向量机(SVM)、朴素贝叶斯(Naive Bayes)和深度学习等。
3. 数据挖掘方法数据挖掘方法是一种发掘大规模数据中隐藏关系和模式的技术。
在云计算网络异常检测中,数据挖掘方法可以通过分析和挖掘网络流量数据中的规律和异常行为,实现对网络异常的检测和预测。
常用的数据挖掘方法包括关联规则挖掘、聚类分析和异常检测等。
三、应用领域基于云计算的网络异常检测技术广泛应用于各个领域,包括网络安全、数据中心网络、电子商务和智能交通等。
在网络安全领域,云计算网络异常检测可以有效识别并阻止入侵行为,保障网络的安全性和稳定性。
在数据中心网络中,云计算网络异常检测可以监测和优化数据传输,提高数据中心的性能和可靠性。
在电子商务领域,云计算网络异常检测可以识别欺诈行为,防止交易风险和信息泄露。
在智能交通领域,云计算网络异常检测可以实现对交通流量和交通信号的实时监测和调控,提高交通系统的效率和安全性。
基于机器学习的异常网络流量检测与分析系统设计
基于机器学习的异常网络流量检测与分析系统设计概述随着互联网的快速发展,网络安全问题日益严峻。
传统的网络安全防护手段难以应对复杂多变的攻击手段,因此,设计一套基于机器学习的异常网络流量检测与分析系统成为当前网络安全领域的重要研究方向。
本文将从系统架构、流程设计、算法选择、数据集准备和性能评估等方面,详细介绍基于机器学习的异常网络流量检测与分析系统的设计。
系统架构基于机器学习的异常网络流量检测与分析系统的架构一般包括数据采集模块、特征提取模块、机器学习模型训练模块、异常流量检测模块和可视化展示模块。
数据采集模块负责从网络设备中获取各种网络流量信息,并进行预处理和清洗。
特征提取模块采用各种特征提取方法,将原始流量数据转换成可供机器学习模型训练的特征向量。
机器学习模型训练模块使用已标记的流量数据进行训练,构建出检测模型。
异常流量检测模块通过与训练好的模型进行比对,判断网络流量是否异常。
最后,可视化展示模块以图表形式呈现异常流量的统计信息和趋势。
流程设计基于机器学习的异常网络流量检测与分析系统的流程一般包括以下几个步骤:数据采集、特征提取、模型训练和流量检测。
首先,系统通过数据采集模块从网络设备中获取流量信息,这些信息可以包括源IP地址、目的IP地址、端口号、协议类型等。
然后,通过特征提取模块,将原始流量数据转换成可供机器学习模型训练的特征向量,可以使用的特征包括流量大小、传输速率、协议分布等。
接着,利用机器学习模型训练模块,使用已标记的流量数据对模型进行训练。
常用的机器学习算法包括决策树、支持向量机、随机森林等。
模型训练完成后,异常流量检测模块通过与训练好的模型进行比对,判断流量是否异常。
最后,通过可视化展示模块将异常流量的统计信息和趋势以图表形式呈现,方便管理人员监测和分析网络安全状况。
算法选择在设计基于机器学习的异常网络流量检测与分析系统时,合适的机器学习算法的选择至关重要。
不同的算法在异常检测性能、计算效率和泛化能力等方面存在差异。
深度防卫的自适应入侵检测系统
深度防卫的自适应入侵检测系统
王伟;陈秀真;管晓宏;张响亮
【期刊名称】《西安交通大学学报》
【年(卷),期】2005(039)004
【摘要】为了全面检测黑客入侵和有效提高检测精度,提出了一种深度防卫的自适应入侵检测系统模型.该模型按照黑客入侵对系统影响的一般顺序,使用不同方法对网络行为、用户行为和系统行为3个层次涉及到的网络数据包、键盘输入、命令序列、审计日志、文件系统和系统调用进行异常检测,并利用信息融合技术来融合不同检测器的检测结果,从而得到合理的入侵判定.在此基础上,提出了系统安全风险评估方法,并由此制定了一种简单、高效的自适应入侵检测策略.初步实验结果表明,所提的深度防卫自适应入侵检测模型能够全面、有效地检测系统的异常行为,可以自适应地动态调整系统安全与系统性能之间的平衡,具有检测精度高、系统资源消耗小的优点.
【总页数】5页(P339-342,346)
【作者】王伟;陈秀真;管晓宏;张响亮
【作者单位】西安交通大学电子与信息工程学院,710049,西安;西安交通大学电子与信息工程学院,710049,西安;西安交通大学电子与信息工程学院,710049,西安;西安交通大学电子与信息工程学院,710049,西安
【正文语种】中文
【中图分类】TP393.08
【相关文献】
1.遗传算法在自适应入侵检测系统中的应用 [J], 明勇
2.并行入侵检测系统的动态自适应负载均衡算法 [J], 唐拥政;刘解放;周宁
3.基于Agent自适应分布式入侵检测系统 [J], 睢丹;牛红惠
4.基于数据挖据的自适应入侵检测系统设计与仿真 [J], 苏昕;史庭俊;
5.自适应分箱特征选择的快速网络入侵检测系统 [J], 刘景美;高源伯
因版权原因,仅展示原文概要,查看原文内容请购买。
如何利用神经网络进行异常检测与诊断(十)
神经网络在异常检测和诊断中的应用神经网络作为一种模拟人脑神经元网络的计算模型,在近年来得到了广泛的应用,尤其在异常检测和诊断领域具有很大的潜力。
本文将探讨如何利用神经网络进行异常检测与诊断,并分析其在不同领域的应用。
神经网络的基本原理神经网络是由大量互相连接的神经元组成的一种计算模型。
通过训练数据集,神经网络可以学习到输入与输出之间的复杂关系,从而实现对未知数据的预测和分类。
在异常检测和诊断中,神经网络可以通过学习正常数据的特征,来识别和区分异常数据。
神经网络在工业领域的应用在工业领域,异常检测和诊断是非常重要的任务。
例如,对于工厂中的设备和机器来说,及时发现并排除异常情况可以节约大量的成本和时间。
基于神经网络的异常检测系统可以通过监测设备传感器数据,来实时识别设备的异常运行状态。
通过对异常数据的分析,可以帮助工程师找出故障的根本原因,并进行修复。
神经网络在医学领域的应用在医学领域,异常检测和诊断同样具有重要意义。
神经网络可以通过学习医学图像和患者信息,来帮助医生识别疾病和异常情况。
例如,在医学影像诊断中,神经网络可以通过学习大量的医学影像数据,来帮助医生准确识别肿瘤、病变等异常情况。
此外,神经网络还可以通过分析患者的基因数据和临床信息,来帮助医生进行疾病的早期诊断和预测。
神经网络在网络安全领域的应用在网络安全领域,异常检测同样具有很大的挑战。
传统的基于规则的安全系统往往无法应对新型的网络攻击和威胁。
基于神经网络的异常检测系统可以通过学习网络流量数据,来实时识别网络中的异常行为。
例如,当网络中出现大量的异常数据流量时,神经网络可以及时发出警报并采取相应的防御措施,以保护网络安全。
结语神经网络在异常检测和诊断中具有广泛的应用前景,可以帮助各行各业提高效率,降低成本,提高安全性。
随着深度学习和神经网络技术的不断发展,相信神经网络在异常检测和诊断领域将发挥越来越重要的作用。
希望本文对读者有所帮助,谢谢观看。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机研究与发展ISSN100021239ΠCN1121777ΠTP()在线自适应网络异常检测系统模型与算法魏小涛21黄厚宽田盛丰22(北京交通大学软件学院北京100044)(北京交通大学计算机与信息技术学院北京100044)(weixt@) AnOnlineAdaptiveNetworkandAlgorithmWeiXiaotao1,Shengfeng22(SchoolofSoftware,BJiaotongUniversity,Beijing100044)(SchoolofComputerandInform ationTechnology,BeijingJiaotongUniversity,Beijing100044)Abstract TheextensiveusageofInternetandcomputernetworksmakessecurityacriticalissue.Thereisa nurgentneedfornetworkintrusiondetectionsystemswhichcanactivelydefendnetworksagain stthegrowingsecuritythreats.Inthispaper,alightweightedonlineadaptivenetworkanomalyd etectionsystemmodelispresented.Therelatedinfluencefunctionbasedanomalydetectionalg orithmisalsoprovided.Thesystemcanprocessnetworktrafficdatastreaminreal2time,gradual lybuildupitslocalnormalpatternbaseandintrusionpatternbaseunderalittlesupervisingofthea dministrator,anddynamicallyupdatethecontentsoftheknowledgebaseaccordingtothechang ingofthenetworkapplicationpatterns.Atthecheckingmode,thesystemcandetectnotonlythel earnedintrusionpatternsbutalsotheunseenintrusionpatterns.Themodelhasarelativelysimpl earchitecture,whichmakesitefficientforprocessingonlinenetworktrafficdata.Alsothedetect ingalgorithmtakeslittlecomputationaltimeandmemoryspace.ThesystemistestedontheDA RPAKDD99intrusiondetectiondatasets.Itscans10%ofthetrainingdatasetandthetestingdata setonlyonce.Within40secondsthesystemcanfinishthewholelearningandcheckingtasks.Th eexperimentalresultsshowthatthepresentedmodelachievesadetectionrateof91.32%andafal sepositiverateofonly0.43%.Itisalsocapableofdetectingnewtypeofintrusions. Keywordsnetworkanomalydetection;onlineadaptive;influencefunction;datastream;anomalydetecti on摘要随着因特网等计算机网络应用的增加,安全问题越来越突出,对具有主动防御特征的入侵检测系统的需求日趋紧迫.提出一个轻量级的在线自适应网络异常检测系统模型,给出了相关算法.系统能够对实时网络数据流进行在线学习和检测,在少量指导下逐渐构建网络的正常模式库和入侵模式库,并根据网络使用特点动态进行更新.在检测阶段,系统能够对异常数据进行报警,并识别未曾见过的新入侵.系统结构简单,计算的时间复杂度和空间复杂度都很低,满足在线处理网络数据的要求.在DARPAKDD99入侵检测数据集上进行测试,10%训练集数据和测试集数据以数据流方式顺序一次输入系统,在40s之内系统完成所有学习和检测任务,并达到检测率91.32%和误报率0.43%的结果.实验结果表明系统实用性强,检测效果令人满意,而且在识别新入侵上有良好的表现.收稿日期:2009-03-04;修回日期:2009-10-22基金项目:国家自然科学基金项目(60442002)486计算机研究与发展2010,47(3)关键词网络入侵检测;在线自适应;影响度函数;数据流;异常检测中图法分类号TP393.08计算机入侵检测技术分为误用检测和异常检测2种.误用检测是通过监视目标系统的特定行为与已知的入侵模式是否匹配来进行入侵检测的;而异常检测则是事先建立被监视目标在正常情况下的行为模式,通过检测当前行为是否显著偏离了相应的正常模式来进行入侵检测的.异常检测由于不需要到广泛的重视.另外,,测..对于网络异常检测系统而言,除了要有较高的检测率外,从实用性的角度看还应满足:1)系统结构简单、效率高,检测算法计算量小,适于处理在线网络数据;2)具有自学习自适应能力;3)具有较强的检测新入侵的能力;4)具有较低的误报率,大量的误报会使系统的可用性降低.针对上述要求本文提出一个在线自适应网络异常检测系统.系统能够处理实时网络数据流,其学习和检测是一个统一的过程,而且无论学习阶段还是检测阶段都只扫描数据一次;自适应是指系统能够动态构建和维护自身的知识库,能随着网络自身应用特征的改变而更新知识.在KDD99数据集上的实验结果验证了系统的效果和性能.1相关工作网络异常检测方法的研究从1990年Heberlein等人开发的NSM(networksecuritymonitor)[1]系统开始.迄今为止,主要有概率统计分析方法、数据挖掘方法和生物系统模拟(神经网络、遗传规划、人工免疫系统等)方法等.统计分析技术在入侵检测系统中的应用研究主要集中在马尔可夫模型和支持向量机模型上.Callegari[2]等人在网络异常检测中比较了几种不同的随机模型,包括一阶和高阶齐次马尔可夫链、非齐次马尔可夫链、稳定性和非稳定性经验累积分布函数等,实验结果显示高阶齐次马尔可夫链是效果最好的,但是模型的参数较难确定;文献[3]利用一阶齐次马尔可夫链对主机系统中特权程序的正常行为进行建模,并基于状态序列的出现概率判断异常行为;文献[4]使用了一个变长马尔可夫模型来捕获入侵轨迹的特征,对入侵行为进行实时预测.在使用支持向量机进行异常检测中,为了提高支持向量机的训练速度,文献[5],而文献,都取得较,统计分析方法基本上不,而且有较;但是漏报率和误报率都还较高,大部分的方法仍然需要干净的训练数据,这在真实的网络环境中很难确保. 基于数据挖掘的检测技术使用关联规则、序列挖掘、数据分类和聚类等算法从大量的网络数据中自动生成简洁而精确的检测模型.文献[7]使用频繁项集挖掘算法和衰减窗口技术来发现网络数据流的应用模式,能够高效学习,缺点是不能检测新入侵,检测率较低;文献[8]首先将训练样本进行聚类,然后在每一聚类上训练一棵ID3决策树;文献[9]针对每一类入侵训练一棵两类决策树,检测时将分类结果进行组合,并通过提升技术改进其检测性能.这些方法都取得了较好的结果,但是基于数据挖掘的方法往往需要大量的有标号数据作为基础,系统比较复杂,在检测模型学习和评价阶段的计算成本高,难以实现系统的实时学习.基于生物系统模拟的方法最近集中在分布式神经网络和分布式遗传规划上.文献[10]将大数据集随机分割成小块并使用分布式神经网络进行并行学习,用于大规模网络入侵检测,取得较高检测率,但误报率较高;文献[11]使用分布式遗传规划方法训练决策树分类器,并通过提升的方法分配各分类器的权重,有效降低了误报率.但这些算法在学习过程中同样需要大量带标号数据,且计算复杂度较大.总之,异常检测技术仍然面临检测率低和误报率过高的问题,并且多数模型系统结构复杂、效率低,难以适应在线检测的要求.2系统模型与算法在线自适应网络异常检测系统模型如图1所示,系统分为4个部分:(A)数据预处理模块;(B)模式匹配与更新模块;(C)决策模块;(D)报警与响应模块.魏小涛等:在线自适应网络异常检测系统模型与算法487Fig.1detectionsystemmodel.图2.1数据预处理网络数据首先要经过预处理,目的是将源数据转换为适当的粒度再输入系统.我们使用了基于网格的方法划分数据空间,这里的网格划分是指将数据空间的每一维划分区间,从而将整个数据空间划分成数目有限的超级长方体,并以网格为单位来判断落入网格的数据是否正常.这样能够大大减小系统的运算复杂度和存储复杂度.网格的形式化定义如下:设A={A1,A2,…,Ad}是一个有界属性集合,U=A1×A2×…×Ad是一个d维数据空间.V=(v1,v2,…,vd)是U中的一个d维数据,其中vi在Ai中取值.通过将每一个属性维分割成N个区间,我们把数据空间划分成互不相交的超级长方体.一个网格C就是在各个维中,分别取一个区间得到的超级长方体:C=(c1,c2,…,cd).其中ci为符号维时是一个有效取值,为数字维时是Ai中一个左闭右开区间:ci=[li,hi).我们说一个实例V=(v1,v2,…,vd)投影到单元C=(c1,c2,…,cd),即当:vi=ci(当vi是符号值),或者li≤vi<hi(当vi是数字值).网格的划分方法直接决定了系统的学习和分类能力.针对不同的数据空间会有不同的划分方法,由于本文要使用KDD99数据进行实验,这里我们以网络连接数据为例说明数据空间的划分方法.数据空间划分的关键是如何将每一维属性划分成离散的区间.在网络连接数据中,有取符号值的属性,也有取数字值的属性.对于符号值属性(如)或仅取0和1的二进制属性(如“protocol-type”),我们将每一个不同的取值作为一个划“logged2in”分.对于数值型的属性,我们按照特征分为2类处理:1)属性值为一个百分数,或者属性的取值是512以内的整数;2)属性值是大于512的整数.对于第1种类型的数值属性,我们可以简单地将其划分为N个等长的区间;对于第2类属性,等区间划分和基于密度的划分等都是不适合的,因为这些属性虽然取值范围比较大,但是多数实例的取值都集中在一个相对较小的区间内,如“duration”.对于这类属性,使用等频装箱法将数据点均匀地分布在不同区间中看似比较合适,但是在处理数据流的前提下,这个方法很难有效实现.为此我们使用了一种效果近似的函数转换法,用一个S型函数将属性值转换到(0,1)区间上,再将转换结果平均Fig.2Comparisonofdifferentdiscretizationtechniques.(a)Equalwidth;(b)Densitybaseddivision; and(c)Variabletransformation.图2不同的网格划分方法比较.(a)等分区间;(b)基于密度划分;(c)函数转换488计算机研究与发展2010,47(3)分成N等份.主要思想是在数据密度大的区域区间划分小一些,在数据稀疏的区域区间划分大一些,如图2(c)所示.这里我们使用的S函数如下:f(x)=式都有一个生命值H,当一条新记录匹配这个模式时,这个模式的生命值会增加1;与此同时其他模式(εν1),即老化或衰减.的生命值将减少ε频繁模式可以定义为生命值达到一个阈值τ的模式.τ的确定随系统的不同运行阶段而不同,在初始阶段τ可以很大,这样可以避免初始阶段对用户进行大量的询问.5,或个模式.随着系统的运,多数数据会在经过B1和B2时结束处理.这时τ的值就可以根据流入B3的数据量的减少而自动减小,不需用户调整.频繁模式经过认定后会分别加入正常模式库NPP或入侵模式库IPP.B1和B2中模式库的大-(x-m)Πc,1+e(1)其中,m和c代表当前属性历史数据的平均值和标准差.它们都可以通过对历史数据的统计或相关的背景知识获取.3.3的实验证明了这种方式是有效的.2.2模式的表示在本文中,:P)其中C,是映射到网格C内的最近出现的k个实例集合,H是此模式的生命值,L是其标号.在模式P中,R是映射到C内的最近出现的k个网络实例.保存这些实例的原因有2个,一是当这个模式成为频繁模式后,系统将向用户询问这一模式是否为正常,网格这样的抽象表达方式用户是无法理解的,这时可以列出这些实例让用户判断;第2个原因是在系统进行增量学习时,如果系统的网格划分方式有所调整,可以通过这些实例将当前模式重新对应到正确的网格中,从而保留知识.H是模式P的生命值,当有新的实例投影到这小可以不作限制,随着模式的动态生成和衰亡,模式库的大小会稳定在一定范围内.但是如果内存有限需要进行限制时则要用到模式的更新策略,这里简单地用新模式替换第1个生命值最小的旧模式.同时,这种模式的动态更新机制也使得系统可以适应网络使用环境的变化.模块C是系统提供的一个开放平台,此处可以集成多种检测算法,甚至可以结合其他基于误用的检测系统,为用户判断一个新模式的危险性提供参考信息.这里我们给出了一个基于模式影响度的算法,在第2.4节描述.由于报警与响应不是本文的重点,因此模块D的主要功能是回答询问和响应报警.当然,为了减轻用户的负担,提高系统的可用性,当模块C提供的参考信息具有较高的确信度时,系统也可以根据这些信息自动进行认定.2.4基于模式影响度的检测算法个模式时,其生命值会增加;而长久没有实例匹配的模式,其生命值会逐渐减小并最终被新的频繁模式替代.通过对正常模式的这种运算可以使系统始终保持网络的最近工作状态.L是模式P的标号.已询问过用户的模式,标号是“正常”或“入侵”,未确定的模式标号为“未标号”.2.3系统工作机制在初始阶段,所有的模式库都是空的,决策模块中因为没有任何知识而无法工作.所以在进行异常检测之前,系统需要进行学习.在学习阶段逐渐动态生成最近的正常模式库以及入侵模式库.正常模式基本上都是频繁模式,但是在实际情况中频繁模式并不都是正常模式.例如,DoS攻击包含大量网络流量,也一定是频繁模式.因此,在学习过程中,模块B3获得的频繁模式不能直接加入正常模式库,而需要决策模块或用户的确认.这里涉及到一个频繁模式的确定问题,为了获得最近最经常出现的模式,我们借鉴了操作系统中二级缓存的更新机制.模式缓存库PC中每一个模在网络异常检测的过程中,我们依赖如下的假设:正常数据之间或入侵数据之间具有一定的相似性,而入侵数据与正常数据之间有一定的差异性.这样每个数据对周围的数据都会有一个正面的或负面的影响.一个新的待分类数据可以根据所有其他已分类数据对它的影响来决定其类型,下面说明相关概念与方法.2个模式P,Q的距离D(P,Q)定义为它们所包含的2个d维网格CP,CQ之间的距离:dD(CP,CQ)=i=1∑d(CP,CQ),ii(2)魏小涛等:在线自适应网络异常检测系统模型与算法i0,ifCiP=CQ;489其中d(C,C)=iPiQ1,otherwise.在判断一个新的频繁模式时,可能会遇到这个模式所保存的k个最近实例中既有正常连接又有异常连接的情况.必要时我们可以将网格划分进行细化,即在数据空间的某一维或几维上多一个区间分割点,从而使这些冲突的实例被划分到不同的网格.同时,系统可以根据每个模式保存的k个实例为所,从而保留已经.IPP|.(一个模式P对另一个模式X的影响函数定义为(3)f(P,X)=exp(-D(P,X)).这样,当|NPP|>1且|IPP|>1时,一个新模式X对正常模式的隶属度为Fn(X)=P∈NPP∑f(P,X)Π|∑f(P,X)Π|NPP|.(4)X对入侵模式的隶属度为Fi(X)=X的正常度定义为N(X)X)).(6)P∈IPP33.1实验数据θ,当N(X)>θ时我们认为新模式X为正常模式,否则为异常模式并进行报警.用户可以调整这个阈值以在高检测率和低误报率之间进行权衡.检测算法如下所示.算法1.基于影响度的网络异常检测算法.输入:模式衰减系数ε;频繁模式阈值τ;正常度阈值θ.初始化:正常模式库、入侵模式库、模式缓存库初始都为空.每当一个网络连接记录到达,进行下列处理:1)按第2.2节网络应用模式的定义,将此记录转化为模式X;2)在正常模式库中搜索与X匹配的模式,在搜索的同时累加所有正常模式对X的影响度值得到Fn,并对正常模式的生命值衰减ε;若发现与X匹配的模式,则将其生命值加1,并结束对此记录的处理;3)在入侵模式库中搜索与X匹配的模式,在搜索的同时累加所有入侵模式对X的影响度值得到Fi;若发现与X匹配的模式,则报警,并结束对此记录的处理;4)在模式缓存库中搜索与X匹配的模式,在搜索的同时对缓存模式进行衰减;若发现与X匹配的模式,则将其生命值加1,若其生命值大于τ,则向管理员发出一个增加正常模式的申请,并根据管理员反馈将X加入正常模式库,结束对此记录的处理;5)此时X是一个新模式,根据Fn和Fi计算其正常度,若正常度小于等于θ,则报警,并根据管理员反馈将X加入入侵模式库;若正常度大于θ,则将X加入模式缓存库,结束对此记录的处理.实验使用KDD99[12]数据集.它是MITLincoln实验室提供的1998DARPA入侵检测评估数据集的一个扩充版本.其中包括训练集(kddcup.data.gz)和测试集(corrected.gz).数据以网络连接的形式保存,每条记录含42个属性,其中7个符号属性,34个数值属性,1个分类标号属性.我们在实验中,训练集主要使用了一个10%的子集(kddcup.data-10-percent.gz).其中共有数据494020条,正常数据97277条,入侵数据396743条,入侵种类22种.同时为了验证系统的可伸缩性,我们也使用了训练集的全集进行了实验比较.测试集则使用完整的corrected.gz数据集,其中共有数据311029条,正常数据60593条,入侵数据250436条,入侵种类37种,其中有17种未在训练集中出现.3.2实验过程系统用Java编写,运行于一台IntelCoreDuo2.4GHz,1GB内存的电脑.为了避免打开大文件所消耗的磁盘读取时间,系统直接使用了训练数据和测试数据的压缩文件作为输入文件,并在系统内部解压缩后进行处理.训练数据集和测试数据集顺序一次性流过系统.在训练集通过时,系统处于“学习”工作方式,在学习时系统并未用到所有训练数据的标号,只是当需要用户确认一个频繁模式是否正常时系统会自动提取此模式包含的k(实验时取k=10)个最近训练数据的标号进行判断,如果入侵数据占半数以上则认为此模式为入侵模式.在测试集通过时,系统可以分别处于“检测”和“检测时学习”2种工作方式.如果选择“检测时学习”,系统发现新的频繁模式后会对比测试集上提供的标号来更新模式库.下面的实验如无特别声明,我们都是选择“检测”模式进行.490计算机研究与发展2010,47(3)3.3数据空间划分在学习和检测之前,首先要对数据空间进行网格划分.我们使用第2.1节的方法,符号属性每一个不同的取值划分一个区间;数值属性划分成N个区间.为了选择合适的N,我们测试了不同的取值,并在划分结束后将10%训练集的数据进行投影,观察划分效果.结果如表1所示,其中G表示包含有实例的网格数,MG表示其中既包含正常实例又包含入侵实例的网格数及其所占比例,FS表示在MGTable1RGridding3ROCcurvesofexperimentalresults.图3实验结果的ROC图表1NGMGFS可以看出,当误报率控制在2%以内时,τ的取值对检测效果影响不大,这说明系统检测能力主要是由少数频繁度比较高的模式决定的.图4是当τ=50,θ=1.1,ε=0.0001时,模式库容量(PPS)取不同的值所获得的结果.可见随着PPS的增加,系统的误报率明显减小,而当PPS超3456789101112 2615530646756450632210976861510974114621487444(1.68%)38(0.72%)37(0.79%)32(0.50%)44(0.70%)32(0.29%)49(0.57%)35(0.32%)40( 0.35%)31(0.21%)427(0.086%)129(0.026%)190(0.038%)126(0.026%)176(0.036%)94(0.019%)185(0.037 %)100(0.020%)163(0.033%)85(0.017%)过600时,系统性能趋于稳定.结果显示,这种划分方法基本上能用较少的网格将正常数据和入侵数据有效地划分开.根据训练数据集来看,当N=8时,以网格为单位确定落入此区域的实例是否正常所带来的误差为0.019%.由于KDDCUPπ99的获胜方法的检测率为91.9%,相比而言这个误差的数量级是可以接受的.因此下面的实验我们选择参数N=8对数据空间进行网格划分,并以网格为学习和检测的基本单位.3.4实验结果与分析Fig.4Detectionresultvs.patternpoolsize.图4模式库容量对检测结果的影响为了减小计算复杂度PPS不必太大,但是也不能太小.当我们将PPS减小到20以下时,系统基本不能进行有效的检测了.PPS为300时的检测结果列于表2:Table2DetectionResultsforPPS=300实验主要考察系统的检测率和误报率:检测率DR(detectionrate)=检测出的异常记录数Π异常记录总数;误报率FPR(falsepositiverate)=判断为异常的正常记录数Π判断为异常的所有记录数.在测试时,为了尽量保持学习时得到的知识,我们取模式衰减参数ε=0.0001,模式库最大容量限制为1000.并为频繁模式阈值τ和正常度阈值θ选取了不同的值.实验结果如图3所示:表2PPS=300时的检测结果θ0.20.50.70.911.53DRFPR%90.6790.8791.0191.3291.3691.4691.620.230.310.380.430.441.141.83魏小涛等:在线自适应网络异常检测系统模型与算法491我们看到,当θ=0.9时系统检测率为91.32%,误报率为0.43%.其对不同类型的攻击检测率如表3所示:Table3DetectionResultsofDifferentAttackTypes300计算,系统最后共保留600个频繁模式(其中正常模式和入侵模式各300个),只占用极少的内存表3对不同攻击类型的检测结果AttackTypeProbeDoSU2RR2LDRofOANAD%空间.2)系统没有用到训练集的所有标号信息.只是在分类频繁模式时查看了这些模式最近出现的10个实例进行判断,仅占训练集标号的很少部分.3).随着模,.当我们选择“检测,,94.12%和误报率0.45%=60,θ=1.2,PPS=1000)的结果.4)检测新入侵的能力.corrected.gz测试集含DRofKDD99Winner86.0897.1858.640.1683.397.113.28.可见,U2R和R2L.少(U2R为52条,R2L为1126条),并且这2类入侵在行为模式上多数与正常数据也比较接近.由于本系统是根据数据相似性来进行检测的,因此会出现上述检测率较低的情况,但是对于频繁出现的数据模式,如Probe和DoS攻击,系统有很高的识别率,甚至优于KDDCUPπ99获胜者.作为对比,表4列出其他方法在相同测试集上取得的结果.Table4ComparisonwithOtherApproaches有入侵种类37种,其中有17种未在训练集中出现,当允许误报率为3.40%时本系统可以检测到所有17种入侵;在误报率为0.33%时可检测到11种.表5列出了其捕获的11种新入侵记录数.Table5DetectionAbilityofNewTypeofIntrusions表5对新入侵的检测结果NewIntrusionsapache2httptunnel#Total79415850001053177591673617774124062229413#Detected267110082614185707103100020表4其他检测方法检测结果ApproachesKDDCUPπ99WinningentryKDDCUPπ99SecondplaceDistributedlearning[10]Average GEdIDS[11]BestGEdIDS2FPrate[11]DRFPR%mailbombmscannamedprocesstablepssaintsendmailsnmpgetattacksnmpguess91.94591.52591.790.58191.0170.5460.5763.20.5650.434虽然OANAD的检测率不是最好,但已接近KDDCUPπ99获胜者的检测效果,而误报率是最低的,这点在异常检测中尤为重要.如果综合考虑下列因素,系统的性能是比较突出的.1)系统是轻量级的.如果系统的正常模式库和入侵模式库的总容量是M,算法检测n 条记录的时间复杂度为O(M×n).KDDCUPπ99的获胜方法之一MP13使用PERGAMENTsoftware运行了6h完成全部计算,而我们的算法只运行了不到40s.其中学习494020条训练数据使用了不到23s;检测测试数据使用不到17s.为了进一步测试系统的性能,我们将训练集的全集输入系统进行学习,结果系统只用了277.5s 就结束了学习,其中还包括了解压缩的时间.另外,系统的空间复杂度低,如果我们按PPS= sqlattackudpstormwormxlockxsnoopxterm4总结本文提出了一个在线自适应网络异常检测系统模型,它不需要特殊的训练集,它的学习模式和工作模式是统一的,能够在使用的过程中逐步学习用户的正常模式,并在每一次与用户的交流中确认入侵模式,修正检测依据.实验结果表明,系统效率很高,具有较好的检测率和满意的误报率.492[9]计算机研究与发展2010,47(3)DartiqueC,JangH,ZengW.Anewdata2miningbasedapproachfornetworkintrusiondetectio n[C]ΠΠProcofthe7thAnnualConfonCNSR.LosAlamitos,CA:IEEEComputerSociety,200 9:372-377[10]LiuYanheng,TianDaxin,YuXuegang,rge2scalenetworkintrusiondetectionalgorith mbasedondistributedlearning[J].JournalofSoftware,2008,19(4):993-1003(inChinese) (刘衍珩,田大新,,基于分布式学习的大规模网参考[1]文献HeberleinL,DiasGV,LevittKN,etal.Anetworksecu ritymonitor[C]ΠΠProcofthe1990Sym ponSecurityandPrivacy.LosAlamitos,CA:IEEEComputerSociety,1990:296-304[2]CallegariC,VatonS,PaqanoM.Anewstatisticalapproachtonetworkanomalydetection[C ]ΠΠProcofthe2008IntSymponSPECTS.LosAlamitos,CA:IEEEComputerSociety,2008:4 41-447,2008,19(4):993-1003)11]CGPensemblefordistributed[C]ΠΠProcofthe3rdIntConfoninPatternRecognition.Berlin:S pringer,2005:54-62[12]ACM.KDDCup1999Data[OL].[2001206230].http:ΠΠΠkddcupΠ[3]TianXinguang,GaoLizhi,SunChunlai,etal.Anomalydetectionofprogrambehaviorsbase doncallshomogeneousMarkovchainmodelsResearchand,,(9):(inChinese)(田新广,高立志,春来,等.基于系统调用和齐次Markov链模型的程序行为异常检测[J].计算机研究与发展,2007,44(9):1538-1544)[4]FavaD,ByersS,YangS.Projectingcyberattacksthroughvariable2length[5]Markovmodels[J].IEEETransonTwo2stageInformationForensicsandSecurity,2008,3(3):359-369DucD,MatsumotoK,TakishimaY,etal. incrementalworkingsetselectionforfastsupportvectortrainingonlargedatasets[C]ΠΠProco fthe2008IEEEIntConfonRIVF.LosAlamitos,CA:IEEEComputerSociety,2008:221-226[6] LatifurK,AwadM,ThuraisinghamB.Anewintrusiondetectionsystemusingsupportvectormachinesandhierarchicalclustering[J].TheVLDBJournal,2007,16(4):507-521[7]MaoGuojun,ZongDongjun.Anintrusiondetectionmodelbasedonminingmulti2dimensiond atastreams[J].JournalofComputerResearchandDevelopment,2009,46(4):602-609(inChinese)(毛国君,宗东军,基于多维数据流挖掘技术的入侵检测模WeiXiaotao,bornin1971.PhDcandidate.Hismainresearchinterestsincludedataminingandnetworksecurity.魏小涛,1971年生,博士研究生,主要研究方向为数据挖掘和计算机网络安全.HuangHoukuan,bornin1940.ProfessorandPhDsupervisor.SeniormemberofChinaComput erFederation.Hismainresearchfieldsincludeartificialintelligence,datamining,andmachinelearning.黄厚宽,1940年生,教授,博士生导师,中国计算机学会高级会员,主要研究方向为人工智能、数据挖掘、机器学习等.TianShengfeng,worksecurity. Hismainresearchinterestsincludeartificialintelligenceand型与算法[J].计算机研究与发展,2009,46(4):602-609)[8]YasamiY,KhorsandiS,MozaffariS,etal.Anunsupervisednetworkanomalydetectionapproa chbyk2meansclustering&ID3algorithm[C]ΠΠProcofthe2008IEEESymponISCC.LosAla mitos,CA:IEEEComputerSociety,2008:398-403田盛丰,1944年生,教授,博士生导师,主要研究方向为人工智能和网络安全.ResearchBackgroundWiththeextensiveusageofcomputernetworks,workintru sionscancauseseveredisruptiontonetworks.Thereforethereisanurgentneedforasolutionthat canactivelydefendnetworksagainstthegrowingsecuritythreats.Theintrusiondetectionsyste ms(IDS)canautomaticallyscannetworkactivityandrecognizeintrusionattackstoprotectcom putersagainstunauthorizedusesandmakethemsecureandresistanttointruders.Thisiswheren etworkIDScomesintooffersecurityinadditiontothatprovidedbytraditionalanti2threatapplic ationssuchasfirewalls,antivirussoftwareandspy2waredetectionsoftware.Fromthelastdeca de,misusedetectionhasbeenthedominantstrategyforIDSsforthereasonsthatitiseasiertoimpl ement.However,anomalydetectionhastheadvantageofdetectingnovelintrusionswithoutan ypriorknowledge.Thisresearchpresentsanonlineadaptivenetworkanomalydetectionsyste m.Itrunsinrealtimeanddynamicallymaintainsitsknowledgebase.Theexperimentalresultssh owsthatthislightweightedsystemachievesarelativelyhighdetectionrateandverylowfalsepo sitiverate.ThisresearchworkissupportedbytheNationalNaturalScienceFoundationofChina undergrantNo.60442002.。