219389910_融合IPCA和CNN的增量入侵检测模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
程思政示范课程建设(
YKCSZ2021091)。
第一作者:王文杰,女,硕士研究生。
通讯作者:张春英,女,博士,教授。研究方向:机器学习、算法设计、网络空间安全等。
DOI:
10.
3969/
.
s
sn.
2095
2716.
2023.
03.
012
ji
Copyright©博看网. All Rights Reserved.
前一些机器学习算法,如支持向量机、神经网络、遗传算法和聚类算法等已经广泛应用于入侵检测中,通过这
些算法从日益复杂的静态或者动态数据集中检测入侵行为 [5]。当前不同检测模型的检测时间效率和准确率
均有了一定程度的提升。然而,目前入侵 检 测 中 的 数 据 海 量 且 维 数 高,这 使 得 许 多 算 法 在 进 行 数 据 特 征 提
0090
11
融合IPCA 和 CNN 的增量入侵检测模型
王文杰1,张春英1,2,王立亚1,2,贾栋豪1,郭雪飞1
(
1.华北理工大学 理学院,河北 唐山 063210;2.河北省数据科学与应用重点实验室,河北 唐山 063210)
关键词:增量学习;主成分分析;卷积神经网络;网络安全;入侵检测

要:入侵检测是目前网络安全防护的一个重要 环 节,由 于 传 统 入 侵 检 测 模 型 时 间 长、学 习
维处理,该算法将样本分批传入模型进行训练以不断更新特征基以及均值;最后找出主成分特
征子集,再用 CNN 对其进行分 类 训 练。 实 验 采 用 KDD-CUP99 以 及 UNSW-NB15 作 为 实 验
的数 据 集 进 行 对 比。 研 究 结 果 表 明,
IPCA-CNN 模 型 的 准 确 率、
能力 弱,因 此 提 出 了 一 种 基 于 增 量 主 成 分 分 析 方 法 (
I
nc
r
emen
t
a
lPr
i
nc
i
lComponen
t
pa
Ana
l
i
s,IPCA)和卷积神 经 网 络 (
Convo
l
u
t
i
ona
lNeu
r
a
lNe
two
rks,
CNN)结 合 的 方 法,融 合
ys
增量的思想能够使模型不断更新并拥有持续的学习能力。首先用IPCA 方法对数据集进行降
数据,剔除当前残差量在前一个特征向量上的投影量,去除掉当前残差量与当前特征向量之间的关联,这样,
就降低了特征向量之间关联,使得特征向量间彼此正交,
CCIPCA 算法的目的 是 找 到 前 k 个 特 征 向 量,进 而
实现对数据的降维处理。
CCIPCA 的算法过程如下所示:
输入:样本数据集 x (1) ,
取、数据降噪等方面应对困难,且分类的时间、准确率等方面的性能难以提升,使其在处理海量且高维数据时
较为困难,因此对实现更高效地分类还有待探究。
收稿日期:
2023
01
17 修回日期:
2023
06
10
基金项目:河北省自然科学基金(
F2018209374);河北省专业硕士教学案例库建设项目(
KCJSZ2022073);河北省研 究 生 课
x (2) ,…,
x (n ) ;主特征向量数k 。
输出:前k 个特征向量,
α1 (n ) ,
α2 (n ) ,…,
αk (n ) 。
(
a)x1 (n ) =x (n )
(
b)
f
o
r
i=1,
2…,
mi
n{k,
n} do
IFi=n ,将第i 个特征向量初始化为αi (n ) =xi (n ) 。
Ot
he
用了一种不计算协方差矩阵的方式,逐个样本对数据集的均值和特征向量进行更新,当前特征值计算是对特
征值上一个状态的进一步评估:
αi (n -1)
n -1-a
1+t
αi (n ) =
αi (n -1) +
xi (n )xiT (
n)
n
n
‖αi (n -1) ‖
(
1)
αi (n )
αi (n )
(
2)
(
)
‖αi n ‖ ‖αi (n ) ‖
产生的新型攻击。入侵检测技术作为网络空间安全基础架构的重要组成部分,从网络中收集信息后,再对其
存在的攻击进行防御并且发出警报,以此增强网络的安全防御能力。入侵检测则 是 对 采 集 的 网 络 流 量 数 据
包进行分类,判断流量正常或者攻击,二分类是直接将网络流量判定为正常或异 常,多 分 类 是 对 网 络 流 量 进
务和数据等组成的网络空间,正在全面地改变当今社会人们的生产生活方式。与此同时,网络安全的形势也
日益严峻,国家政治、经济、文化、社会、国防安全及公民的网络空 间 合 法 权 益 正 面 临 严 峻 风 险 与 挑 战 [1]。因
此,当前的主要问题是如何全面提升网络的防御能力,并且能够识别当前出现的 不 同 攻 击 类 型,包 括 网 络 上
LongSho
r
t
-Te
rm Memo
r
y,
LSTM)结合的入侵检测模型,先经过 PCA 进行降噪处理后,接着用长短期记忆网络的记忆功能和学习能力
进行学习,最终该模型取得了比传统模型更高的准确率。
当网络环境中的流量数据不固定,且能不断地产生新的流量样本时,此时检测模型难以实现快速且有效
的更新,即没有 充 分 考 虑 到 模 型 的 自 适 应 性。 而 增 量 学 习 则 是 一 种 能 够 很 好 地 应 对 新 增 样 本 变 化 的 方
显提升。
深度学习目前作为机器学习的一部分,目前已经大规模地应用到不同领域当中,相较于传统机器学习也
取得了更好的效果。当前入侵检测的数据集维数和数据量不断增加,神经网络的结构也会越来越复杂,实验
过程中数据集训练难度提升,流量数据中存在的问题较多,因此当前检测的准确 率 难 以 提 升,这 也 是 一 直 以
量,容易造成一些信息的丢失,且增量学习又无法允许所有非支持向量的加入,因 此 提 出 保 留 集 策 略 保 留 最
有可能成为支持向量的非支持向量,在原始的算法上实现了改进以及增量学习,进行网络入侵检测实验后结
果表明该算法极大地节省了训练和预测时间。
因此,提出一种基于增量主成分分析和卷积神经网络的入侵检测模型,通过IPCA 对样本进行切割分块
来入侵检测研究的 重 点 内 容。 武 晓 栋 等 [16]提 出 了 DT-PCA-DNN 检 测 模 型,其 中 DT 指 决 策 树 (
De
c
i
s
i
on
Tr
e
e,DT),
DNN 为深度神经网络(
De
ep Neu
r
a
lNe
two
rks,DNN),
PCA 为主成分分析,运用 DT 对数据进
行初步判断和处理,数据降维采用 PCA 算法,处理降维后的数据送入 DNN 模型,得出分类的最终结 果,实
-
ne
a
r
e
s
tne
i
r,kNN)进行融合,加入了增量学习的思想并且考虑了知识库的扩 展,在 不 同 的 数 据 集 上 进
ghbo
行对比实验,实验结果表明,融合增量思想后的模型不仅很好地应对了实时性问 题,准 确 率 也 有 了 较 为 明 显
的提升。YI等 [20]提出了一种改进的增量 支 持 向 量 机 算 法,考 虑 到 改 进 前 的 算 法 未 考 虑 到 原 来 的 非 支 持 向
特征降维,降低特征之间的冗余度,在通过 CNN 对数据进行分类,降低数据样本的负载型,提高入侵检测的
准确性。
1 相关原理
1.
1 IPCA 算法
IPCA 使用独立于样本量的内存容量,以小批量的方式处理数据,基于从本地硬盘或网络数据库中连续
获取的数据块之上,在稀疏矩阵或内存映射文件上调用其拟合方法,为了增量式的更新每个特征的方差贡献
F1 值 和 误 报 率 分 别 达 到 了
99.
7% 、
99.
3% 和 0.
2% ;同传统机器学习入侵检测算法相比有所提升,验证了IPCA-CNN 模型
的有效性。
中图分类号:
TP393.
08 文献标识码:
A
引言
伴随信息革命的飞速发展,互联网、通信网、计算机系统、自动化控制系统、数字设备及其承载的应用、服
率,仅需要存储估计出的分量和噪 声 方 差。IPCA 模 型 主 要 是 包 括 2 种:一 种 为 协 方 差 相 关 模 型,另 一 种 为
协方差无关模型。协方差相关IPCA 模型,需要随着样本的增加而增量的估计协方差矩阵,再由此计算出新
Copyright©博看网. All Rights Reserved.
rwi
s
e,
αi (n )
n -1-a
1+a
αi (n ) =
αi (n ) +
xi (n )xiT (
n)
n
n
‖αi (n ) ‖
xi+1 (n ) =xi (n ) -xiT (n n )
αi (n )
‖αi (n ) ‖ ‖αi (n ) ‖
CNN 是一种深度学习模型,类似于人工神经网络的多 层 感 知 器,目 前 在 多 个 图 像 处 理 领 域 取 得 了 巨 大
行类型划分,判断不同类型的攻击方式 [2]。
入侵检测技术被提出至今已有 20 多年的历史,传统检测主要采用模式匹配、行为统计等技术,分析识别
特定的模式,并且也取得了比较好的效果 [3]。近年来,随着机器学习以 及 深 度 学 习 的 发 展,使 得 更 多 的 学 者
开始寻求其算法的改进之处,并将改进后的算法应用到入侵检测 中,以 期 提 升 检 测 的 效 率、准 确 率 等 [4]。目
究人员的重点关注。时东阁等 [14]将卷积神经网(
Convo
l
u
t
i
ona
lNeur
a
lNe
two
rks,CNN)应用到了入侵检测
中,首先对数据集进行标准化以及 one
ho
t预处理,再将处理后 的 样 本 输 入 CNN-Fo
c
a
l模 型,在 卷 积 层 采 取
小卷积核缓解了卷积冗余的影响,最后 多 分 类 输 出 时 应 用 So
其 中样本向量为x (1) ,
x (2) ,… ,
an 为特征向量,
ai (n ) 是第i 个主特征向量的估计值,
xi(
n)为样本
减去均值后的残差量,
t 为遗忘方程,第 2 个式子中,x1 (n ) =x (n ) ,得到残差 x2 (n ) 用作迭代步骤的输入
xi+1 (n ) =xi (n ) -xiT (n )
第3期
王文杰,等:融合IPCA 和 CNN 的增量入侵检测模型
91
[]
[]
深度学习自 2006 年由 Hi
n
t
on6 提出之后,相 关 理 论 与 实 践 研 究 成 果 层 出 不 穷,在 搜 索 技 术 7 、自 然 语
言处理 [8]、计算机视觉 [9,10]、图像识别 [11,12]、图像分类 [13]等 领 域 取 得 了 显 著 成 效,同 样 也 引 起 了 入 侵 检 测 研
法 [18],当模型在训 练 的 过 程 中,既 能 够 对 新 出 现 的 类 型 进 行 学 习,又 不 会 遗 忘 已 经 学 过 的 知 识。 付 子 爔
等 [19]也考虑到目前入侵检测数据存在的实时性的问题,将 传 统 机 器 学 习 算 法 支 持 向 量 机 以 及 K 最 近 邻(
k
f
tmax 回 归 进 行 分 类,该 模 型 取 得 了 较 高 的 分
类精度。陈红松等 [15]对循环神经网络(
Re
cur
r
en
tNeu
r
a
lNe
two
rk,
RNN)进行研究实验,希望得到更好的检
测结果。在对数据集进行处理后,提出利用基于窗口的实例选择算法对数据集进行精简,最后对模型中的不
同参数进行综合优化实验,得到最终优化模型后,进行入侵检测实验,最后实验表 明 该 模 型 的 综 合 性 能 有 明
第 45 卷
第3期
2023 年 07 月
华北理工大学学报 (自然科学版)
J
ou
rna
lo
fNo
r
t
hCh
i
naUn
i
v
e
r
s
i
t
fS
c
i
enc
eandTe
chno
l
o
Na
t
ur
a
lSc
i
enc
eEd
i
t
i
on)
yo
g
y(
Vo
l
.45 No
.3
Ju
l.
2023
文章编号:
2095
2716(
2023)
03
验采取了 ReLU 激活函数以及 adam 优化算法,提 升 了 模 型 的 速 率,并 且 取 得 了 较 高 的 检 测 率。 因 此,有 研
究者将降维方法与深度学习模型进行融合,以降低数据样本的复杂性,改善当前入侵检测数据集数据量大且
维数高难以处理 的 问 题。 高 忠 石 等 [17]提 出 了 一 种 PCA 与 长 短 期 记 忆 网 络 (
92
华北理工大学学报(自然科学版)
第 45 卷
的主成分;协方差无关IPCA 模型则直接采用新样本 对 得 到 的 PCA 主 成 分 进 行 增 量 式 的 修 正,可 以 减 少 模
型的计算和存储的开销 [21]。 WENG 等 [22]中所提到的 CCIPCA 算法即一种无需估计 协 方 差 矩 阵 的 算 法,采
相关文档
最新文档