人工蜂群联合入侵杂草优化的云平台异常行为数据挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现代电子技术
Modern Electronics Technique
Oct. 2023Vol. 46 No. 20
2023年10月15日
第46卷第20期
0 引 言
云计算能够实现大数据的高速处理、存储与移动应用[1],是当今互联网大数据背景下逐渐发展起来的新一代数据超级运算方式。
随着云计算平台诞生并广泛投
入企业以及个人使用,用户对云平台提出更加严格的安全要求。
数据挖掘方法在监测云平台运行安全[2]、避免非法入侵方面是比较好的手段[3],但网络中非法行为的大量增加使云计算平台异常行为数据的维度增高,从而影响了数据挖掘效果,因此,提升云平台异常行为数据
DOI :10.16652/j.issn.1004⁃373x.2023.20.016
引用格式:王宏杰,徐胜超.人工蜂群联合入侵杂草优化的云平台异常行为数据挖掘[J].现代电子技术,2023,46(20):86⁃90.
人工蜂群联合入侵杂草优化的云平台
异常行为数据挖掘
王宏杰, 徐胜超
(广州华商学院 数据科学学院, 广东 广州 511300)
摘 要: 云计算平台异常行为数据的维度增高,会影响数据挖掘效果。
为此,提出人工蜂群联合入侵杂草优化的云平台异常行为数据挖掘方法。
构造多标签核映射数据降维方法,并将径向基函数作为核函数,对数据降维;采用混合蜂群杂草算法对径向基函数带宽和最小二乘多分类孪生支持向量机惩罚因子进行优化;采用最优径向基函数带宽优化多标签核映射数据降维算法,并利用该算法对数据进行降维,将其输入到优化后的最小二乘多分类孪生支持向量机决策函数中,计算数据与各个超平面之间的距离,确定数据所属类别,从而获取最优的云计算平台异常行为数据挖掘结果。
实验结果表明,该方法在挖掘误差、能量损耗、挖掘时间等指标上效果较好。
关键词: 人工蜂群算法; 入侵杂草算法; 云计算平台; 异常行为; 数据挖掘; 标签映射; 孪生支持向量机
中图分类号: TN919⁃34; TP311.13 文献标识码: A 文章编号: 1004⁃373X (2023)20⁃0086⁃05
Cloud platform abnormal behavior data mining based on artificial bee colony
joint invasive weed optimization
WANG Hongjie, XU Shengchao
(School of Data Science, Guangzhou Huashang College, Guangzhou 511300, China)
Abstract : The dimension of abnormal behavior data of cloud computing platform increases, which can affect the the effectiveness of data mining. A method of cloud platform abnormal behavior data mining based on artificial bee colony joint invasive weed optimization is proposed. The data dimensionality reduction method of multilabel kernel mapping is constructed, and the radial basis function is used as the kernel function to reduce the data dimensionality. The hybrid bee colony weed algorithm is used to optimize the radial basis function bandwidth and the penalty factor of the least squares multi classification twin support vector machine. The optimal radial basis function bandwidth is used to optimize the multi label kernel mapping data dimensionality reduction algorithm, and the algorithm is used to reduce the data dimensionality. It is input into the optimized least squares multi classification twin support vector machine decision function to calculate the distance between the data and
each hyperplane, and determine the category of the data, so as to obtain the optimal data mining results of cloud computing platform abnormal behavior. The experimental results show that the proposed method can perform well in indicators such as mining error, energy loss and mining time.
Keywords : artificial bee colony algorithm; invasive weed algorithm; cloud computing platform; abnormal behavior; data
mining; label mapping; twin support vector machine
收稿日期:2023⁃02⁃12 修回日期:2023⁃03⁃23
基金项目:国家自然科学基金面上项目(61772221);广州华商学院校内导师制科研项目资助(2023HSDS06)
86
第20期
挖掘性能势在必行。
文献[4]采用预训练卷积神经网络CNN 提取描述性特征,并将特征向量传递至二元支持向量机分类器中,构建二元支持向量机模型,用于云计算平台异常行为数据的挖掘。
文献[5]采用优化后局部线性嵌入算法提取异常数据特征并重复提取所需特征维度,以获得目标数据相应特征,再根据相应特征并利用K⁃means 算法对目标数据进行聚类处理,结合改进的粒子群优化算法构建挖掘模型,输出异常行为数据挖掘结果。
文献[6]提出一种基于离群点检测的K⁃means 算法,用于挖掘云计算平台异常行为数据。
首先对获取的数据进行降维处理,然后将Hadoop 数据集划分为多个数据块并采用MapReduce 并行处理数据块,最后利用随机梯度下降重新定义K 近邻距离,实现云计算平台异常行为数据
挖掘。
以上方法获取到的云计算平台中的数据维数较高,并且降维处理后不是最优结果,导致存在挖掘误差较大、能量消耗较高、挖掘时间较长、DBI 值和1⁃错误率较高、平均精度较低等问题。
为此,本文提出一种新的云平台异常行为数据挖掘方法,应用实验数据验证了人工蜂群联合入侵杂草优化的云平台异常行为数据挖掘的优秀性能。
1 基于标签映射的云平台数据降维
构造多标签核映射数据降维方法,并用于云计算平台数据降维中。
多标签核映射数据降维方法沿用线性判别分析方法的基本思想,为了尽可能多地保留判别信息,本文方法对标签集信息加以考虑,在提升数据挖掘效率的同时为数据挖掘精度提供保障[7⁃9]。
划分数据集为Z 个类别,记作P =[]p 1,p 2,⋯,p Z T
,其
中p i 表示第i 类数据,Q =[]q 1,q 2,⋯,q M T
∈R M ×C 表示
P 对应的标签集,C 表示标签数,Q ij 表示数据类别i 中第j 类标签集,Q i 表示计算第i 类数据均值为μi ,总体数据均
值为μ,依据两者可得到多标签数据总体、类间和类内离散度矩阵S t 、
S b 和S w :ì
íî
ïïï
ïïïïïS t =∑j =1C ∑i =1Z
Q ij (
)p i -μ(
)
p i -μT S b =∑j =1C ()∑i =1Z
Q ij (
)μi -μ(
)
μi -μT S w =∑j =1C ∑i =1Z
Q ij (
)p i -μi (
)
p i -μi T
(1)本文方法为避免标签整体结构受到破坏,采用余弦
相似度对多标签间的关联性进行计算[10],用q u 和q v 表示
任意两个不同的标签,q u ,q v ∈Q ,则两者间关联矩阵为
R uv 。
由于在计算离散度时某个含有多标签的数据会被
重复计算,因此归一化处理R uv
,得到归一化后矩阵R 。
由于云平台数据为非线性数据,因此,本文在上述多标签数据降维方法的基础上融入核映射[11],构建多标签核映射数据降维方法,以实现云计算平台数据降维的目的。
本文方法将径向基函数作为核函数[12⁃14],用x ′表示核函数中心,
σ表示径向基函数带宽,ϕ表示非线性映射,
x i 表示多标签数据。
通过径向基函数映射云计算平台多标签数据后,可得到总体、类间和类内离散度S ϕt 、
S ϕε和S ϕw :
ìíîïï
ïïïS ϕt =ϕ()P Aϕ()P T
S ϕε=ϕ()P R B -1R T ϕ()
P T
S ϕw =S ϕt -S ϕε
(2)通过多标签核映射数据降维方法能够将云计算平
台多标签数据由原始D 维空间映射至L 维空间R L ×M ,
L ≪D 。
用U 表示多标签投影基底,
Γ表示全部线性组合系数构成的矩阵。
最终得到降维后的云计算平台数据,其表达式为:
W =U T ϕ()P =ΓT ϕ()P
T
ϕ()P (3)
采用多标签核映射数据降维方法降维数据能够尽可能多地保留类别之间的判别信息,对后续云计算平台异常行为数据挖掘具有积极的意义。
2 云平台异常行为数据挖掘
本文采用孪生支持向量机作为云计算平台异常行为数据挖掘的基础模型[15⁃17],云计算平台异常行为数据挖掘实际上是对数据的分类,将数据分为正常行为和异常行为两类。
可见,云计算平台异常行为数据挖掘本质上为多分类问题,因此对孪生支持向量机进行改进,使其适用于多分类问题。
构建最小二乘多分类孪生支持向量机模型[18],用于数据类型判别,并对该模型求解,获取分类结果:
ìí
î
ïïmin w ,b ,ξ12 X i w i +e i b i 2+12c i ξT i ξ
i s.t. X i w i +e i b i =e i -ξi (4)式中:
X i 表示第i 个类别降维后待分类云计算平台数据集;
w i 表示超平面法向量;b i 表示偏移量;e i 表示各元素均为1的向量;c i 表示惩罚因子;ξi 表示松弛变量,利用
拉格朗日乘子法和Karush ⁃Kuhn ⁃Tucker 最优化条件(KKT 条件)求解式(4)即可得到超平面[19⁃20]法向量w i 和偏移量b i 。
王宏杰,等:人工蜂群联合入侵杂草优化的云平台异常行为数据挖掘87
现代电子技术
2023年第46卷
将多标签核映射数据降维方法降维后的云计算平
台数据作为样本,输入到最小二乘多分类孪生支持向量机模型中进行分类,获取云计算平台正常行为数据和异常行为数据,输出的最终结果即为异常行为数据挖掘结果。
由于在整个流程中,多标签核映射数据降维方法中的径向基函数带宽σ和最小二乘多分类孪生支持向量机惩罚因子c i 两个参数会直接影响云计算平台异常行为数据的挖掘结果,因此,需对σ和c i 两个参数进行优化,使得到的云计算平台数据分类结果更加精准,从而提升云计算平台异常行为数据挖掘效率。
标准入侵杂草优化算法是模拟杂草繁殖生长行为的一种群智能优化算法,其运算简单,能够缩短挖掘时间,提高挖掘效率[21],其具体步骤为:
1) 初始化阶段。
初始化相关参数,设定种群规模
上限为Q max ,迭代次数上限为k max ,可产生种子数区间为[]g
min
,g max ,随机生成Q 0个个体作为初始种群散布于问
题空间中,
Q 0<Q max 。
2) 生长繁殖阶段。
高适应度杂草往往携带更多信
息,用f i 表示杂草i 适应度值,
f max 和f min 表示当前种群最大和最小适应度值,[]
g min ,g max 表示种子数区间,由此确定下代种子数:
g i =g min +
[](
)f i -f min
(
)f max -f min ·(
)
g max -g min
3) 空间扩散阶段。
种子围绕其父代个体遵循高斯
分布扩散[22]
,用δmin 和δmax 表示初始和最终标准差,
α表示非线性调和参数,k 表示当前迭代次数,在不断迭代
中高斯分布标准差δi 按照以下公式计算减少:
δi =δmin +
[]
()k
max
-k
α
()δ
max
-δmin
k
α
max
(5)
4) 竞争性生存阶段。
初始杂草种群在不断繁殖扩
散后达到最大种群规模Q max ,杂草个体开始依据适应度值竞争,保留前Q max 个杂草个体继续迭代,淘汰其他适应度低的个体。
人工蜂群算法是模仿蜜蜂行为提出的一种优化方 法,是集群智能思想的一个具体应用。
为了进一步提升入侵杂草优化算法的性能,本文引入人工蜂群算法联合入侵杂草优化算法,构建混合蜂群杂草算法,共同寻优参数[23]σ和c i 。
在本次迭代最优杂草个体位置处设置若干只跟踪蜂,使群体中更多有价值的信息聚集于最优杂草个体处。
跟踪蜂随机跟踪一只采蜜蜂,并搜索新杂草个体,同样保留适应度值更优异的个体。
混合蜂群杂草算法能够显著加快算法收敛速度并提升算法精度,每个可行解均由一组σ和c i 构成,通过混合蜂群杂草算法求解可得到最优可行解,即得到最优
参数。
采用最优径向基函数带宽σ
优化多标签核映射数据降维算法,利用优化的多标签核映射数据降维算法对云计算平台数据进行降维,获取降维后最优的云计算平台数据,并构建最优超平面法向量w
下的最小二乘多分类孪生支持向量机决策函数,如下所示:
f ()
x =arg min
i =1,2,⋯,I
||w x +b i
w (6)
式中I 表示类别总数。
将降维后最优的云计算平台数据输入到优化后的最小二乘多分类孪生支持向量机决策函数中,计算数据与各个超平面之间的距离,并对比距离大小即可确定数据所属类别,从而获取最优的云计算平台异常行为数据挖掘结果。
3 实验与性能分析
为了验证本文方法的整体有效性,进行实验测试。
实验系统为5个节点构成的Cloudra CDH 集群,各节点主机配置相同,Cloudra CDH 为5.14.0,确定主机中的1台为NameNode ,4台为DataNode 。
数据源采用高级持续威胁数据源KDDCUP99,其中包含多种云计算平台异
常行为数据类型,实验将数据分为5个子数据集,分别为全部类型数据(ALL )、PROBE 、DoS 、U2R 和R2L ,以文献[4]方法和文献[5]方法作为对比,检验本文方法在多类型云计算平台异常行为数据挖掘中的性能。
3.1 挖掘误差情况
在本文方法、文献[4]方法和文献[5]方法的异常行为数据挖掘结果中随机抽取200组数据,对比其挖掘误差、节能量和挖掘时间。
挖掘误差检测结果如图1
所示。
图1 挖掘误差检测结果
由图1可以看出,在选取的200组数据中,本文方法的挖掘误差明显小于文献[4]方法和文献[5]方法,因为采用本文方法获取到的降维后数据为最优降维结果,使得云计算平台异常行为数据挖掘效果达到理想状态,进而有效降低了异常行为数据挖掘误差。
88
第20期
3.2 能耗情况
节能量越高,则对应方法的数据挖掘性能越强。
由图2所示的节能量检测结果可以看出,本文方法的节能量大致分布在400 J 以上,文献[4]方法节能量大致在分布在270~430 J 之间,文献[5]方法节能量大致在分布在300~410 J 之间,本文方法的节能量始终高于另外两种方法,说明本文方法的挖掘性能最强。
这是因为本文采用混合蜂群杂草算法对径向基函数带宽和最小二乘多分类孪生支持向量机惩罚因子进行优化,采用最优径向基函数带宽优化多标签核映射数据降维算法,并利用该算法对云计算平台数据进行降维,获取最优的降维结果,
提升了数据挖掘性能。
图2 节能量检测结果
3.3 挖掘时间
由图3所示的挖掘时间检测结果可以看出,本文方
法在200组实验中的挖掘时间均少于文献[4]方法和文献[5]方法,本文方法挖掘时间最长在2 s 左右,文献[4]方法最长在8 s 左右,文献[5]方法最长在7 s 左右,可见本文方法具有更高的挖掘效率,实时性更强,更适用于实际云计算平台数据挖掘。
本文采用多标签核映射数据降维方法对云计算平台数据进行降维处理,对标签集信息加以考虑,尽可能多地保留了判别信息,提升了数据挖掘效率,
故用时最少。
图3 挖掘时间检测结果
3.4 总体评价
统计本文方法、文献[4]方法和文献[5]方法在5个子
数据集异常行为数据挖掘中的DBI 、1⁃错误率和平均精度,结果如表1所示。
表1 各方法异常行为数据挖掘结果
数据类型
ALL
PROBE
DoS
U2R
R2L
方法
本文方法
文献[4]方法文献[5]方法本文方法
文献[4]方法文献[5]方法本文方法
文献[4]方法文献[5]方法本文方法
文献[4]方法文献[5]方法本文方法
文献[4]方法文献[5]方法
评价指标
DBI 0.688 20.759 40.747 10.674 00.771 50.769 20.672 30.748 30.752 10.663 10.773 70.756 50.684 20.740 80.775 9
1⁃错误率0.167 70.213 90.265 50.160 30.227 40.267 50.167 80.229 50.250 20.169 90.228 40.240 80.173 50.224 60.256 8
平均精度/%
85.0973.1269.3689.5973.8575.2487.4872.0775.9992.0872.9570.9688.9569.6364.15
DBI 是数据挖掘质量的评价指标,DBI 数值越小,则
类内间距越小,类间间距越小,数据挖掘质量越好;1⁃错误率是多标签数据分类的评价指标,1⁃错误率越低,则
对应方法预测隶属度最高标签不属实际标签集的概率越小,数据挖掘效果越好;平均精度是数据挖掘正确性的评价指标,平均精度越高,则数据挖掘正确性越强。
由表1可以看出,本文方法的DBI 值和1⁃错误率均小于文献[4]方法和文献[5]方法,平均精度始终高于文献[4]方法和文献[5]方法,说明本文方法具有更强的异常行为数据挖掘能力。
这是因为本文采用混合蜂群杂草算法对参数进行优化,通过混合蜂群杂草算法求解可得到最优可行解,即得到最优参数,使挖掘结果更加精准,从而提高了挖掘能力。
4 结 语
云计算平台数据量大幅度增加,导致非法攻击概率
王宏杰,等:人工蜂群联合入侵杂草优化的云平台异常行为数据挖掘
89
现代电子技术2023年第46卷
也随之上升,因此,数据挖掘技术被引入云计算平台异常行为检测之中。
为了解决目前存在的挖掘误差较大、节能量较低、挖掘时间较长、DBI值和1⁃错误率较高、平均精度较低等问题,提出一种人工蜂群联合入侵杂草优化的云平台异常行为数据挖掘方法,实现云计算平台异常行为数据挖掘。
该方法能够有效地减小挖掘误差、提高节能量、缩短挖掘时间、减小DBI值和1⁃错误率、提升平均精度,对云计算平台安全稳定的运行具有很好的参考价值。
参考文献
[1] RAMSAY G. A cloud⁃computing platform for developing and evaluating vocal biomarkers based on home audio recordings: Resources for large⁃scale data processing and analysis [J]. The journal of the acoustical society of america, 2020, 148(4): 2791.
[2] WANG X, HUANG F, FAN X, et al. Landslide susceptibility modeling based on remote sensing data and data mining techniques [J]. Environmental earth sciences, 2022, 81(2): 1⁃19.
[3] LIU P, WANG J, WANG Z, et al. Cloud platform⁃oriented electrical vehicle abnormal battery cell detection and pack consistency evaluation with big data: devising an early⁃warning system for latent risks [J]. IEEE industry applications magazine, 2021(99): 2⁃13.
[4] AL⁃DHAMARI A, SUDIRMAN R, MAHMOOD N H. Transfer deep learning along with binary support vector machine for abnormal behavior detection [J]. IEEE access, 2020(8): 61085⁃61095.
[5] XIE X, WU W, XU J, et al. Abnormal network data mining model based on deep training learning [J]. International journal of internet protocol technology, 2020, 13(4): 228.
[6] GAO J, LIU J, GUO S, et al. A data mining method using deep learning for anomaly detection in cloud computing environment [J]. Mathematical problems in engineering, 2020(1): 1⁃11. [7] JOZWICKI D, SHARMA P, MANN I. Investigation of polar mesospheric summer echoes using linear discriminant analysis [J]. Remote sensing, 2021, 13(3): 522.
[8] FENG S, ZHAO C, FU P. A deep neural network based hierarchical multi⁃label classification method [J]. Review of scientific instruments, 2020, 91(2): 024103.
[9] WANG Z, CHEN S, GUO R, et al. Extreme learning machine with feature mapping of kernel function [J]. IET image processing, 2020, 14(11): 2495⁃2502.
[10] KWAK B I, HAN M L, KIM H K. Cosine similarity based anomaly detection methodology for the CAN bus [J]. Expert
systems with applications, 2021, 166(21): 114066. [11] PAWAR S, AHMED S E, SAN O, et al. Long short⁃term memory embedded nudging schemes for nonlinear data assimilation of geophysical flows [J]. Physics of fluids, 2020, 32(7): 076606.
[12] KALITA K, CHAKRABORTY S, MADHU S, et al. Perform⁃ance analysis of radial basis function metamodels for predictive modelling of laminated composites [J]. Materials, 2021, 14(12): 3306.
[13] FEDOROV Y, KOMEDA J, MATSUTANI S, et al. The sigma function over a family of curves with a singular fiber [J]. Israel journal of mathematics, 2022, 250(1): 345⁃402. [14] CAO Y, RAI A, SANDEEP R B, et al. A polynomial kernel for diamond⁃free editing [J]. Algorithmica, 2022, 84(1): 197⁃215.
[15] TANVEER M, TIWARI A, CHOUDHARY R, et al. Large⁃scale pinball twin support vector machines [J]. Machine learning, 2022, 111(10): 3525⁃3548.
[16] KUMAR Bagesh, SINHA Ayush, CHAKRABARTI Sourin, et al. A fast learning algorithm for one⁃class slab support vector machines [J]. Knowledge⁃based systems, 2021, 228(7): 107267.
[17] WANG Y, SU Y Q, HENSEN E, et al. Finite⁃temperature structures of supported subnanometer catalysts inferred via statistical learning and genetic algorithm⁃based optimization [J]. ACS nano, 2020, 14(10): 13995⁃14007.
[18] RIBEIRO F A, DOWELL E H, BUENO D D. Enhancement to least square⁃based approach for time⁃domain unsteady aerodynamic approximation [J]. Journal of aircraft, 2021, 58 (1): 111⁃124.
[19] WANG Z. Modelling with lagrange′s method and experi⁃mental analysis in cable⁃stayed beam [J]. International journal of mechanical sciences, 2020, 176(C): 105518. [20] DEBNATH I P, GUPTA S K. The Karush⁃Kuhn⁃Tucker conditions for multiple objective fractional interval valued optimization problems [J]. RAIRO⁃operations research, 2020, 54(4): 1161⁃1188.
[21] GUTTE V S, PARASAR D. Sailfish invasive weed optimiz⁃ation algorithm for multiple image sharing in cloud computing [J]. International journal of intelligent systems, 2022, 7(7): 4190⁃4213.
[22] ERBAN R. Coarse⁃graining molecular dynamics: stochastic models with non⁃Gaussian force distributions [J]. Journal of mathematical biology, 2020, 80(1): 457⁃479.
[23] ZHU C, XU Y, WU Y, et al. A hybrid artificial bee colony algorithm and support vector machine for predicting blast⁃induced ground vibration [J]. Earthquake engineering and engineering vibration, 2022, 21(4): 861⁃876.
作者简介:王宏杰(1982—),男,湖北襄阳人,硕士,讲师,研究方向为云计算、人工智能等。
徐胜超(1980—),男,湖北武汉人,硕士,副教授,研究方向为并行分布式处理软件。
90。