211181036_基于UEBA的用户网络异常行为孤立森林与监督学习对比分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第13卷第2期 吕梁学院学报2023年4月Vol.13No.2 Journal of Lyuliang University
Apr.2023
·应用实践研究·收稿日期:2023⁃02⁃19
基金项目:2022年山西省高等学校大学生创新创业训练计划项目(20221251);吕梁学院2022年校级教学改革创新项目(XJJG2202201)
作者简介:李香林(1971-),女,山西离石人,副教授,研究方向为数据挖掘与分析.基于哉耘月粤的用户网络异常行为孤立森林与
监督学习对比分析
李香林,李佳琦
(吕梁学院数学系,山西离石033001)
摘 要:随着企业信息化水平的提升,内部用户成为敏感数据安全事件发生的主要因素.针对监督学习分析网
络异常行为工作量大成本高问题,采用孤独森林算法快速地进行异常点检测,且能实现比监督学习更精准有效.
关键词:异常行为;孤独森林;UEBA
中图分类号:TP181 文献标识码:A 文章编号:2095-185X(2023)02-0038-03
0 引言为了有效保护企业信息化水平的不断提升而带来的敏感数据保护问题,杜绝由异常操作行为导致的企
业敏感数据泄露安全事件发生,用户异常行为分析与识别成为重难点技术之一.[1]用户异常行为按性质一般有点异常、集体异常、上下文异常,其检测根据用户当前行为与平时行为偏离基准的程度判断是否异常.用户网络异常行为检测主要使用统计学、聚类、分类等机器学习算法.UEBA(User andEntity Behavior Analytics,UEBA)由Gartner 提出,是主要安全技术之一,用于内部用户行为的监测、智能分析,及时预警、拦截偏离正常行为的操作,以防范风险.[2]
大量数据使用监督学习工作量大成本高,本文寻找有效的无监督学习算法与现有结果进行比较,分析其有效性和可用性.1 孤立森林算法孤立森林算法是由南京大学周志华教授等人共同研究出来的,该算法主要用于数据挖掘领域,孤立森林算法比较适合用在连续的异常数据中.因为异常的数据集空间密度较小,异常的点会很快被分到二叉树的一端.在孤立过程中,正常数据点需要经历多次分割才能被孤立出来,而异常数据点经过较少次数的分割就能达到孤立状态.[3]
2 构建孤立森林孤立森林是由多个孤立二叉树组成的,其构建过程如下:
(1)假设一个数据集共有N 个数据,首先从该N 个数据中随机抽取n 个数据,在样本数据中,随机抽取一个特征作为模型的特征值;(2)在所选出的特征值中,找到一个介于最大值和最小值中间的值,随后对样本构建二叉树;
(3)将数据集中小于刚才所找出来的特征值的数据放到二叉树的左边,大于特征值的数据放到二叉树的右边;
(4)以此类推,构成一个孤立树;83
(5)依次构建孤立树,最终构建出一个孤立森林.3 模型评估在孤立森林中,需要设定一个评价指标来检测该点的异常程度,假定该值在0-1之间,评价异常指标从数学角度上定义为:
s (x ,n )=2-E (h (x ))c (n ) 其中E (h (x ))是树中的根节点到叶子界点x 所经过的路径长度h (x )的平均值,其中c (n )是已知所给定的一个h (x )的平均值,评价指标最终的计算结果可以分为三种情况:
(1)当计算的结果s (x ,n )≈1时,表明该节点到根节点的路径长度较小,则可以说明该点有可能为异常值;(2)当计算的结果s (x ,n )<0.5时,表明该节点到根节点的路径长度很大,说明该点为正常数据点;(3)当所有的计算结果s (x ,n )≈0.5时,说明整个样本中的数据没有任何异常;
(4)从图1可以很明显的观察出正常数据x i 需要经过11次切分才能被切分出来,而异常数据x 0只需要经过4次就被切分出来,显示了孤立森林算法的高效性
.图1 切分正常和异常数据4 基于孤立森林算法异常行为分析4.1 实验环境
本实验在Intel(R)Core(TM)i5-7300HQ CPU @2.50GHz 的计算机上实现的,显卡型号为NVIDIA
GeForce GTX 1050Ti 4GB,硬盘为1T +128G,采用tableau2019、PyCharm 环境和sklearn 库.4.2 数据来源实验数据来源于2022年DataFountain 大赛提供的用户异常行为数据集,数据集共有528690个数据,其中共有10个属性,分别是id(日志数据记录编号)、account(用户账号)、group(用户归属部门)、IP(终端IP)、url(终端上网网址)、port(终端上网应用端口)、vlan(终端所在虚拟网域编号)、switchIP(终端连接交换机IP)、time(终端上网行为发生时间)、ret(异常行为评价得分).
4.3 特征分析与选取通过使用tableau 软件对数据进行基础分析得知,id、account、group 并不能作为构建孤立森林的特征.相同部门的vlan 和switchIP 是相同的,相同的终端网址内vlan、switchIP 分布不均匀,且IP、switchIP 内存在大量异常评分高于0.5的用户.最终,time(终端上网行为发生时间)和ret1(异常行为评价得分)来作为构建孤立树的特征值,并且ret1值大于0.5的视为异常数据.
4.4 实验结果与分析使用孤立森林算法对数据进行划分,最终结果如图2所示.
通过与原数据所给的异常评价得分进行分析对比可知,本次孤立森林算法所计算的异常评价得分值ret1与原始数据集中的异常评价得分值ret 基本吻合,且异常行为评分在大于0.5时,主要集中在11点之后,属于点异常.
本次实验数据总量共528690个,未进行异常检测之前,正常数据共453360个.异常数据共75330个,
93
图2 孤立森林划分结果
异常数据占比约14%.使用孤立森林算法进行异常检测后,正常数据共489608个,异常数据共39082个,占比约7%.
5 结论
(1)使用孤立森林算法在对数据进行分析处理后,找出相应的标签进行分类,算法的表现均有提升,实验结果更精确.
(2)与有监督学习算法相比,本次实验的孤立森林无监督学习不需要先验类标签,在异常分析时可以直接进行处理分析从而计算出异常值相对于正常值的偏离情况.
(3)基于无监督模型只需要找出特征值即可,适用于同类场景.
参考文献院
[1]DataFountain,中国计算机学会,明朝万达.基于UEBA的用户上网异常行为分析[EB/OL].https:/// competitions/520.
[2]陆英,Gartner.2018年十大安全项目详解(二)[J].计算机与网络,2018(23).
[3]Liu F T,Ting K M,Zhou Z H.Isolation forest[C]∥2008Eighth IEEE International Conference on Data Mining,2008.
Comparative Analysis of Isolated Forest and Supervised Learning for
User Network Abnormal Behavior Based on UEBA
LI Xiang⁃lin,LI Jia⁃qi
(Department of Mathematics,Lyuliang University,Lishi Shanxi033001,China)
Abstract:With the improvement of enterprise informatization,internal users have become the main factor in the oc⁃currence of sensitive data security incidents.In order to solve the problem of heavy workload and high cost in using supervised learning to analyze the user network abnormal behavior,the isolated forest algorithm is used to quickly i⁃dentify and detect abnormal points and can function more accurately and effectively than supervised learning. Key words:abnormal behavior;isolation forest;UEBA
04。

相关文档
最新文档