基于邻接序列模式挖掘的网络流量分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随着 网络连接 能力 、 流通能力 的提高 , 基于 网络连
且 随着 时间 的延续 一路爬 升 , 到晚上 2 O点 、 1点 的时 2
候 达 到 高 峰 , 8 . %的 网 民在 这 一 时 间上 网, 之 有 05 这
接 的系 统安 全 问题 也 日益 突 出 , 切需 要对 网络 流量 迫 进行 有效 分析 。一 种有效 的 网络 流量挖掘 技术是 序列
性 。
掘 的序列保 持相 同的顺序 。 网络 流量分 析 中, 接序 在 邻
列模 式往 往 比序列模 式效 率更高 。 在数 据挖 掘与 入 侵检 测相 结合 的分 析 中, 用 最 使 频 繁的是 审计数据 (u i d t) 审计数据 是通过 网络 a dt aa 。 嗅探 器 , 时记 录网 络 的各 种 连 接信 息 , 如协 议 , 实 例 连 接时间, 连接 时长 等 , 因忽 略 网络数 据 包 的具体 内容 ,
基 于 邻 接 序 列 模 式 挖 掘 的 网 络 流 量 分 析
文 章 编 号 : 0 3 5 5 ( 0 0 1 - 0 6 0 1 0-8 0 2 1 )00 0-3
21 0 0短
基 于邻 接 序 列 模 式 挖 掘 的 网 络 l s s b s d o ntg u e e i lM i ng Pa t r t r e a y i a e n Co i uo s S qu nta ni t e ns
p o s w a a s r t e,U p r po e a ne d t t ucur Dow n Tr e,f r CSP n ng. An U pDo n Tr ec e o mi i w e om bi ss fx te nd pr fx te ore fce ne ufi r e a e i r e f fiint s o a e o l h e ue e ha o a n a gie t m . The s e i t ucur fU p t r g fa lt e s q nc s t tc nt i v n ie p cals r t e o Dow n T r e e ur s e fce t c i Ps e ns e fiintde e ton ofCS . Ex rm e t ho t atUpDown Tr e i pr ve pe i n s s w h e m o sCSP i n fbot i e a e or a o pa i O e itng m e h s m ni g o h tm nd m m y us ge c m rng t x s i t od . K EYW ORDS s qu nta a t r e e ilp t e ns, da a m i ng, fo a a y i t ni l w n l ss
模式 挖掘, 以便 及 时 发 现 网 络 异 常。邻 接 序 列 模 式 ( S ) 序列模 式 的一个 改 进 , 求 模式 必 须 与被 挖 C P是 要
后 上 网人数 又逐渐 减少 。 因此 , 网络 的使 用率 在时 间上
的规律 性也 导致 了 网络 流量 在时 间上存 在一 定 的规 律
间性 能。
【 关键词 】序 列模 式 ,数 据挖掘 ,流量分析
中 图分 类 号 :TP 0 39 文献标识码 : A
AB T S RAC F n ig Co t u u e u n i l te n ( S T idn n i o sS q e t g a Pa t r s C P) i a mp ra t p o l m n n t r r n ii g I h s p p rwe s n i o t n r b e i e wo k t e d m n n ・ n t i a e
师 鸣 若
( 京物 资学 院 北 京 1 1 4 ) 北 0 1 9 【 摘 要】在 网络 流量模 式挖掘 中,发 现邻 接序列模 式 ( S )是 一个 重要 问题 ,为 网络流 量分 析提 出了一种新 CP 的树 型数据 结构 。为 了有 效存储包 含指定 项 的所 有序 列 ,该 树 组合 了前缀树 和 后缀树 ,这 种特 殊 的树 结构 确保 了 C P检 测 的有 效性。实验 表 明与 已有 方法相 比 , S 使用 该 结构 不仅 改进 了C P挖 掘 的 时间性 能,而且 改进 了空 S
的一个 划分 ; 流量类 型有 若 干种 , 括本 文用 到的端 口 包
流量和 协议 流量 ; 同流量类 型包括 不 同的事 件类 型 。 不
在 考 虑大 型 网络 的时 候 , 面 四个 流量 的分 布有 着对 后
应关系, 是符 合 同样 的分 布特 征 的。在本 文 中 , 只考虑 人 流量包 数 目。按 照节点 、 量类 型 、 件类 型和变量 流 事 ( 人流量 包数 目) 四个属性 定义 流量 数据 。依据 流量数 据 按流量 大小 对一 天 2 4h进 行排 序 , 则可得 到一 个 长 度 最大 为 2 4的序 列 。某些 天 序列 长度可 能 比较 短 , 由
所 以得到 的是不定 维数 的记 录数据 。 本文针 对主 流的网络异 常 ( 即拒绝服务 攻击 、 蠕虫 病 毒 、 意 消耗 网络带 宽 、 恶 网络 关键 基 础设 施 的损 坏 、
本 文 关 注 的 流量 数 据 的属 性 有 : 点 数 , 量类 节 流 型 、 件类 型、 间 、 流量 字 节数 、 事 时 人 出流 量 字节 数 、 人 流量包 数 目和 出流量包 数 目。其 中节点 是对 整个 网络