基于网络流量特性分析的高速入侵检测分流算法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表1
流量 CHIC KSCY
生成的满负荷流量特性
流数目 344 682 336 488 TCP 比例 / Byte 65. 47% 71. 70%
速率 / Gbps 38. 090 38. 539
3. 2
网络流量特性
网络流量特性分析是开展多项研究工作的基础, 相关研究 4, 10 , 11] 如文献[ 等, 但以入侵检测中的分流问题为应用背景 的并不多见, 为此笔者作了进一步的深入研究, 发现网络流量 — —宏流特性和 Hash 突发性。 具有两种特性— 1 ) 宏流特性 宏流特性是指在一定的检测周期内, 极少数宏流在总体网 络流量中占很大比例的特性 。分别对上述三个网络流量 trace 中的宏流数进行统计, 检测周期为 50 000 个报文, 阈值范围为 5 000 ~ 800 000 Byte, 阈值依次增大, 对每个周期的宏流数取平 均值, 发现 IP 流的数量呈指数减小的趋势 。 宏流数目均值与 流大小大致呈双曲线分布, 如图 1 所示。 取流大小大于 50 000 Byte 的流( 宏流) 统计其流量, 发现 这些流的流量占到了总流量的 76. 4% , 而其在流数目中所占 的比例仅为 0. 65% 。 即宏流数目虽少, 但其在整个流中所点 的比重却很大。 统计 10 个周期内宏流所占比重
Zipf’ s Law, 提出了在转发引擎( FE) 之间调节极大流( 流量中流 量最大的前几个流) 的 SHI 算法。将流量分为两类: 极大流和普 通流。不均衡时, 将属于极大流的报文散射到负载最轻的 FE。 4] 文献[ 分析了高速网络的流量特性, 并提出了基于较大 流调整的安全分流算法 。 重于研究动态调整的策略 、 流量的具体分割方法等 现有的入侵检测负载均衡算法多基于低网速环境设计, 偏 [1 , 2, 5, 6 ] , 而
网络流量特性分析
网络流量获取
4
[9 ] 采用美国国家网络应用研究实验室 NLANR PMA 组采 集于 Internet2 实验网上的真实 trace 数据。 各个 trace 简要描
H ASLF 算法
宏流自适应 HASLF 分流算法基于高速网络流量的宏流特 性和 Hash 突发性而设计, 具有极低的丢包率、 流破坏数和负载 符合高速入侵检测分流的要求 。 均衡度, 4. 1 基本思想 HASLF 算法基本框图如图 4 所示, 由静态 Hash 和动态调 整两部分组成。当任意缓冲区占用率超过设定阈值 ( 即该端 口过载) 且当前流为宏流时, 即起动动态调整机制, 将过载端 口的流量调整到负载最轻的节点, 否则由四元组 Hash 的结果 作为端口号分流数据。动态调整以数目极少的宏流为对象, 可 — —宏 有效降低流破坏率; 调整的强度与宏流检测阈值成反比 — 流检测阈值越小, 当前流被识别为宏流并进行动态迁移的概率 产生丢包的可能性就越小 。宏流检测阈值与缓冲区占 就越大, 用率为负反馈关系, 以便于及时地吸收突发流量 。负载的检测 宏流检测采用周期检测 。 采用基于每个报文的实时检测,
述如下: a ) IPLSCHIC, 链 路 为 美 国 Indianapolis 到 Chicago 的 OC192 , 长度为 10 min, 采样时间为 2004 年 8 月 19 日; b) IPLSKSCY, 链路为 美 国 Indianapolis 到 Kansas City 的 OC192 , 长度为 10 min, 采样时间为 2004 年 8 月 19 日。 采用 Maria Gabrani 等人提出的时间压缩和顺序连接的方 法构造满负荷( 95% 以上的链路带宽利用率) 的 OC768 综合流 KSCY, 量, 分别生成满负荷流量 CHIC、 流量特性如表 1 所示, 每个 trace 流量为 1 000 万个报文。 具体处理方法为: 对 IPLSIPLSKSCY 采用时间压缩的方法分别生成 OC768 综合 CHIC、 KSCY。 流量 CHIC、
收稿日期: 2010-01-27 ; 修回日期: 2010-03-05
2
算法的衡量指标
本文采用基于四元组( 源 / 目的 IP 地址、 源 / 目的端口号)
按十六位分组异或后散列的方法分流数据, 主要的性能衡量指 标有流破坏数、 丢包率和负载均衡度。 宏流是指在一定的检测周期内, 流量大于某一阈 如 50 000 个报文中流量大于 50 000 Byte 的流。 在这 值的流, 50 000 Byte 即是宏流检 里 50 000 个报文即是宏流检测周期, 测阈值。宏流在整个流中所占数目虽少, 但其所占的流量比重 却很大。 定义 2 流破坏数是指被破坏的流数目, 如果一条流的部 分报文已分配到一个处理节点, 在动态调整时调整到另一个处 理节点, 则称这条流被破坏。 定义 1
由于链路速度以指数方式增长, 高速入侵检测正成为入侵 。 检测研究的热点和难点 高速入侵检测的最大困难就是入侵 检测系统的处理速度瓶颈, 为解决这一难题必须采用基于多台 检测器的并行入侵检测, 而负载均衡算法的设计是并行入侵检 。 测的关键 算法必须最小化破坏攻击上下文且尽量均衡分流, 如此才能保证检测器检测的准确性和完整性, 对此国内外进行 了大量研究并提出了多种并行入侵检测负载均衡算法 。
Abstract: By analyzing the characteristics of the large flow and Hash burst of high speed network traffic, this paper proposed the HASLF( hash adapting by selfadaptive large flow) load balancing algorithm for highspeed IDS. Simulation validates that HASLF algorithm distributes the bytes of load in a balanced way,disrupts flows at low rate,discards packets at very low rate, and satisfies the demand of load balancing of highspeed IDS,has a high value of application. Key words: highspeed IDS; selfadaptive large flow; rate of packets discarding; flowdisruption rate
第9Fra Baidu bibliotek期
定义 3
王明定, 等: 基于网络流量特性分析的高速入侵检测分流算法
· 3485·
负载均衡度是指网络流量在处理节点之间的分 配量比值与处理节点之间处理能力比例的差异程度 。 负载均 衡度越小, 负载均衡性越好。本文假设各个节点的处理能力相 所以网络流量在各处理节点的分配差异就直接决定了负载 同, 8]定义位流负载均衡度 bLBM ( t ) 均衡度的大小。根据文献[ ( 式( 1 ) ) 。其中, P i ( t) 表示系统已处理的报文序列 P ( t ) 中被 2, …, m ) 处理的报文序列; | | 表示序列集的 处理节点 i( i = 1 , 元素个数, 即 | L i ( t ) | 表示 P i ( t ) 中所有报文的字节总数; m 为 处理节点数目。
1] 文献[ 中 Kruegel 等人提出了一种层次交换并行检测结 构, 将流量划分为两层, 第一层流量散射器( scatterer) 将从主干 链路分接口来的流量进行简单处理, 散射成多个较低速的链 路, 发送给第二层流量切片器( slicers ) ; 流量切片器将流量按 照攻击场景将属于同一个攻击场景的流量分给后端同一个 IDS sensor 组。作者认为流量散射器必须足够简单以满足线速 处理高速主干流量, 文中采用 round robin 方式分配流量, 因此 当同一个攻击上下文的报文到达 IDS sensor 组时会造成很多 报文乱 序, 在 每 个 IDS sensor 组 有 重 排 序 缓 冲 器 ( reassemblers) , 完成乱序报文的重排序 。 2] 文献[ 提出了并行入侵检测系统( nIDS ) 的负载均衡算 法, 该算法给每个 IDS 探测器设置了一个数据包接收区间, 通 过对数据包目的 IP 地址做散列( Hash ) 运算, 把数据包映射到 某个探测器的接收区间内, 根据探测器的处理能力和负载调节 各个探测器接收区间的宽度, 从而合理分配各个探测器上的网 络流量, 充分利用所有探测器的计算资源 。 3]中 Shi Weiguang 等 人 分 析 网 络 流 量 分 布 符 合 文献[
基金项目: 国家科技支撑计划基金资助项目( 2007BAK34B02 )
作者简介: 王明定( 1977-) , 男, 陕西城固人, 硕士研究生, 主要研究方向为网络安全( wangmingding8@ 126. com ) ; 赵国鸿( 1965-) , 男, 研究员, 主要研究方向为高速网络安全监控; 陆华彪( 1983-) , 男, 博士研究生, 主要研究方向为入侵检测.
第 27 卷第 9 期 2010 年 9 月
计 算 机 应 用 研 究 Application Research of Computers
Vol. 27 No. 9 Sep. 2010
基于网络流量特性分析的高速入侵检测分流算法
王明定,赵国鸿,陆华彪
( 国防科学技术大学 计算机学院,长沙 410073 ) 摘
bLBM( t) = 1 -
2 ( ∑m i = 1 | L i ( t) | ) m 2 m∑ i = 1 | L i ( t ) |
处理的报文总数为 30 000 个, 缓冲区大小为 600 KB, 生成 模, 的报文序列与缓冲区队列长度关系如图 3 所示。
( 1)
定义 4 丢包率是指系统处理过程中丢弃的包数目与报文总 数的比值。设 drop( t) 为丢弃的报文序列, 则丢包率 PD( t) 为
Load balancing algorithm for highspeed IDS based on analysis of network traffic
WANG Ming-ding,ZHAO Guo-hong,LU Hua-biao
( School of Computer,National University of Defense Technology,Changsha 410073 ,China)
PD( t) = | drop( t) | / | P( t) | ( 2)
由图 3 可知, 基于四元组分流的结果是极不均匀的, 节点 的队列长度变化存在着很强的突发性, 在缓冲区资源有限的情 况下, 如取 128 KB( 图 3 中的虚线位置) , 基于静态 Hash 分流 将产生严重丢包。
3
3. 1
*
要: 通过分析高速网络流量的宏流特性和 Hash 突发性, 提出了基于自适应宏流的 HASLF 分流算法。 模拟
验证表明该算法具有流破坏率低、 负载均衡度小、 丢包率极小的特点, 符合高速入侵检测的分流要求, 具有较高 的应用价值。 关键词: 高速入侵检测; 自适应宏流; 丢包率; 流破坏率 中图分类号: TP309 文献标志码: A 文章编号: 1001-3695 ( 2010 ) 09-3484-03 doi: 10. 3969 / j. issn. 1001-3695. 2010. 09. 076
1
相关研究
从网络流量特性方面研究 对高速环境下的分流问题研究不够, 3, 4, 7] 。 本文通过研 入侵检测分流的更少, 相关研究如文献[ — —宏流特性和 Hash 突发 究发现高速网络流量具有两种特性 — 基于这两种特性提出了宏流自适应 HASLF ( hash adapting 性, by selfadaptive large flow) 入侵检测负载均衡算法, 能较好地满 足高速入侵检测的分流要求 。
流量 CHIC KSCY
生成的满负荷流量特性
流数目 344 682 336 488 TCP 比例 / Byte 65. 47% 71. 70%
速率 / Gbps 38. 090 38. 539
3. 2
网络流量特性
网络流量特性分析是开展多项研究工作的基础, 相关研究 4, 10 , 11] 如文献[ 等, 但以入侵检测中的分流问题为应用背景 的并不多见, 为此笔者作了进一步的深入研究, 发现网络流量 — —宏流特性和 Hash 突发性。 具有两种特性— 1 ) 宏流特性 宏流特性是指在一定的检测周期内, 极少数宏流在总体网 络流量中占很大比例的特性 。分别对上述三个网络流量 trace 中的宏流数进行统计, 检测周期为 50 000 个报文, 阈值范围为 5 000 ~ 800 000 Byte, 阈值依次增大, 对每个周期的宏流数取平 均值, 发现 IP 流的数量呈指数减小的趋势 。 宏流数目均值与 流大小大致呈双曲线分布, 如图 1 所示。 取流大小大于 50 000 Byte 的流( 宏流) 统计其流量, 发现 这些流的流量占到了总流量的 76. 4% , 而其在流数目中所占 的比例仅为 0. 65% 。 即宏流数目虽少, 但其在整个流中所点 的比重却很大。 统计 10 个周期内宏流所占比重
Zipf’ s Law, 提出了在转发引擎( FE) 之间调节极大流( 流量中流 量最大的前几个流) 的 SHI 算法。将流量分为两类: 极大流和普 通流。不均衡时, 将属于极大流的报文散射到负载最轻的 FE。 4] 文献[ 分析了高速网络的流量特性, 并提出了基于较大 流调整的安全分流算法 。 重于研究动态调整的策略 、 流量的具体分割方法等 现有的入侵检测负载均衡算法多基于低网速环境设计, 偏 [1 , 2, 5, 6 ] , 而
网络流量特性分析
网络流量获取
4
[9 ] 采用美国国家网络应用研究实验室 NLANR PMA 组采 集于 Internet2 实验网上的真实 trace 数据。 各个 trace 简要描
H ASLF 算法
宏流自适应 HASLF 分流算法基于高速网络流量的宏流特 性和 Hash 突发性而设计, 具有极低的丢包率、 流破坏数和负载 符合高速入侵检测分流的要求 。 均衡度, 4. 1 基本思想 HASLF 算法基本框图如图 4 所示, 由静态 Hash 和动态调 整两部分组成。当任意缓冲区占用率超过设定阈值 ( 即该端 口过载) 且当前流为宏流时, 即起动动态调整机制, 将过载端 口的流量调整到负载最轻的节点, 否则由四元组 Hash 的结果 作为端口号分流数据。动态调整以数目极少的宏流为对象, 可 — —宏 有效降低流破坏率; 调整的强度与宏流检测阈值成反比 — 流检测阈值越小, 当前流被识别为宏流并进行动态迁移的概率 产生丢包的可能性就越小 。宏流检测阈值与缓冲区占 就越大, 用率为负反馈关系, 以便于及时地吸收突发流量 。负载的检测 宏流检测采用周期检测 。 采用基于每个报文的实时检测,
述如下: a ) IPLSCHIC, 链 路 为 美 国 Indianapolis 到 Chicago 的 OC192 , 长度为 10 min, 采样时间为 2004 年 8 月 19 日; b) IPLSKSCY, 链路为 美 国 Indianapolis 到 Kansas City 的 OC192 , 长度为 10 min, 采样时间为 2004 年 8 月 19 日。 采用 Maria Gabrani 等人提出的时间压缩和顺序连接的方 法构造满负荷( 95% 以上的链路带宽利用率) 的 OC768 综合流 KSCY, 量, 分别生成满负荷流量 CHIC、 流量特性如表 1 所示, 每个 trace 流量为 1 000 万个报文。 具体处理方法为: 对 IPLSIPLSKSCY 采用时间压缩的方法分别生成 OC768 综合 CHIC、 KSCY。 流量 CHIC、
收稿日期: 2010-01-27 ; 修回日期: 2010-03-05
2
算法的衡量指标
本文采用基于四元组( 源 / 目的 IP 地址、 源 / 目的端口号)
按十六位分组异或后散列的方法分流数据, 主要的性能衡量指 标有流破坏数、 丢包率和负载均衡度。 宏流是指在一定的检测周期内, 流量大于某一阈 如 50 000 个报文中流量大于 50 000 Byte 的流。 在这 值的流, 50 000 Byte 即是宏流检 里 50 000 个报文即是宏流检测周期, 测阈值。宏流在整个流中所占数目虽少, 但其所占的流量比重 却很大。 定义 2 流破坏数是指被破坏的流数目, 如果一条流的部 分报文已分配到一个处理节点, 在动态调整时调整到另一个处 理节点, 则称这条流被破坏。 定义 1
由于链路速度以指数方式增长, 高速入侵检测正成为入侵 。 检测研究的热点和难点 高速入侵检测的最大困难就是入侵 检测系统的处理速度瓶颈, 为解决这一难题必须采用基于多台 检测器的并行入侵检测, 而负载均衡算法的设计是并行入侵检 。 测的关键 算法必须最小化破坏攻击上下文且尽量均衡分流, 如此才能保证检测器检测的准确性和完整性, 对此国内外进行 了大量研究并提出了多种并行入侵检测负载均衡算法 。
Abstract: By analyzing the characteristics of the large flow and Hash burst of high speed network traffic, this paper proposed the HASLF( hash adapting by selfadaptive large flow) load balancing algorithm for highspeed IDS. Simulation validates that HASLF algorithm distributes the bytes of load in a balanced way,disrupts flows at low rate,discards packets at very low rate, and satisfies the demand of load balancing of highspeed IDS,has a high value of application. Key words: highspeed IDS; selfadaptive large flow; rate of packets discarding; flowdisruption rate
第9Fra Baidu bibliotek期
定义 3
王明定, 等: 基于网络流量特性分析的高速入侵检测分流算法
· 3485·
负载均衡度是指网络流量在处理节点之间的分 配量比值与处理节点之间处理能力比例的差异程度 。 负载均 衡度越小, 负载均衡性越好。本文假设各个节点的处理能力相 所以网络流量在各处理节点的分配差异就直接决定了负载 同, 8]定义位流负载均衡度 bLBM ( t ) 均衡度的大小。根据文献[ ( 式( 1 ) ) 。其中, P i ( t) 表示系统已处理的报文序列 P ( t ) 中被 2, …, m ) 处理的报文序列; | | 表示序列集的 处理节点 i( i = 1 , 元素个数, 即 | L i ( t ) | 表示 P i ( t ) 中所有报文的字节总数; m 为 处理节点数目。
1] 文献[ 中 Kruegel 等人提出了一种层次交换并行检测结 构, 将流量划分为两层, 第一层流量散射器( scatterer) 将从主干 链路分接口来的流量进行简单处理, 散射成多个较低速的链 路, 发送给第二层流量切片器( slicers ) ; 流量切片器将流量按 照攻击场景将属于同一个攻击场景的流量分给后端同一个 IDS sensor 组。作者认为流量散射器必须足够简单以满足线速 处理高速主干流量, 文中采用 round robin 方式分配流量, 因此 当同一个攻击上下文的报文到达 IDS sensor 组时会造成很多 报文乱 序, 在 每 个 IDS sensor 组 有 重 排 序 缓 冲 器 ( reassemblers) , 完成乱序报文的重排序 。 2] 文献[ 提出了并行入侵检测系统( nIDS ) 的负载均衡算 法, 该算法给每个 IDS 探测器设置了一个数据包接收区间, 通 过对数据包目的 IP 地址做散列( Hash ) 运算, 把数据包映射到 某个探测器的接收区间内, 根据探测器的处理能力和负载调节 各个探测器接收区间的宽度, 从而合理分配各个探测器上的网 络流量, 充分利用所有探测器的计算资源 。 3]中 Shi Weiguang 等 人 分 析 网 络 流 量 分 布 符 合 文献[
基金项目: 国家科技支撑计划基金资助项目( 2007BAK34B02 )
作者简介: 王明定( 1977-) , 男, 陕西城固人, 硕士研究生, 主要研究方向为网络安全( wangmingding8@ 126. com ) ; 赵国鸿( 1965-) , 男, 研究员, 主要研究方向为高速网络安全监控; 陆华彪( 1983-) , 男, 博士研究生, 主要研究方向为入侵检测.
第 27 卷第 9 期 2010 年 9 月
计 算 机 应 用 研 究 Application Research of Computers
Vol. 27 No. 9 Sep. 2010
基于网络流量特性分析的高速入侵检测分流算法
王明定,赵国鸿,陆华彪
( 国防科学技术大学 计算机学院,长沙 410073 ) 摘
bLBM( t) = 1 -
2 ( ∑m i = 1 | L i ( t) | ) m 2 m∑ i = 1 | L i ( t ) |
处理的报文总数为 30 000 个, 缓冲区大小为 600 KB, 生成 模, 的报文序列与缓冲区队列长度关系如图 3 所示。
( 1)
定义 4 丢包率是指系统处理过程中丢弃的包数目与报文总 数的比值。设 drop( t) 为丢弃的报文序列, 则丢包率 PD( t) 为
Load balancing algorithm for highspeed IDS based on analysis of network traffic
WANG Ming-ding,ZHAO Guo-hong,LU Hua-biao
( School of Computer,National University of Defense Technology,Changsha 410073 ,China)
PD( t) = | drop( t) | / | P( t) | ( 2)
由图 3 可知, 基于四元组分流的结果是极不均匀的, 节点 的队列长度变化存在着很强的突发性, 在缓冲区资源有限的情 况下, 如取 128 KB( 图 3 中的虚线位置) , 基于静态 Hash 分流 将产生严重丢包。
3
3. 1
*
要: 通过分析高速网络流量的宏流特性和 Hash 突发性, 提出了基于自适应宏流的 HASLF 分流算法。 模拟
验证表明该算法具有流破坏率低、 负载均衡度小、 丢包率极小的特点, 符合高速入侵检测的分流要求, 具有较高 的应用价值。 关键词: 高速入侵检测; 自适应宏流; 丢包率; 流破坏率 中图分类号: TP309 文献标志码: A 文章编号: 1001-3695 ( 2010 ) 09-3484-03 doi: 10. 3969 / j. issn. 1001-3695. 2010. 09. 076
1
相关研究
从网络流量特性方面研究 对高速环境下的分流问题研究不够, 3, 4, 7] 。 本文通过研 入侵检测分流的更少, 相关研究如文献[ — —宏流特性和 Hash 突发 究发现高速网络流量具有两种特性 — 基于这两种特性提出了宏流自适应 HASLF ( hash adapting 性, by selfadaptive large flow) 入侵检测负载均衡算法, 能较好地满 足高速入侵检测的分流要求 。