网络流量模型及分析(最终思路)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
结论:当多个独立同分布的 ON/OFF 数据源流量叠加时, 如果 ON 状态或者 OFF 状态的持续时间服从重尾分布, 那么叠加流量将具有自相似性[39]
重尾分布的ON/OFF模型
优点 • 可以解释产生自相似的部分原因,有助于深入地了解自相似的
本质 缺点 • 各个源端必须是独立同分布的,且输出速率为常数 • 与实际网络业务不符,适用范围受限
M/G/∞排队模型
•M:顾客到达时间间隔,呈指数分布(改进后为泊松分布) •G:顾客的服务时间,服从帕累托Pareto分布(重尾分布) •∞:服务器数量,无限大 •适用于视频流量模型
M/G/∞排队模型
优点 • 排队系统的角度解释网络流量产生自相似的原因 • 适合于分析自相似网络流量输入时的排队性能 缺点 • 假设服务器一直处于忙碌中,对网络流量的突发性描
个端口来实现对网络监听 要监听所有流量,难度巨大,性能要求高
四种流量采集技术的比较
NetFlow:
对主机间流量描述精确性接近100%,但是无法做深度检测 基于软件架构,配置方便、安装简单 利用汇集方式监测,适用于广域网间
sFlow:
速度快,实时性好 分析过程对性能有一定要求 利用随机采样方式监测,适用于局域网间
网络流量-测量
主动
被动
向目标链路或目 标节点发送探测

测量延迟、带宽、 丢包率
接入网络的测量 探针
监测、记录网络 上的数据情况
主动测量会额外注 入流量,被动测量 涉及安全性与私密
性问题
主动测量确定网络 整体性能,被动测
量故障定位!
理想的网络测量
不影响数据包 转发的速度
速度
完整的流量监 控
完整
资源
网络流量的特点
自相似性 长相关性
周期性 突发性 混沌性
采集自台湾地区的台中教育大学网络主节点服务器Incming artides 共计71天的每小时网络流量数据图
自相似性
局部结构与总体结构相比具有某种程度的一致性 种类
确定自相似性 随机自相似性(网络流量)
赫斯特指数(Hurst)
占用资源少
安全
不会泄露用户 的隐私
网络测量的意义
Internet流量工程和网络行为学的研究的依据 开发高性能网络设备和设计网络协议的理论基础 开展Qos敏感应用提供Qos保证的前提条件 诊断网络的运行状况,进行更好的管理 保障网络安全,防范网络攻击 运营商针对网络流量进行业务上的收费
泊松(Poisson)模型
泊松(Poisson)模型
前提:
假设网络事件(如数据包到达)是独立分布的 只与一个单一的速率参数λ有关.
泊松(Poisson)模型
优点 • 较好地满足了早期网络的建模需求 • 在网络设计、维护、管理和性能分析等方面发挥了很大的作用。 缺点 • 根据泊松流量模型,从不同的数据源汇聚的网络流量将随着数
不同时间的状态转换是互不相关的 当0.5<H<1时,表示正相关,即具有自相似性
维持高值的趋势会持续一段时间(平滑曲线)
不同H的分形布朗运动轨迹
长相关性与自相似性
长相关:反映了自相似过程中的持续现象,即突发 特性在所有的时间尺度上都存在的现象
两者联系: H≠1/2的稳定自相似随机过程是长相关的,但 长相关过程不一定就是自相似的。 自相似性偏重于数学表述上的,长相关时侧重 于业务量的统计特性。
马尔可夫过程-实例
青蛙跳荷叶
贪吃蛇的两种规则
33
马尔科夫(Markov)模型
优点 • 在随机过程中引入了相关性,可以在一定程度上捕获业务的突
发性 • 马尔科夫方法是一种具有无后效性的随机过程,用途十分广泛 缺点 • 只能预测网络的近期流量,而且无法描述网络的长相关性
传统模型的缺点
实际的数据包和大部分连接的到达是相关联的, 并不严格服从泊松分布
RMON/SNMP:
信息准确,读取方便 对每个数据帧都会进行分析,增加负载
端口镜像
方案简单,无传输延迟 处理时性能要求高
网络流量建模原则
以流量的重要特性为出发点 设计流量模型以刻画实际流量的突出特性 进行数学上的研究
参考文献:Internet流量模型分析与评述_张宾,杨家海,吴建平
确定自相似性示例
自相似性-从分布的角度定义
参考文献:基于时间相关的网络流量建模与预测研究_高波
自相似性-赫斯特指数(Hurst)
表征自相似特性的一个重要参数 当0<H<0.5时,表示负相关,即不具备自相似性
高低值交替的趋势持续一段时间(粗糙曲线) 当H=0.5时,随机过程呈现为某种“随机游走”状态,即
流量模型的 新发展
泊松模型 马尔科夫模型 回归模型
重尾分布的ON/OFF模型 基于神经网络的模型
M/G/∞排队模型 FBM/FGN模型
多分形模型
自相似(长相关)模型
构造建模(物理模型),利用已知的传输知识解释所观察到的数据 特征: (重尾分布的)ON/OFF模型 M/G/∞排队模型
行为建模(统计模型),用数据拟合方法模拟所测真实数据的变化 趋势: FBM/FGN模型 FARIMA模型 基于小波的模型
参考文献:基于时间相关的网络流量建模与预测研究_高波
ON/OFF模型
ON/OFF模型
ON/OFF模型:
每个发送源都有两个周期交替的ON和OFF状态,即 发送数据状态和不发送数据状态
:发送数据包的速率
重尾分布
重尾分布:一种比正态分布还要广泛的的随机变量分 布,体现在少量个体做出大量贡献
泊松(Poisson)模型 马尔可夫(Markov)模型 回归(regression)模型
泊松(Poisson)模型
时间序列t内,包到达的数量n(t)符合参数为λt 的泊松分布:
时间间隔序列T呈负指数分布:
λ(泊松过程的强度):单位时间间隔内出现包的数量的期望,即包到 达的平均速率
NetFlow
将数据报文聚类,汇聚成流,置于缓存中 转发的时候对于属于同一个流的连续包,后续
报文不做三层处理 同步实现对高速转发的IP数据流的测量和统计 集成在路由器中
NetFlow Analyzer
sFlow
采用数据流随机采样技术,详 细、实时地分析网络流的性能、 趋势以及存在问题
流量模型的发展历程
20时期70年代 -1994年
传统模型 (短相关)
1994年 -2004年
自相似模型 (长相关)
2004 年泊松回归引发的争论 至今
流量模型的 新发展
泊松模型 马尔科夫模型 回归模型
重尾分布的ON/OFF模型 基于神经网络的模型
M/G/∞排队模型 FBM/FGN模型
多分形模型
传统(短相关)模型
讨论各源之间相关性与合成流量长相关性的关系
2、建立基于 ON/OFF 模型的具有趋同性的新网络 流量模型。
3、使用归一化子协方差函数和Hurst参数验证
理论验证
假设 ON/OFF 模型中有 N 个 ON/OFF 源,每 个 ON/OFF 源产生的流量分别是 X1(m)、 X2(m)、……、XN(m),其中 m 为整数离散时间, m 0。这 N 个源生成流量的合成流量 X(m)为:
据源的增加而日益平滑,这与实际测试的流量是不符合的。
马尔科夫(Markov)模型
对于一个给定的状态空间 S {s1, s2 ,..., sm} , {X n} 表示
在n 时刻状态的随机变量,如果 X n1 s j 的概率只依赖 于当前的状态,{X n}就形成了一个Markov链
只有当前的状态用来预测将来, 过去对于预测将来是无关的
网络流量模型及分析
1
我们的工作
1
2
3
4
网络流量相关概念
网络流量
概念 分类 测量
网络流量的特点
自相似性 长相关性 周期性、突发性、混沌性………
网络流量-概念
网络流量就是网络上传输的数据量
单位时间内通过网络设备或者传输介质的信息量
报文数 数据包数 字节数
结论1:当 ON/OFF 结构模型满足独立同分布、 ON 周期或 OFF 周期持续时间呈轻尾分布时,源 产生的流量具有短相关性质
当On或者Off持续周期不独立
各个源产生流量的自协方差函数与互协方差函数
说明:由于各个源之间不独立,因此第二项必不 为零
结论2:单个流量之间的互协方差是否可加将直接 决定聚合流量自协方差函数是否可加,即各源生 成流量之间的互相关性的强弱决定了合成流量自 协方差的可加性
Pareto法则(80/20法则):最重要的通常只占其中一小部 分
直观特征:大头短 + 小尾长。
帕累托分布(Pareto)
在重尾分布当中,Pareto 分布是相对简单的一种分 布,令参数 a>0,k>0,则 Pareto 分布概率密度函 数 f(x)是如下描述的分段函数
帕累托分布(Pareto)
述方面存在不足
ON/OFF模型
最早由 B. Mandelbrot 和 J. M. Berger两人于上 世纪六十年代在有酬更新过程(reward renewal process)的基础之上构造出来,随后Taqqu 和 Levy扩展了该模型的构造方法。
实质:将大量的ON/OFF 数据源生成的流量叠加 在一起
流量自相似性反映业务在较大时间尺度具有突发 性,对缓存的占用较大,导致更大的延时
当业务源数目增加时,突发性会被吸收,聚合业务 会变得越来越平滑,但却忽略了流量的突发性
流量模型的发展历程
20时期70年代 -1994年
传统模型 (短相关)
1994年 -2004年
自相似模型 (长相关)
2004 年泊松回归引发的争论 至今
SNMP&MIB
SNMP(简单网络管理协议)体系结构
被管理的设备 SNMP管理器 SNMP代理
SNMP与MIB
MIB(管理信息数据库)
树形结构 包含了管理代理中的有关
配合和性能的数据 对管理信息进行读写操作
就可以完成管理
端口镜像
无损复制、镜像采集 配置交换机或路由器把一个或者多个端口的数据转发到某一
C-ON/OFF模型
C,即Convergence,表示趋同性
网络趋同性说明:以往的 ON/OFF 模型中对于
各个 ON/OFF 源之间独立同分布的假设变得
不切实际,导致 ON/OFF 模型生成流量的合成 流量的自相关函数并不满足实际网络流量的长相 关特性
实验步骤
1、根据 Internet 中广泛存在的趋同性改进现有 的 ON/OFF 模型,使各源之间具有一定的相关性,
收集到的数据通过sFlow代理进 行编码,转交给中心采集器 (已植入设备中)
不仅可以对数据包进行IP层分 析还可以进行二层分析处理
RMON
Remote Network Monitoring
SNMP MIB
两种方法收集数据
通过RMON探测器,网管工作站直接获取全部MIB信息,并控制资源 将RMON代理植入网络设备,网管工作站用SNMP交换数据
周期性、混沌性、突发性
周期性
反映了网络流量时间序列表现出随时间的规律变化
混沌性
在确定性系统中出现的一种类似随机的现象
突发性
业务量在某一时刻或者一段时间内变化悬殊
网络流量的采集方法[6]
NetFlow sFlow RMON 端口镜像
参考文献:网络流量分析关键技术研究__任春梅
设 n 为时间间隔,n 为大于等于零的整数,那么, X(m)的自相关函数为:
一系列数学推导
N 个独立同分布 ON/OFF 源的合成流量的自协 方差函数与每个源流量自协方差函数的关ห้องสมุดไป่ตู้:
其中c(n)是合成流量的自协方差函数,ci(n)是每个 源流量的自协方差
结论1
V. Paxson 等人[34]指出,ON 周期或 OFF 周期 的持续时间具有轻尾分布的 ON/OFF 模型在独 立同分布条件下产生的合成流量是短相关流量
网络流量-分类
Packet-level 的流量分类 • 关注数据包(packet)的特征及其到达过程
广

Flow-level的 • 由源IP地址、源端口、目的IP地址、目的端口、应用协议组成
使
流量分类
的五元组

Streamlevel的流量
分类
• 由源IP地址、目的IP地址、应用协议组成的三元组
上述三种分类方法,流量的粒度由小到大递增。 参考文献:Internet流量模型分析与评述_张宾,杨家海,吴建平
相关文档
最新文档