许老师学生组-网络流量模型及分析(最终思路)bysophia
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
个端口来实现对网络监听
要监听所有流量,难度巨大,性能要求高
四种流量采集技术的比较
NetFlow:
sFlow:
对主机间流量描述精确性接近100%,但是无法做深度检测 基于软件架构,配置方便、安装简单 利用汇集方式监测,适用于广域网间
速度快,实时性好 分析过程对性能有一定要求 利用随机采样方式监测,适用于局域网间 信息准确,读取方便 对每个数据帧都会进行分析,增加负载
只有当前的状态用来预测将来, 过去对于预测将来是无关的
马尔可夫过程-实例
贪吃蛇的两种规则
青蛙跳荷叶
33
马尔科夫(Markov)模型
优点
• 在随机过程中引入了相关性,可以在一定程度上捕获业务的突 发性
• 马尔科夫方法是一种具有无后效性的随机过程,用途十分广泛
缺点
• 只能预测网络的近期流量,而且无法描述网络的长相关性
不仅可以对数据包进行IP层分 析还可以进行二层分析处理
RMON
Remote Network Monitoring
SNMP MIB
两种方法收集数据
通过RMON探测器,网管工作站直接获取全部MIB信息,并控制资源 将RMON代理植入网络设备,网管工作站用SNMP交换数据
SNMP&MIB
上述三种分类方法,流量的粒度由小到大递增。
参考文献:Internet流量模型分析与评述_张宾,杨家海,吴建平
网络流量-测量
主动
被动
主动测量会额外注 入流量,被动测量 涉及安全性与私密
向目标链路或目 标节点发送探测 包
接入网络的测量 探针 监测、记录网络 上的数据情况
性问题
测量延迟、带宽、
主动测量确定网络
报文数 数据包数 字节数
网络流量-分类
Packet-level 的流量分类
广 泛 使 用 • 关注数据包(packet)的特征及其到达过程
Flow-level的 流量分类 Streamlevel的流量 分类
• 由源IP地址、源端口、目的IP地址、目的端口、应用协议组成 的五元组
• 由源IP地址、目的IP地址、应用协议组成的三元组
将数据报文聚类,汇聚成流,置于缓存中
转发的时候对于属于同一个流的连续包,后续
报文不做三层处理
同步实现对高速转发的IP数据流的测量和统计
集成在路由器中
NetFlow Analyzer
sFlow
采用数据流随机采样技术,详 细、实时地分析网络流的性能、
趋势以及存在问题
收集到的数据通过sFlow代理进 行编码,转交给中心采集器 (已植入设备中)
实验步骤
1、根据 Internet 中广泛存在的趋同性改进现有 的 ON/OFF 模型,使各源之间具有一定的相关性, 讨论各源之间相关性与合成流量长相关性的关系 2、建立基于 ON/OFF 模型的具有趋同性的新网络 流量模型。 3、使用归一化子协方差函数和Hurst参数验证
理论验证
假设 ON/OFF 模型中有 N 个 ON/OFF 源,每 个 ON/OFF 源产生的流量分别是 X1(m)、 X2(m)、……、XN(m),其中 m 为整数离散时间, m 0。这 N 个源生成流量的合成流量 X(m)为:
M/G/∞排队模型
行为建模(统计模型),用数据拟合方法模拟所测真实数据的变化 趋势:
FBM/FGN模型
FARIMA模型 基于小波的模型
M/G/∞排队模型
•M:顾客到达时间间隔,呈指数分布(改进后为泊松分布) •G:顾客的服务时间,服从帕累托Pareto分布(重尾分布) •∞:服务器数量,无限大
周期性、混沌性、突发性
周期性
反映了网络流量时间序列表现出随时间的规律变化
混沌性
在确定性系统中出现的一种类似随机的现象
突发性
业务量在某一时刻或者一段时间内变化悬殊
网络流量的采集方法[6]
NetFlow sFlow
RMON
端口镜像
参考文献:网络流量分析关键技术研究__任春梅
NetFlow
传统模型
自相似模型
(短相关)
泊松模型 马尔科夫模型 回归模型
(长相关)
重尾分布的ON/OFF模型 M/G/∞排队模型 FBM/FGN模型
流量模型的 新发展
基于神经网络的模型 多分形模型
传统(短相关)模型
泊松(Poisson)模型
马尔可夫(Markov)模型 回归(regression)模型
泊松(Poisson)模型
整体性能,被动测 量故障定位!
丢包率
理想的网络测量
不影响数据包 转发的速度
速度
完整的流量监 控
完整
资源
安全
占用资源少
不会泄露用户 的隐私
网络测量的意义
Internet流量工程和网络行为学的研究的依据
开发高性能网络设备和设计网络协议的理论基础
开展Qos敏感应用提供Qos保证的前提条件 诊断网络的运行状况,进行更好的管理 保障网络安全,防范网络攻击 运营商针对网络流量进行业务上的收费
传统模型的缺点
实际的数据包和大部分连接的到达是相关联的, 并不严格服从泊松分布 流量自相似性反映业务在较大时间尺度具有突发 性,对缓存的占用较大,导致更大的延时 当业务源数目增加时,突发性会被吸收,聚合业务 会变得越来越平滑,但却忽略了流量的突发性
流量模型的发展历程
20时期70年代 -1994年 1994年 -2004年 2004 年泊松回归引发的争论 至今
网络流量模型及分析
沈佳照、梁俊杰、王嘉欣、滕菲、姚佳文
2018/11/29
1
我们的工作
1
2
3
4
网络流量相关概念
网络流量
概念 分类 测量 自相似性 长相关性 周期性、突发性、混沌性………
网络流量的特点
网络流量-概念
网络流量就是网络上传输的数据量
单位时间内通过网络设备或者传输介质的信息量
设 n 为时间间隔,n 为大于等于零的整数,那么, X(m)的自相关函数为:
一系列数学推导
N 个独立同分布 ON/OFF 源的合成流量的自协 方差函数与每个源流量自协方差函数的关系:
其中c(n)是合成流量的自协方差函数,ci(n)是每个 源流量的自协方差
结论1
V. Paxson 等人[34]指出,ON 周期或 OFF 周期 的持续时间具有轻尾分布的 ON/OFF 模型在独 立同分布条件下产生的合成流量是短相关流量 结论1:当 ON/OFF 结构模型满足独立同分布、 ON 周期或 OFF 周期持续时间呈轻尾分布时,源 产生的流量具有短相关性质
Pareto法则(80/20法则):最重要的通常只占其中一小部 分
直观特征:大头短 + 小尾长。
帕累托分布(Pareto)
在重尾分布当中,Pareto 分布是相对简单的一种分 布,令参数 a>0,k>0,则 Pareto 分布概率密度函 数 f(x)是如下描述的分段函数
帕累托分布(Pareto)
RMON/SNMP:
端口镜像
方案简单,无传输延迟 处理时性能要求高
网络流量建模原则
以流量的重要特性为出发点
设计流量模型以刻画实际流量的突出特性 进行数学上的研究
参考文献:Internet流量模型分析与评述_张宾,杨家海,吴建平
流量模型的发展历程
20时期70年代 -1994年 1994年 -2004年 2004 年泊松回归引发的争论 至今
网络流量的特点
自相似性 长相关性
周期性 突发性 混沌性
采集自台湾地区的台中教育大学网络主节点服务器Incming artides 共计71天的每小时网络流量数据图
自相似性
局部结构与总体结构相比具有某种程度的一致性
种类百度文库
确定自相似性
随机自相似性(网络流量)
赫斯特指数(Hurst)
泊松(Poisson)模型
优点 • 较好地满足了早期网络的建模需求 • 在网络设计、维护、管理和性能分析等方面发挥了很大的作用。 缺点 • 根据泊松流量模型,从不同的数据源汇聚的网络流量将随着数
据源的增加而日益平滑,这与实际测试的流量是不符合的。
马尔科夫(Markov)模型
对于一个给定的状态空间 S {s1 , s2 ,...,sm} , { X n } 表示 在n 时刻状态的随机变量,如果 X n1 s j 的概率只依赖 于当前的状态, { X n }就形成了一个Markov链
2. 3.
当 ON/OFF 结构模型满足独立同分布、ON 周 期或 OFF 周期持续时间呈轻尾分布时,源产生 的流量具有短相关性质 只要满足独立同重尾分布这个条件,无论单个流 量还是合成流量都是长相关流量 如果各源之间不独立,具有一定相关性,那么, 对于重尾分布来说,合成流量必然长相关
时间序列t内,包到达的数量n(t)符合参数为λt 的泊松分布:
时间间隔序列T呈负指数分布:
λ(泊松过程的强度):单位时间间隔内出现包的数量的期望,即包到 达的平均速率
泊松(Poisson)模型
泊松(Poisson)模型
前提:
假设网络事件(如数据包到达)是独立分布的 只与一个单一的速率参数λ有关.
不同时间的状态转换是互不相关的 当0.5<H<1时,表示正相关,即具有自相似性
维持高值的趋势会持续一段时间(平滑曲线)
不同H的分形布朗运动轨迹
长相关性与自相似性
长相关:反映了自相似过程中的持续现象,即突发 特性在所有的时间尺度上都存在的现象 两者联系: H≠1/2的稳定自相似随机过程是长相关的,但 长相关过程不一定就是自相似的。 自相似性偏重于数学表述上的,长相关时侧重 于业务量的统计特性。
• 与实际网络业务不符,适用范围受限
C-ON/OFF模型
C,即Convergence,表示趋同性
网络趋同性说明:以往的 ON/OFF 模型中对于 各个 ON/OFF 源之间独立同分布的假设变得 不切实际,导致 ON/OFF 模型生成流量的合成 流量的自相关函数并不满足实际网络流量的长相 关特性
•适用于视频流量模型
M/G/∞排队模型
优点 • 排队系统的角度解释网络流量产生自相似的原因 • 适合于分析自相似网络流量输入时的排队性能 缺点 • 假设服务器一直处于忙碌中,对网络流量的突发性描 述方面存在不足
ON/OFF模型
最早由 B. Mandelbrot 和 J. M. Berger两人于上 世纪六十年代在有酬更新过程(reward renewal process)的基础之上构造出来,随后Taqqu 和 Levy扩展了该模型的构造方法。
实质:将大量的ON/OFF 数据源生成的流量叠加 在一起
参考文献:基于时间相关的网络流量建模与预测研究_高波
ON/OFF模型
ON/OFF模型
ON/OFF模型:
每个发送源都有两个周期交替的ON和OFF状态,即 发送数据状态和不发送数据状态 :发送数据包的速率
重尾分布
重尾分布:一种比正态分布还要广泛的的随机变量分 布,体现在少量个体做出大量贡献
传统模型
自相似模型
(短相关)
泊松模型 马尔科夫模型 回归模型
(长相关)
重尾分布的ON/OFF模型 M/G/∞排队模型 FBM/FGN模型
流量模型的 新发展
基于神经网络的模型 多分形模型
自相似(长相关)模型
构造建模(物理模型),利用已知的传输知识解释所观察到的数据 特征:
(重尾分布的)ON/OFF模型
确定自相似性示例
自相似性-从分布的角度定义
参考文献:基于时间相关的网络流量建模与预测研究_高波
自相似性-赫斯特指数(Hurst)
表征自相似特性的一个重要参数
当0<H<0.5时,表示负相关,即不具备自相似性
高低值交替的趋势持续一段时间(粗糙曲线)
当H=0.5时,随机过程呈现为某种“随机游走”状态,即
结论:当多个独立同分布的 ON/OFF 数据源流量叠加时, 如果 ON 状态或者 OFF 状态的持续时间服从重尾分布, 那么叠加流量将具有自相似性[39]
重尾分布的ON/OFF模型
优点 • 可以解释产生自相似的部分原因,有助于深入地了解自相似的 本质 缺点 • 各个源端必须是独立同分布的,且输出速率为常数
SNMP(简单网络管理协议)体系结构
被管理的设备
SNMP管理器
SNMP代理
SNMP与MIB
MIB(管理信息数据库)
树形结构
包含了管理代理中的有关
配合和性能的数据
对管理信息进行读写操作 就可以完成管理
端口镜像
无损复制、镜像采集 配置交换机或路由器把一个或者多个端口的数据转发到某一
当On或者Off持续周期不独立
各个源产生流量的自协方差函数与互协方差函数
说明:由于各个源之间不独立,因此第二项必不 为零 结论2:单个流量之间的互协方差是否可加将直接 决定聚合流量自协方差函数是否可加,即各源生 成流量之间的互相关性的强弱决定了合成流量自 协方差的可加性
理论论证之结论
1.