网络流量自相似特性
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
<ρ<1)
– 0<∑k r(k)<∞ – var(X(m))~bm-1, m→∞
13
自相似的数学描述
如何测度自相似
数学定义针对无限长度的时间序列 实际中仅仅一段时间的取样,保证取样点足够多
Total number of bytes 11,448,753,134 14,774,694,236 7,112,417,589 6,585,335,731 Total number of packets 27,901,984 27,915,376 27,954,961 27,674,814 Ethernet utilization 9.30% 15.70% 3.90%
X=(Xt: t=0,1,2,3…)
Xk(m) =1/m(Xkm-m+1+ …+Xkm),k=1, 2, 3, …
6
自相似的数学描述
• 自相似(Exactly second order) self-similar
– X(m)的自相关函数r(m)满足:r(m)(k)=r(k),对所有m=1, 2, … (k=1, 2, 3, …)
21
产生自相似的原因
• 若文件大小符合重 尾分布,则对应的 文件传输均导致链 路层的自相似性, Web、NFS、FTP等
(Purdue University, Boston University, 1996, NS模拟)
• 上述情况似乎都可 以从ON/OFF模型找 到解释的理由
22
产生自相似的原因
8
自相似的数学描述
• 自相似的特性
– 长相关(LRD—long range dependence、large scale correlation、long term correlation )
• 长相关定义—若一个随机过程满足自相似的条件1和条件2,即其自相 关函数随时滞的增加呈双曲线衰减(幂律衰减),则该随机过程呈现 长相关性 • 长相关≠自相似,自相似是长相关的特例/简单模型 • 不可和性,即∑k r(k)=∞。不可和性的物理意义在于高滞后的相关虽 然是个别的小量,但其累计的结果则十分重要 • 短相关过程(short-range dependence)自相关函数呈指数衰减,即 r(k)~ρk,当k→∞(0<ρ<1),其自相关函数是可和的,即0<∑k r(k)< ∞
9
自相似的数学描述
• 自相似的特性
– 慢衰减方差
• 自相似过程的方差满足var(X(m))~am-β,当 m→∞,其中0<β<1,a是与m无关的正常数, β与前条件2中β相同 • 短相关过程的方差满足var(X(m) )~bm-1,当 m→∞,其中b是与m无关的正常数 • 自相似过程的方差衰减要慢于短相关过程
23
产生自相似的原因
• 重 传 机 制 ( R e t ra n s m i s s i o n ) 产 生 自 相 似 特 性 (CMU,1997)
–模拟条件—输入是泊松到达(即,新数据包(不包括 重传的数据包)到达是一个简单的泊松过程),数据 包长度为常数,一个队列情况,先进先服务,无拥塞 控制的重传机制 –结论—当时间尺度超过10倍的数据包传输时间,重传 数据包流量的方差在总的流量(新数据包、重传数据 包和丢失的数据包)中占据绝大多数成分。 –即使改变重传机制的参数,如缓存大小、重传企图的 次数和超时时限,不能改变重传负载的自相似特性 24
• 对IP流量成分的进一步 分析
(Hungary, Budapest Uni. Of Tech.&Econo. 实际数据,2000)
–不 同 协 议 成 分 如 I P 、 I C M P、 TC P 、 U D P、 HTTP、SMTP、 FTPdata、FTPcontrol、 OSPF、Telnet,是否多 重分形(multifractal)和 分形(monofractal,即自
网络流量自相似特性
提纲
• • • • • • 问题提出 自相似的数学描述 产生自相似的原因 自相似对网络性能的影响 国内相关工作 可能的研究方向
www.czcsb.com超声波清洗机
2
问题提出
• 什么是自相似? • 为什么研究自相似? • 产生自相似的原因?
• 泊松过程—随机变量(单位时间呼叫到达的次数)是独 立的、且服从相似分布,即 • 马尔可夫模型—对过去具有有限记忆,即在已经知道 “现在”的条件下,其“将来”不依赖于“过去” • 时间t与过去时间t-s,若s足够大,则t与t-s时的业务量 是不相关的,即仅考虑s较小时业务到达间的相关性, 称之为短时相关Short Range Dependence—SRD模型 3
14
Measurement period August 1989 total(27.45 hours) October 1989 total(20.86 hours) January 1990 total(40.16 hours) February 1992
3.10%
自相似的数学描述
如何测度自相似
10
自相似的数学描述
• 自相似的特性
– Hurst效应
• H表示Hurst参数,自相关程度的度量 • 重新调制尺度权差(R/S)—对于一个给定的观 察序列X1, X2, X3 …..Xn,样本均值为X(n), 样本方差为S2(n),则R(n)/S(n)= 1/S(n)[max(0, W1, W2, …, Wn)-min(0, W1, W2, …, Wn)],其中Wk=(X1+X2+X3…..+Xk) -kX(n),k=1,2,3…n,R表示重新调整尺度 的极差
18
自相似的数学描述
• 网络流量的建模
– ON/OFF模型—叠加大量的ON/OFF源,每个源有两个 状态,即ON和OFF。在ON状态,以连续速率发送数据 包,在OFF状态,不发送数据包。每个发生源ON或 OFF的时长独立地符合重尾分布(Heavy-tailed distribution) –重尾分布—若一随机变量满足重尾分布,则P[X>x] ~ x - α ,当x→∞, 0<α<2。最简单的重尾分布是佩瑞多 (Pareto)分布,其概率密度函数为p(x)=αk α x -α-1 , α,k>0,x≥k,分布函数为F(x)=P[X≤x]=1-(k/x)α,当 α减小,大量的概率质量集中在分布的尾部 – H=(3-α)/2 19
产生自相似的原因
• TCP拥塞控制的浑沌特性(Ericsson,Traffic Analysis and Network Performance Lab. 2000)
–浑沌系统的特征:非线性(Nonlinearity)、确定性 (Determinism)、混乱中的有序(Order in disorder)、 对初始状态的敏感性(蝴蝶效应)(Sensitivity to initial conditions or the “butterfly effect”)、不可预见性 (Unpredictability) –模型(NS模拟):TCP Tahoe(Slow-Start、Congestion Avoidance、Fast Retransmit) –参数设置:link rate-C、delay-D、buffer size-B以及 25 TCP流的数量-N
Hurst赫斯特—英国的水文专家,长期从事尼罗河水坝工程研究 Mandelbrwk.baidu.comt曼德博罗—分形理论的创始人,美籍法国数学家
12
自相似的数学描述
• 自相似 – r(k) ~ k-βL1(k), k→∞(0<β<1),L1 是慢变函数 – ∑k r(k)=∞ – var(X(m))~am-β, m→∞(0<β<1) • 短相关 – r(k)~ρk,当k→∞(0
佩瑞多.韦尔福雷多(Pareto Vilfredo)意大利经济学家和社会学家
对流量自相似研究的三个方面
• 分析流量的特征,建模
– 小波分析(Discrete Wavelet Transform)和分形理论 – 分形和多重分形(Multifractal)模型 – “可信的”网络流量生成模型
• 产生流量自相似的原因 • 评估自相似流量对网络的影响
r(k)=E[(Xt-μ)(Xt+k-μ)]/E[(Xt-μ)2]
5
自相似的数学描述
• 自相似
– 条件1—针对一个平稳随机过程 – 条件2—其自相关函数满足r(k) ~ k-βL1(k),当k→∞,其中0<β<1, L1是慢变函数,即对所有x>0,limt→∞L1(tx)/L1(t)=1(常见的慢变 函数,如L1(t)=常数,L1(t)=㏒(t)) – 条件3-对X进行堆叠,堆叠产生的时间序列为X (m) =(X k (m) :k= 1,2,3 …),其中
H≈0.79
16
自相似的数学描述
• 如何测度自相似
– 基于周期图(Periodogram)的频域分析
• 协方差函数傅立叶变换功率谱 • 用周期图近似估计功率谱 • 从谱密度中找到参数H
17
自相似的数学描述
• 具备自相似的数学模型
– 自相似理论广泛地应用在水文和经济学领域 – 分形(分数)高斯噪声—fractional Gaussian noise FGN – 分形(分数)布朗运动—fractional Brownian motion FBM,是分形 高斯噪声的增量和过程 – 分形(分数)自回归滑动平均过程—fractional ARIMA processes AutoRegressive Integrated Moving-Average,渐进自相似过程
• 渐进自相似( Asymptotically second order) self-
similar
– X(m)的自相关函数r(m)满足:
r(m)(1)→21-β-1,当m→∞ r(m)(k)→1/2δ2(k2-β),当m→∞ (k=2, 3, …) δ 2 表示一个算子符,其作用于函数f(k)表示 δ2(f(k))=f(k+1)-2f(k)+f(k-1)
7
自相似的数学描述
• 自相似参数H
– H=1-β/2 – r(k)~k-(2-2H)L1(k),当k→∞
渐进自相似(asymptotically self-similar)
– r(k)=1/2[(k+1)2H-2k2H+(k-1)2H]
严格自相似 (exactly self-similar)
– 参数H满足0.5<H<1,参数H用来表示自相似的程度
R/S: Rescaled adjusted range analysis
11
自相似的数学描述
• 自相似的特性
– Hurst效应
• Hurst在1991年和1995年发现大多数自然产生的时间序列满足 E[R(n)/S(n)]~cnH,当n→∞,其中Hurst参数典型为0.73,c是与n无关 的正常数 • 若观察序列取自一个短相关模型,曼德博罗等发现,满足 E[R(n)/S(n)]~dn0.5,当n→∞,其中d与n无关的正常数 • 上述两式的差异通常称之为赫斯特效应或赫斯特现象
针对有限的时间序列来估计 Hurst参数 方法1—分析堆叠过程X(m)的 方差,自相似的慢衰减方 差特性 var(X(m))~am-β (m→∞) ㏒(var(X(m)))~-β㏒(m)+㏒ (a) (m→∞) β≈0.4 H≈0.8
15
自相似的数学描述
如何测度自相似
方法2—基于R/S统计的时域 分析 E[R(n)/S(n)]~cnH (n→∞) ㏒(E[R(n)/S(n)])~H㏒(n)+ ㏒(c) (n→∞) 原始的时间序列分为大小 为n的块,对每个块计算 其R(ti,n)/S(ti,n)
P[Xk=n]=e-λ△t(λ△t)n/n! (n≥0)
自相似的数学描述
• 网络流量模型
– 时间序列,表示每单位时间到达的字节数或数据包数量
• 自相似的物理描述
– 网络流量在很宽的时间尺度内存在突发现象,“Burst” – 时间尺度—几十毫秒、秒、分钟、小时
4
自相似的数学描述
• 数学定义
– 假设前提—平稳随机过程,即统计特性(均值、方差、相关等) 不随时间推移而变化。一阶平稳(均值为常数),二阶平稳 (均值和方差为常数,任意两时间点之间的协方差只取决于时 间间隔,又称之为广义平稳) – 自相关函数定义为:
20
产生自相似的原因
• 是流量内在的特性还是网络协议的调制作用? • Web流量的自相关性 (Boston University, 1996, 1998,实际数据)
– Web文件大小的分布(包括用户请求的文件、实际传输的文件、 文件的传输时间、服务器端存储的文件等)呈重尾分布,客户 端Cache的影响相对较小Web文件传输时间的重尾分布Web 流量的自相似性