Internet流量分类技术
基于机器学习的Internet流量分类
的分类效果和特征选择对分类效果 的影 响。实验 结果表 明,V 对 流量分类 问题 具有 较 高的分类精度 和稳定性 , SM 通 过特征选择 , 以有效降低数据的维数 , 可 并一 定程度 上提 高分类的精度 。 关键词 : 流量分类 ; 器学习; 机 支持 向量机 ; 特征 选择
中图分 类号 : P8 ; P 9 .7 T 1 1 T 33 0 文献标志码 : A
1 1 机 器 学 习与 流 量 分 类 .
计 费需要标识不 同的网络应用 ; 网络 安全需 要进行 入侵检 测 和异常流发现 。然而 随着 Itre 底层 环境 和上层 的应用 发 ne t n 展 以及规模扩大 , 传统 的基 于传输层 端 口的应用识 别技术 已 逐渐不能适应 P P和被动 F ’ 2 I P等新 型应 用 。
1 示, 所 基于机 器学 习的流量分 类通 常是 在流 量采集 的流量
记 录上进行下面五个步骤的处理。
但存在 效率 问题 , 目前 的研究重点 主要集 中在不依 赖 于报 文 载荷 的方 法 , 例如 基 于传 输层 行 为 以及针 对 流量 特征 的 B ys ae 及其改进 方法 等 , 方法 对流 量 的建模 均存 在不 同 但 程度上的缺陷。机器学习方法技术 不依 赖匹配协议端 口或解 析协议 内容识别网络应用 , 而是 利用流 量在传输 过程 中表现
atoi tedt sbesb up  ̄ V c rMahn S M) ad tea et n o fa r eet n i c sict n w r uhra v a u st y Sp o et cie( V ti a o n f c o f et e sl i n l s a o ee h i u co a f i i
QoS技术详解及实例
一般来说,基于存储转发机制的Internet(Ipv4标准)只为用户提供了“尽力而为(best-effort)”的服务,不能保证数据包传输的实时性、完整性以及到达的顺序性,不能保证服务的质量,所以主要应用在文件传送和电子邮件服务。
随着Internet的飞速发展,人们对于在Internet上传输分布式多媒体应用的需求越来越大,一般说来,用户对不同的分布式多媒体应用有着不同的服务质量要求,这就要求网络应能根据用户的要求分配和调度资源,因此,传统的所采用的“尽力而为”转发机制,已经不能满足用户的要求。
QoS的英文全称为"Quality of Service",中文名为"服务质量"。
QoS是网络的一种安全机制, 是用来解决网络延迟和阻塞等问题的一种技术。
对于网络业务,服务质量包括传输的带宽、传送的时延、数据的丢包率等。
在网络中可以通过保证传输的带宽、降低传送的时延、降低数据的丢包率以及时延抖动等措施来提高服务质量。
通常 QoS 提供以下三种服务模型:Best-Effort service(尽力而为服务模型)Integrated service(综合服务模型,简称Int-Serv)Differentiated service(区分服务模型,简称Diff-Serv)1. Best-Effort 服务模型Best-Effort 是一个单一的服务模型,也是最简单的服务模型。
对Best-Effort 服务模型,网络尽最大的可能性来发送报文。
但对时延、可靠性等性能不提供任何保证。
Best-Effort 服务模型是网络的缺省服务模型,通过FIFO 队列来实现。
它适用于绝大多数网络应用,如FTP、E-Mail等。
2. Int-Serv 服务模型Int-Serv 是一个综合服务模型,它可以满足多种QoS需求。
该模型使用资源预留协议(RSVP),RSVP 运行在从源端到目的端的每个设备上,可以监视每个流,以防止其消耗资源过多。
QoS培训--3-2 流量分类与标记
前言
为了在Internet上针对不同的业务提供有差别的QoS服务质量,人们根据报 文头中的某些字段记录QoS信息,从而让网络中的各设备根据此信息提供 有差别的服务质量。
Page1
培训目标
学完本课程后,您应该能:
理解分类与标记的原理。 掌握分类与标记的方法。
Page2
流量分类和标记
Page7
简单流分类应用场景举例
RTC
EXP到DSCP的映射
IP
RTA
MPLS
DSCP到EXP的映射 RTB
IP
RTD
Page8
简单流分类的配置
RTC
Pos1/0/0 IP
MPLS Pos2/0/0
RTA
IP
RTB
RTD
[RTA]diffserv domain A [RTA-dsdomain-A]ip-dscp-inbound 18 phb af4 green [RTA-dsdomain-A]mpls-exp-outbound af4 green map 5 [RTA]interface pos 1/0/0 [RTA-Pos1/0/0]trust upstream A [RTA]interface pos 2/0/0 [RTA-Pos2/0/0]trust upstream A
流量分类及标记是部署QoS 的基础 可以根据ACL、以及报文自身信息对流量进行分类 可以基于DSCP、IP Precedence、802.1P、MPLS EXP等信息对报文进行标记
Page3
流量分类
流量分类是按照一定的规则识别符合某类特征的报文,特征不同 的报文享受到的服务不同。按照分类规则参考信息的不同,流量 分类可以分为简单流分类和复杂流分类。
网络背景流量的分类与识别研究综述
Review of network background traffic classification and identification
ZOU Tengkuan1,2* , WANG Yuying1,2 , WU Chengrong1,2
DOI: 10. 11772 / j. issn. 1001-9081. 2018071552
网络背景流量的分类与识别研究综述
邹腾宽1,2* ,汪钰颖1,2 ,吴承荣1,2
( 1. 复旦大学 计算机科学技术学院,上海 200433; 2. 网络信息安全审计与监控教育部工程研究中心,上海 200433) ( * 通信作者电子邮箱 tkzou17@ fudan. edu. cn)
Abstract: Internet traffic classification is a process of identifying network applications and classifying corresponding traffic, which is considered as the most basic function of modern network management and security system. And applicationrelated traffic classification is the basic technology of recent network security. Traditional traffic classification methods include port-based prediction methods and payload-based depth detection methods. In current network environment, there are some practical problems in traditional methods, such as dynamic ports and encryption applications. Therefore, Machine Learning ( ML) technology based on traffic statistics is used to classify and identify traffic. Machine learning can realize centralized automatic search by using provided traffic data and describe useful structural patterns, which is helpful to intelligently classify traffic. Initially, Naive Bayes method was used to identify and classify network traffic classification, performing well on specific flows with accuracy over 90% , while on traffic such as peer-to-peer transmission network traffic ( P2P) with accuracy only about 50% . Then, methods such as Support Vector Machine ( SVM) and Neural Network ( NN) were used, and neural network method could make accuracy of overall network classification reach 80% or more. A number of studies show that the use of a variety of machine learning methods and their improvements can improve the accuracy of traffic classification.
IP-QOS技术概述
4,差分服务 ,
差分服务模型的基本思想是可以根据预先确定的规则 对数据流进行分类, 对数据流进行分类,以便将多种应用数据流综合为有 限的几种数据流等级. 限的几种数据流等级. 差分服务是由综合服务发展而来的,它采用了IETF的 差分服务是由综合服务发展而来的,它采用了 的 基于RSVP的服务分类标准,抛弃了分组流沿路节点 的服务分类标准, 基于 的服务分类标准 上的资源预留. 上的资源预留.
技术背景(续 技术背景 续)
在传统IP 网络中,对所有报文都无区别地等同对待,每个 路由器对所有报文都采用先入先出的策略(FIFO)处理, 也就是说:它尽力而为(Best-effort)地将报文送到目的 地,但是对报文的吞吐量,延迟,延迟抖动,丢包率等都 不能预期,可能很好,也可能极差,一切都要视网络状况 而定.随着计算机网络的高速发展,对带宽,延迟,抖动 敏感的且实时性强的语音,图象,重要数据同时在网上传 输,使得网络资源极大地丰富.但是同时人们对于网络传 输数据质量的要求也越来越高,人们期望报文在吞吐量, 延迟,延迟抖动,丢包率等方面获得一定程度上的服务保 证,期望可以根据客户类型提供有差别的服务.解决这些 问题的一个途径是增加网络的带宽,但带宽的增加毕竟是 有限的,且代价昂贵,它也只能在一定程度上缓解这个问 题.提供QoS 将是人们对未来IP 网络的基本要求.
1,综合服务模型(Int-serv:Integrated service) ,综合服务模型( - : )
这种服务模型在发送报文前, 这种服务模型在发送报文前,需要向网络申请特定的 服务. 服务.应用程序先通知网络发送报文的流量参数和所 需的服务质量请求(如带宽,时延等).应用程序在 需的服务质量请求(如带宽,时延等).应用程序在 ). 收到网络预留资源的确认信息后,才开始发送报文, 收到网络预留资源的确认信息后,才开始发送报文, 发送报文被控制在流量参数规定的范围内. 发送报文被控制在流量参数规定的范围内.
QOS技术原理及配置优质PPT课件
RSVP原理
我要预留
2Mbps带宽
OK!
我要预留
2Mbps带宽
OK!
OK!
开始通信
OK!
报文分类及标记
ACL , IP优先级
• 报文分类及标记是QoS 执行服务的基础
• 报文分类使用技术:ACL和IP优先级
• 根据分类结果交给其它模块处理或打标记(着色)
供核心网络分类使用
流分类
流即业务流(traffic),指所有通过交换机的报文。
的报 文将之标记为其它的802.1p 优先级后再进行转发;
改变DSCP 优先级并转发:比如对评估结果为“符合”或
者
“不符合”的报文,将之标记为其它的DSCP优先级后再进
行转发
流量整形
TS 示意图
端口限速
端口限速(Line Rate)是指基于端口的速率限制,它对
端口接收或发送报文的总速率进行限制
端口限速也是采用令牌桶进行流量控制。如果在设备的
A
网络传输延时
端到端的延时
处理延时
时间t
抖动
Int3
发送
1
2
D2
D3=D2=D1
1
D1
接收
带宽限制
10M
IP
我要2M
QoS技术优点
• 可以限制骨干网上FTP(文件传输)使用的带
宽,也可以给数据库访问以较高优先级
• 对于ISP(互联网服务提供商),其用户可能
传送语音、视频或其他实时业务,QoS使ISP
流分类(traffic classification)是指采用一定的规
则识别符合某类特征的报文,它是有区别地进行
服务的前提和基础。
分类规则:
互联网中基于用户连接图的流量分类机制
3
基于谱聚类的用户行为子簇划分
2
预备知识
2.1 信息熵 在信息论领域,信息熵从平均意义上表征了信 为了描述用户的连 源的总体信息测度和不确定性[8]。 接行为特征,特引入“信息熵”的概念。考虑随机 变量 X 取值于离散集 A = {a1, a2 , , an } ,假设 X 按 照某种概率分布共产生m个观测值,mi 表示变量 X 取 值 ai 的 次 数 , 可 得 X 取 值 ai 的 经 验 概 率 值 为 p(ai ) = mi / m 。则变量 X 的信息熵可定义为
960
电 子 与 信 息 学 报
表1 用户行为子簇划分详细流程图
第 35 卷
定义 1 相邻用户 (neighbor user) 在用户连 接图 G (V , E ) 中,若用户 vi 与用户 v j 直接相连,则称 vi 和 v j 为相邻用户;若 vi 与用户 v1 , v2 , v 3 相连,则 定义用户 vi 的相邻用户集合为U i = {v1, v2 , v 3 } 。 定义 2 用户相似度(user similarity) 若用户 vi 与 v j 为相邻用户,则定义 vi 与 v j 的用户相似度为 无穷大 ¥ (即两个用户具有共同的业务应用);若 vi 与 v j 不相邻,且 vi , v j 对应的相邻用户集合为U i 和 U j ,则 vi 与 v j 的用户相似度定义为两个相邻集合共 享用户的个数 | U i U j | 。 用户相似度从用户的周围连接环境出发,不仅 仅孤立地计算单一用户对之间的关联,而是引入了 以“用户之间共享最近邻”为指标的相似性度量。 如图1所示,用户A和B之间共享4个用户连接,根据 用户相似度的定义,A和B之间的相似度为4。用户 相似度基于如下原理: 若用户 v1 与用户 vi 直接相连, 用户 vn 和用户 vi 直接相连,则认定 v1 与 vn 具有较高 的业务相似度。谱聚类的过程是基于数据点的相似 度矩阵进行的,HCG算法则是以“用户相似度”来 度量用户之间的业务交互行为,并基于谱聚类将用 户连接图 G (V , E ) 进行行为子簇的划分。表1给出了 基于谱聚类的用户行为子簇划分的详细流程。
网络流量模型及分析(最终思路)
马尔可夫过程-实例
青蛙跳荷叶
贪吃蛇的两种规则
33
马尔科夫(Markov)模型
优点 • 在随机过程中引入了相关性,可以在一定程度上捕获业务的突
发性 • 马尔科夫方法是一种具有无后效性的随机过程,用途十分广泛 缺点 • 只能预测网络的近期流量,而且无法描述网络的长相关性
传统模型的缺点
实际的数据包和大部分连接的到达是相关联的, 并不严格服从泊松分布
泊松(Poisson)模型
泊松(Poisson)模型
前提:
假设网络事件(如数据包到达)是独立分布的 只与一个单一的速率参数λ有关.
泊松(Poisson)模型
优点 • 较好地满足了早期网络的建模需求 • 在网络设计、维护、管理和性能分析等方面发挥了很大的作用。 缺点 • 根据泊松流量模型,从不同的数据源汇聚的网络流量将随着数
流量模型的发展历程
20时期70年代 -1994年
传统模型 (短相关)
1994年 -2004年
自相似模型 (长相关)
2004 年泊松回归引发的争论 至今
流量模型的 新发展
泊松模型 马尔科夫模型 回归模型
重尾分布的ON/OFF模型 基于神经网络的模型
M/G/∞排队模型 FBM/FGN模型
多分形模型
传统(短相关)模型
参考文献:基于时间相关的网络流量建模与预测研究_高波
ON/OFF模型
ON/OFF模型
ON/OFF模型:
每个发送源都有两个周期交替的ON和OFF状态,即 发送数据状态和不发送数据状态
:发送数据包的速率
重尾分布
重尾分布:一种比正态分布还要广泛的的随机变量分 布,体现在少量个体做出大量贡献
什么是计算机网络流量监测请介绍几种常见的流量监测技术
什么是计算机网络流量监测请介绍几种常见的流量监测技术计算机网络流量监测是指对计算机网络中传输的数据流进行实时监控和统计分析的过程。
通过对网络流量的监测,可以及时掌握网络的运行状态和性能,有效预防和解决网络故障,保障网络的安全稳定运行。
下面将介绍几种常见的流量监测技术。
一、流量包分析技术流量包分析是指通过对网络中传输的数据包进行捕获和分析,获取有关网络流量的信息。
常见的流量包分析工具有Wireshark、Tcpdump 等。
这些工具可以捕获网络中的数据包,并提供详细的协议分析和统计信息,包括源IP地址、目的IP地址、数据包大小、传输协议等。
通过对捕获的数据包进行分析,可以了解网络中的流量状况,识别出异常流量和潜在的威胁。
二、流量统计技术流量统计是指通过对网络中的流量进行统计,得出网络流量的相关信息。
常见的流量统计工具有NTOP、Cacti、Zabbix等。
这些工具可以实时地统计网络中的流量情况,包括流量的带宽占用率、吞吐量、延迟等指标。
通过对流量的统计分析,可以识别出网络的瓶颈和异常情况,为网络的优化提供参考依据。
三、流量限制技术流量限制是指通过设置网络设备的流量控制策略,对网络中的流量进行限制和调整。
常见的流量限制技术有QoS(Quality of Service)、ACL(Access Control List)等。
QoS可以根据不同的业务需求和优先级,对流量进行分类和调度,确保关键业务的带宽和延迟要求。
ACL可以通过设置访问控制列表,限制特定IP地址或端口的流量,防止恶意攻击和滥用网络资源。
四、流量分析技术流量分析是指通过对网络流量的历史数据进行分析,提取出其中的关键信息和规律。
常见的流量分析工具有ELK Stack(Elasticsearch、Logstash、Kibana)、Splunk等。
这些工具可以将网络设备和服务器上的日志数据进行收集和分析,通过搜索和可视化等方式,帮助管理员发现性能问题、网络异常和安全威胁。
网络背景流量的分类与识别分析研究
网络信息工程2020. 19网络背景流量的分类与识别分析研究易灿(湖南大众传媒职业技术学院,湖南长沙,410100)摘要:识别网络应用和分类相应流量的过程就是互联网流量分类,同时也是现代网络安全管理系统中最基本的。
网络安全的基础技术就是流量分类,流量分类识别方法包括基于端口的预测方法和基于有效载荷的深度检测方法。
文章从基于 端口的识别分类和深度包检测的识别分类方面介绍了传统流量识别分类方法;进一步从数据及釆集方法、有监督方法、 半监督方法等方面分析了机器学习的识别分类。
关键词:网络背景;流量的分类;机器学习;基于行为模式的分类Classificati o n and identificatio n an a l ysis of network backgro u nd trafficYi Can(Hunan Mass Media Vocational and Technical College, Changsha Hunan, 410400)Abstract : The process of identifying network applications and classifying the corresponding traffic is the classification of Internet traffic, which is also the most basic in the modern netwotk security management system. The basic technology of network security is traffic classifiestion. The identification methods of traffic classification include port —based prediction method and payload based dep th detection method. This paper introduces the traditional traffic identification and classification methods based on port identification and deep packet detection. The identification and classification of machine learning are further analyzed from the aspects of data and collection method, supervised method and semi-supervised method.Keywords : Network background ; Classification of traffic flow; Machine learning; Classification based on behavioral patterns0引言随着科技的发展,智能手机的出现,特别是无线保真、第 三代移动通信技术、全球微博互联接入、通用移动通信技术 的长期演进等智能技术的出现,为M2M 通信、传感器、无线技术、智能城市和物联网应用等先进应用和服务的出现打下基础。
网络流量控制与QoS技术
网络流量控制与QoS技术随着互联网的快速发展和普及,网络流量呈爆炸式增长,给网络管理和性能带来了巨大挑战。
为了保证网络服务的质量和用户体验,网络流量控制与QoS(Quality of Service)技术应运而生。
本文将详细介绍网络流量控制的概念、原理和方法,并分析QoS技术在网络流量控制中的应用。
一、网络流量控制的概念和原理网络流量控制是指通过采取一系列措施,根据网络资源的使用情况和需求,对网络中的流量进行管理和控制,以保证网络的正常运行和高效利用。
其主要目标是在网络拥塞或资源有限的情况下,通过控制流量的传输速率和优先级,实现公平分配和差异化服务。
网络流量控制的原理可以归结为两个方面:拥塞控制和排队管理。
拥塞控制通过监测网络中的流量情况,当网络拥塞时自动调节流量的传输速率,以避免拥塞的发生和蔓延。
排队管理则是根据流量的优先级和服务等级,对流量进行排队和调度,确保高优先级流量的传输和服务质量。
二、网络流量控制的方法1. 拥塞控制方法拥塞控制方法主要包括主动队列管理(Active Queue Management)和流量调节(Traffic Shaping)。
主动队列管理(AQM)是通过在网络节点上设置队列管理算法,及时反馈网络拥塞情况,根据拥塞策略进行流量控制。
常用的AQM算法包括Random Early Detection(RED)和Random Early Drop(RED)。
流量调节(Traffic Shaping)则是通过对流量进行调节和平滑处理,控制流量的传输速率和延迟,以防止网络拥塞。
常见的流量调节方法有Leaky Bucket、Token Bucket和Traffic Policing等。
2. 排队管理方法排队管理方法主要包括FIFO(First-In-First-Out)队列、优先级队列和公平队列等。
FIFO队列是最简单的队列管理方法,按照流量的到达顺序进行排队和传输。
然而,FIFO队列无法满足对不同流量的差异化服务需求。
互联网流量论文
互联网流量策略的分析与研究摘要:本文通过对流量策略的需求进行研究,结合qppb、策略路由、mpls te等技术阐述,如何针对互联网流量进行策略制定与调整、标记与转发,以实现成本的控制及质量保证等预期目的。
关键词:单向结算;qppb;策略路由;mpls te中图分类号:tp393.06 文献标识码:a 文章编号:1007-9599 (2011) 22-0000-02the analysis and research internet traffic strategyfu xiaowei(heilongjiang nongken vocational college,harbin 150025,china)abstract:based on the traffic strategy needs,in combination with qppb,policy routing,mpls te technology describes how to develop strategies for internet traffic and adjustment,marking and forwarding,in order to achieve cost control and quality assurance of the desired objectives.keywords:one-way clearing;qppb;policy routing;mpls te一、引言2011年5月中国电信集团公司和中国网络通信集团公司挂牌成立,这标志着南电信、北网通时代的开始。
电信和网通在各自地域内占据了90%以上的互联网用户数,涵盖了所有互联网内容服务商的资源,成为名副其实的主导运营商。
同时,在全国范围内还存在着移动、铁通、长宽等非主导运营商。
由于网内资源有限,需要与主导运营商建立单向结算的出口来疏导用户流量,所以精细的互联网流量策略成为一个迫切需求。
QoS技术介绍
开发人员:刘晖光 讲师:刘晖光 讲授时长:3个课时
目标
• 了解QoS的基本概念 • 熟悉QoS的流分类和标记 • 掌握QoS的队列管理技术 • 熟悉QoS的流量监管和流量整形 • 掌握QoS的拥塞避免机制 • 熟悉MPLS网络对QoS的处理
目录
1 QoS技术概述 2 流分类和标记 3 队列管理 4 流量监管和流量整形 5 拥塞避免 6 MPLS QoS
1. QoS技术概述
1.1 QoS技术的产生
在因特网中,QoS所评估的就是网络投递分组的能力。由于网络提供的服务是多样的,因此对QoS的 评估可以基于不同方面。通常所说的QoS,是对分组投递过程中对延迟、延迟抖动、丢包率等核心需求 提供支持的服务能力的评估。
传统的分组投递业务
传统的IP网络无区别地对待所有的报文,路由器处理报文采用的策略是先入先出FIFO(First In First Out),它依照报文到达时间的先后顺序分配转发所需要的资源。
标记是将IP报文的IP优先级或者DSCP进行设置。对于MPLS QoS,所谓标记就是 MPLS报文中的EXP域进行设置。对于VLAN QБайду номын сангаасS,所谓标记就是VLAN报文中的8021P域 进行设置。
下游(downstream)网络可以选择接收上游(upstream)网络的分类结果,也可以按 照自己的标准重新进行分类。
传统的Best-Effort服务策略只适用于对带宽、延迟性能不敏感的WWW、文件传输、E-Mail等业务。
1. QoS技术概述
新业务引发的新需求
除了传统的WWW、E-Mail、FTP应用外,用户还尝试在Internet上拓展新业务,比如远程教学、远 程医疗、可视电话、电视会议、视频点播等。企业用户也希望通过VPN技术,将分布在各地的分支机构 连接起来,开展一些事务性应用。
网络流量分析
网络流量分析概述摘要Internet自60年代出现以来发展迅猛,网络规模飞速膨胀,网络流量越来越大,网络信息对人们生活的影响也越来越深远,然而网络中P2P等应用正在大量的消耗网络的带宽资源,从而影响了关键业务的正常展开。
因此,通过对网络中的各种业务流量进行分析,建立合适的预测模型就成为网络发展的必要。
通过分析,能及时的发现网络中的异常,从而使得网络管理更主动,为网络的持续高性能运行提供主要的保障,为规划、设计网络提供科学依据。
本文首先介绍网络流量数据采集方法,通过分析他们的优缺点让读者对网络数据采集技术有一个初步的了解。
然后本文介绍了两种基于不同技术的网络流分类方法: 深度数据包检测技术(DPI)和深度/动态流检测技术(DFI)。
在DPI中,主要介绍AC状态机模式匹配算法实现多关键字的快速匹配。
而DFI是基于流特征向量的分类方法,本文主要介绍分析了朴素贝叶斯方法。
在特征选择方面,介绍了运用相关度和快速的过滤器选择方法(FCBF)来对特征进行筛选,得出有利于分类的特征子集,同时还可以去掉不相关或冗余特征,增加分类的准确性。
最后,本文介绍了如何把网络流量分析的结果应用到入侵检测中,以发现网络中的异常。
目录摘要 (1)一、网络流量分析概述 (3)1.1网络流量分析背景 (3)1.2网络流量分析定义 (3)1.3网络流量分析目的 (4)1.4网络流量分析意义 (5)二、网络流量采集 (6)2.1 网络流 (6)2.2 网络流的特性 (6)2.3 网络流量采集介绍 (6)2.4 主流网络流量采集技术 (7)2.4.1 基于网络流量全镜像的采集技术 (7)2.4.2 基于SNMP的流量采集技术。
(7)2.4.3 基于 Netflow/sFlow的流量采集技术。
(8)2.4.4 基于干路中桥接设备的采集技术 (9)2.4 网络流量采集技术的对比 (10)三、网络流量分析 (11)3.1 基于DPI的网络流量分析技术 (11)3.1.1 DPI提出的背景 (11)3.1.2 DPI技术研究 (11)3.1.3 AC自动机算法 (13)3.1.4 DPI总结 (15)3.2 基于DFI的网络流量分析技术 (16)3.2.1 DFI的提出 (16)3.2.2 基于DFI技术的方法的基本原理 (16)3.2.3朴素贝叶斯分类器 (16)3.2.4改进贝叶斯—FCBF(A Fast Correlation-Based Fliter): (17)3.2.5其他应用DFI技术的模型 (18)3.3 DPI和DFI的对比: (19)四、网络流量分析之应用:入侵检测 (20)4.1入侵检测的基本定义以及方法 (20)4.2网络流量在异常检测系统中的应用 (21)4.2.1 特征参数的选取 (21)4.2.2特征参数变化的提取 (21)4.2.3.网络流量异常的判断 (22)五、全文总结 (23)参考文献 (24)一、网络流量分析概述1.1网络流量分析背景随着网络应用日趋复杂化,网络流量不断增长并且呈现多样化,如何更好的满足用户对各类Internet业务服务质量越来越精细的要求,这是目前面临的关键问题。
Internet流量模型分析与评述
软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software,2011,22(1):115−131 [doi: 10.3724/SP.J.1001.2011.03950] +86-10-62562563 ©中国科学院软件研究所版权所有. Tel/Fax: Internet流量模型分析与评述∗张宾1,2, 杨家海1,2+, 吴建平1,21(清华大学信息网络工程研究中心,北京 100084)2(清华大学清华信息科学与技术国家实验室,北京 100084)Survey and Analysis on the Internet Traffic ModelZHANG Bin1,2, YANG Jia-Hai1,2+, WU Jian-Ping1,21(The Network Research Center, Tsinghua University, Beijing 100084, China)2(Tsinghua National Laboratory for Information Science and Technology, Tsinghua University, Beijing 100084, China)+ Corresponding author: E-mail: yang@Zhang B, Yang JH, Wu JP. Survey and analysis on the Internet traffic model. Journal of Software, 2011,22(1):115−131. /1000-9825/3950.htmAbstract: The Internet traffic model is the key issue for network performance management, Quality of Servicemanagement, and admission control. The paper first summarizes the primary characteristics of Internet traffic, aswell as the metrics of Internet traffic. It also illustrates the significance and classification of traffic modeling. Next,the paper chronologically categorizes the research activities of traffic modeling into three phases: 1) traditionalPoisson modeling; 2) self-similar modeling; and 3) new research debates and new progress. Thorough reviews ofthe major research achievements of each phase are conducted. Finally, the paper identifies some open research issueand points out possible future research directions in traffic modeling area.Key words: Internet traffic feature; network traffic modeling; self-similar; long-range dependence; fractal摘要: Internet流量模型对网络性能管理、QoS、准入控制等都有很重要的意义和作用.首先总结了现阶段已发现的主要网络流量的特性及相关度量参数,概要地介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3个阶段阐述网络流量建模的发展历程与最新的研究成果,最后针对目前网络流量建模中存在的难点问题,展望了该领域未来的研究发展方向.关键词: Internet流量特征;网络流量模型;自相似;长相关;分形中图法分类号: TP393文献标识码: A自互联网问世以来,关于网络流量的研究一直在不断的探索中.1993年,Leland等学者发现了数据网络的流量具有自相似的特性[1],掀起了互联网流量特性与建模研究的热潮.随着互联网的快速发展、网络应用的多样化以及新型网络应用的快速部署,网络流量特性也随之不断发生变化.近年来,许多学者针对不断变化的流量新特∗基金项目: 国家重点基础研究发展计划(973)(2009CB320505); 国家科技支撑计划(2008BAH37B05); 国家高技术研究发展计划(863)(2008AA01A303, 2009AA01Z251)收稿时间: 2010-06-10; 定稿时间: 2010-10-26CNKI网络优先出版: 2010-11-09 15:19, /kcms/detail/11.2560.TP.20101109.1519.000.html116 Journal of Software软件学报 V ol.22, No.1, January 2011性,对网络流量的自相似性以及其他相关特性进行了重新审视.本文试图从一个较长的时间轴对互联网流量特性与建模研究工作进行比较系统的梳理,以期对从事相关研究工作的人员有所裨益.传统电信网络的业务可以用经典的泊松过程进行很精确的描述,因此,早期学者们也尝试用泊松过程来描述互联网的流量行为.的确,根据许多现有的马尔可夫过程分析的结论和排队分析的一些基本方法,学者们能够在一定程度上对以近似泊松流作为业务源的排队系统进行性能分析,并且得到等待时间、队列长度等性能参数的近似结论.同时,泊松过程有着十分简单的相关结构,这使得泊松模型具有很好的性能.但是,泊松过程在大多数情况下并不能很好地描述互联网的流量行为.Leland等人在20世纪90年代初发表的具有开创性意义的论文[1,2]中第一次明确提出了网络流量中存在着自相似现象,随后,Paxson等人[3]对WAN流量、Klivansky等人[4]对NSFNET流量和Crovella等人[5]对WWW流量的测试分析,均发现网络流量具有自相似特性,引发了流量模型从传统模型到自相似模型的转变.21世纪初,Karagiannis等人[6]通过分析Tier 1 ISP的骨干链路流量,发现目前高带宽和高聚合的链路流量在亚秒尺度下近似泊松过程,从而引发了人们对网络流量特征及建模新的思索和争论.本文首先总结现阶段已发现的主要网络流量的特性及相关度量参数,概要介绍网络流量建模的意义和分类,然后按照“传统-自相似-流量建模的新发展”这3个时段及分类阐述网络流量模型与最新的研究成果,最后展望该领域未来的研究发展方向,并针对目前网络流量建模中存在的难点问题及全文主要内容给出总结.1 网络流量特性与相关度量参数实际网络流量特性以及刻画这些流量特性的度量参数是流量建模的基础和依据,流量建模的目标是能够更好地反映实际流量的特征并且用于更好地指导实际的应用.当前,网络流量公认的、最重要的统计特征是大时间尺度下的自相似性和小时间尺度下的多分形性.这些特性不仅存在于互联网络中,同时也存在于Ad Hoc网络[7]以及卫星网络[8]中.1.1 自相似和长相关自相似(self-similar)是指局部的结构与总体的结构相比具有某种程度的一致性,自相似过程是在统计意义上具有尺度不变性的一种随机过程.从这一点上来说,自相似过程实际上是在随机过程中引入了分形的概念.网络流量具有长相关性,是相对于泊松等短相关(short range dependence,简称SRD)模型而言的.从物理意义上看,长相关性(long range dependence,简称LRD)反映了自相似过程中的持续现象,即突发特性在所有的时间尺度上都存在的现象,也称其为多尺度行为特性.长相关和自相似的具体定义和描述请参考文献[9−11].自相似性与长相关性有着密切关系,H≠1/2稳定的自相似随机过程是长相关的.但长相关过程不一定就是自相似的.长相关性是渐近意义上的,它只描述了自相关函数在大延迟下的行为,而对任何固定有限大小延迟下的行为没有限制.而且,长相关性是侧重于业务量的统计特性,而自相似性则是偏重于数学表述上的.自相似过程的重要性还表现在,它为赫斯特效应(Hurst effect)这一经验规律提供了一种解释.Hurst参数是表征自相似特性的一个重要参数,一般来说,H值越大,自相似(长相关)程度越高,突发性也越强.常用的H值估计方法有以下几种(限于篇幅,不具体介绍,详见对应的参考文献):•方差-时间图(varianee-time plot)法[12];•聚合时间序列绝对值法(absolute values of the aggregated series)[12];•差分方差方法(differencing the variance)[13];•Higuchi方法[14];•回归残差法(residuals of regression)[15];•R/S图(rescaled adjusted range plot)法[16−18];•周期图(periodogam)法及其改进方法[12];•Whittle估计方法[19,20];•小波分析估计法[21].张宾等:Internet流量模型分析与评述1171.2 多分形在分形理论中,多分形又称作多重分形测度.对于许多非均匀的分形过程,一个维数无法描述其全部特征,需要采用多重分形测度或维数的连续谱来表示.Riedi等人[22]通过对TCP流量的数值分析,指出长相关只是流量分形性质的一个方面(在较大的时间尺度上);在较小的时间尺度上,流量体现出更为复杂的变化规律,尤其是局部具有突发性.自相似在相对较大的时间尺度上刻画了流量的长相关特性,但无法描述业务的局部特征.因此,研究者又引入了多分形的概念.多分形延伸和细化了网络测量流量中的自相似行为(自相似即单分形),多分形性质体现了依赖于时间的尺度规律,在描述局部时间内的不规则现象时更加灵活.流量的分形特性已经广泛应用到许多工程问题中,如互联网流量建模、TCP流量的拥塞控制、实时估计LRD过程的Hurst参数等.并且,分形理论和其他的数学理论相结合,如应用小波变换的自相似及多分形分析,在流量工程中正体现出越来越重要的作用.1.3 周期及混沌实际的网络流量除了人们熟知的自相似特性外,还有其他的一些流量特性不断地被研究人员提出并进行相关研究.如周期性[23]和混沌性[24−26]等.周期性变化特性反映的是网络流量时间序列随着时间的变化而表现出来的一种季节性的变化规律.所谓混沌就是指在确定性系统中出现的一种貌似无规则的、类似随机的现象,它普遍存在于自然界及人类社会中,是有序与无序的统一、确定性与随机性的统一.网络流量序列中存在着低维混沌,去掉长相关后的数据是一个随机流量数据,这反映了网络流量数据的混沌与网络流量的长相关是有密切联系的,从而为混沌与长相关的密切联系提供了一个有力的证据.因此,把混沌控制的思想和方法引入自相似业务流控制和建模预测是一个非常值得探索的研究方向.2 网络流量建模概述流量模型是流量行为特征的数学近似,网络流量建模的基本原则[10]是:以流量的重要特性为出发点,设计流量模型以刻画实际流量的突出特性,同时又可以进行数学上的研究.从理论角度来看,网络业务流的数学模型提供了对流量特性简明的、抽象化的描述,其价值在于能够提取出网络流量的一些重要特性,并给出一个明确的量化表示.随着网络规模的扩大和各种网络服务的广泛应用,建立一个能够准确、有效地描述网络流量特性的流量模型,对QoS、网络性能管理、准入控制等都有很重要的意义和作用[9−11].20世纪70年代和80年代早期,由于当时网络的应用比较单一,数据传输量较小以及受到网络测量技术的限制,人们借鉴公共交换电话网络的模型,使用泊松模型来描述数据网络的流量,并取得不错的效果.进入80年代中后期,随着FAX、数据网络和Web 的出现,泊松过程已不能充分反映Internet业务流量的特性.人们随后又逐渐引入了Markov和回归等随机模型来描述网络流量.习惯上,人们称这些早期模型为传统网络流量模型,其共同特点就是所描述的业务序列具有短期相关性.20世纪90年代以来,随着网络节点数呈指数增加和多媒体、视频、远程教育等网络应用的不断出现,流量特性变得更加复杂.由于不同的网络应用具有不同的流量特性,使得网络流量特性也发生了显著变化,这些都增加了网络流量特征化的困难.随着研究的深入,研究人员发现网络流量具有自相似特性,传统的流量模型已不能很好地描述网络的自相似性,而流量的自相似性又是网络的普遍属性并决定了网络的行为,因而基于自相似建模的研究便成为网络研究中的一个重要方向.2004年,Karagiannis等人[6]通过分析Tier 1 ISP的骨干链路流量,发现目前高带宽和高聚合的链路流量在亚秒尺度下近似泊松过程,从而引发了人们近年来对网络流量特征及建模的新的思索和争论.我们按照这3个发展的时段可以把网络流量模型[10,27]分为:•传统(短相关)模型(20世纪70年代~1994年);•自相似(长相关)模型(1994年~2004年);•流量建模的新发展(2004年泊松回归引发的争论至今).按照流量建模的方式,我们可以把目前的流量建模划分成两大范畴[28]:基于流的方法和基于包的方法.基于流的方法根据流的到达过程建模,基于包的方法又可以分为两类:一类是基于包的到达过程和包的长度分布来118 Journal of Software 软件学报 V ol.22, No.1, January 2011 建模,另一类是根据时间序列的流量大小分布特征来建模.为了更清楚地展现流量建模的发展过程,我们在后文中按时段发展顺序的分类方法进行阐述.3 传统(短相关)模型传统的网络流量模型一般是基于泊松过程的,这些模型产生的流量通常在时域上仅具有短相关性.随着时间分辨率的降低,即时间尺度变大,网络流量将趋于一个恒定值,即流量的突发性得到缓和.下面介绍几个经典的网络流量模型.3.1 泊松(Poisson )模型泊松模型是20世纪初Erlang 根据电话业务的特征提出来的[29],最初用于电话网的规划和设计,可以较为准确地描述电话网中的业务特征并得到广泛的应用.在网络流量建模的早期,人们便使用泊松模型来研究网络流量.泊松模型即指在时间序列t 内,包到达的数量n (t )符合参数为λt 的泊松分布,即e ()()!t nn t P t n λλ−=(n =0,1,2,…,N ) (1) 其相应的包到达的时间间隔序列T 呈负指数分布,即F (t )=1−e −λT .其中,泊松过程的强度λ表示单位时间间隔内出现包数量的期望值,即包到达的平均速率,其值为 λ=1/E (t ).泊松模型假设网络事件(如数据包到达)是独立分布的,并且只与一个单一的速率参数λ有关.泊松模型较好地满足了早期网络的建模需求,在网络设计、维护、管理和性能分析等方面发挥了很大的作用.然而,根据泊松流量模型,从不同的数据源汇聚的网络流量将随着数据源的增加而日益平滑,这与实际测试的流量是不符合的,因而该模型变得已不适于刻画实际的网络流量.3.2 马尔可夫(Markov )模型对于一个给定的状态空间S ={s 1,s 2,…,s m },X n 表示在n 时刻状态的随机变量,如果X n +1=s j 的概率只依赖于当前的状态,{X n }就形成了一个Markov 链[30].如果状态转换发生在离散时间序列(0,1,…,n ,…),则称Markov 链是离散的,否则称为连续的Markov 链.Markov 属性意味着未来状态只依赖于当前状态,这使得描述一个状态持续时间的随机变量的分布呈指数分布(连续时间)或几何分布(离散时间).在一个简单的Markov 流量模型中,每次状态转换代表一个新的到达,因此到达间隔呈指数分布.常见的Markov 模型有以下几种:• On-Off Source Model and IPP (the interrupted Poisson process) Model [31];• Alternating State Renewal Process [32];• Markov Modulated Poisson Process [33];• Markov Modulated Fluid Models [34,35].Markov 模型是利用某一变量的现在状态和动向去预测该变量未来的状态和动向的一种分析方法.Markov 模型在随机过程中引入相关性,可以在一定程度上捕获业务的突发性.同时,Markov 方法是一种具有无后效性的随机过程,应用十分广泛.Markov 模型的缺点是只能预测网络的近期流量,而且无法描述网络的长相关性.3.3 回归(regression )模型在回归模型随机序列中,下一时刻的随机变量是由过去一个特定时间窗口中的随机变量以及一个白噪声移动平均值来决定的.常见的回归模型有以下几种:• AutoRegressive (AR) Model [36];• Discrete AutoRegressive (DAR) Model [37−39];• AutoRegressive Moving Average (ARMA) Model [40,41];• AutoRegressive Integrated Moving Average (ARIMA) Model [42];• Transform-Expand-Sample (TES) Model [43−45].限于篇幅,这里仅简单介绍自回归(AR)模型.自回归模型是Yule 在1927年为了预测太阳黑子的数目而提出来的,该模型采用自动回归法,强调时间序列未来的点数由同一时间序列过去的值来决定;在技术上,它采用线张宾等:Internet流量模型分析与评述119性映射,用过去的值来映射未来的值,在给定的时间序列中选取函数的参数使得预测结果的误差最小.P阶自回归模型AR(p)随机变量的当前值X t由过去p个值的线性组合加一个白噪声扰动项εt组成,形式如下:X t=φ1X t−1+φ2X t−2+…+φp X t−p+εt (2) 其中,φj为实数.使用AR模型预测时,只需求解线性方程组,计算相对简单.因此,AR模型的应用很广泛.尽管AR模型易于计算,但其自相关函数以指数形式衰减,所以不能很好地模拟比指数衰减要慢的自相关结构的流量.3.4 传统模型的不足传统流量模型的优点是相应的概率理论知识发展比较完善,队列系统性能评价易于数学解析.由于传统的业务模型只有短相关性,即在不同的时间尺度上有不同特性,从而无法描述网络的长相关性.从传统模型得到的结论是:这些模型仿真产生的业务,通常在时域仅具有短相关性,当业务源数目增加时,突发性会被吸收,聚合业务变得越来越平滑,不能反映业务突发性;而且,传统模型产生的业务流高频成分多而低频成分少,相关结构呈指数衰减,因而不能准确地描述流量自相似性.总结起来,有以下几点:1)实际的数据包和大部分连接的到达是相关联的,并不严格服从泊松分布;2)传统的业务模型只具有短相关性,而流量自相似性反映业务在较大时间尺度具有突发性,对缓存的占用比传统排队论的分析结果要大,这样会导致更大的延时.这说明泊松到达流量模型会降低网络的性能;3)对于传统模型,当业务源数目增加时,突发性会被吸收,聚合业务会变得越来越平滑,但却忽略了流量的突发性.4 自相似(长相关)模型自从1994年流量的自相似特性被发现后,各种基于自相似性的流量模型被不断地提出.基于网络流量的自相似性,有两类建模方式:一类是构造建模(物理模型),这类方式试图利用己知的传输知识来解释所观察到的数据特征,如由于资源共享而导致大量信源叠加的事实,这类建模方式中具有代表性的有重尾分布的ON/OFF模型、A1pha-Beta on/off模型以及M/G/∞排队模型;另一类是行为建模(统计模型),这类方法试图用数据拟合方法模拟所测量真实数据的变化趋势,代表模型有FBM模型和基于小波的模型等.4.1 重尾分布的ON/OFF模型模型定义为叠加大量的ON/OFF源,每个源都有两个周期交替的ON和OFF状态.在ON状态,数据源以连续的速率发送数据包;在OFF状态,不发送任何数据包.其中,每个发送源ON或OFF的时长独立地符合重尾分布(如Pareto分布).传统的ON/OFF模型假定ON态和OFF态的持续时间均以指数形式分布.扩展这种模型使ON态和OFF态的持续时间有无限的方差(即高可变性或Noah效应)[46,47],这样,无数个源的叠加就呈现出长相关性(Joseph效应)[48].A1pha-Beta on/off模型[49]在ON/OFF模型的基础上进一步把高速率、高容量的连接定义为Alpha流量,把低速率、低容量的连接定义为Beta流量.Alpha流量占全部连接的很少一部分(少于0.1%),而对整个流量的属性有很大的影响,Beta流量基本上表现为高斯边缘分布.此模型分别用相应的ON/OFF模型生成对应的A1pha-Beta流量,然后合成.用ON/OFF模型叠加产生自相似流量可以解释产生自相似的部分原因:经检测发现[5],若文件大小符合重尾分布,则对应的文件传输均导致链路层的自相似性,而与所用的传输协议等相关较小.这种模型包含明确的物理意义,有助于深入地了解自相似的本质.其缺点在于,假设前提过于严格,即各个源端必须是独立同分布的,且输出速率为常数,而大多数网络业务的分布是无法建立在此前提上的.这些都使得它在实际应用中受到很大限制.4.2 M/G/∞排队模型排队论的基本思想是1910年丹麦电话工程师Erlang在解决自动电话设计问题时开始形成的,当时称为话务理论.图1为一最简单的排队系统模型.排队系统包括3个组成部分:输入过程、排队规则和服务机构.排队系120 Journal of Software 软件学报 V ol.22, No.1, January 2011 统一般是以顾客相继到达系统的间隔时间分布、服务时间的分布和服务台数目为分类标志.现代常用的分类方法是英国数学家肯德尔提出的分类方法,即用肯德尔记号X /Y /Z 进行分类.X 处填写相继到达间隔时间的分布,Y 处填写服务时间分布,Z 处填写并列的服务台数目.各种分布符号有:M -负指数分布,D -确定型,Ek -k 阶埃尔朗分布,GI -一般相互独立分布,G -一般随机分布等.Queuing systemFig.1 Queuing system model图1 排队系统模型用M /G /∞排队模型构造自相似序列的方法最早是由Cox 提出来的,于1998年被Krunzy 用于视频流量的建模[50].结果显示,此模型能够较好地反映实际流量的排队性能.M /G /∞模型表示:输入顾客流服从参数为λ的Poisson 过程(因M 表示相继到达的时间间隔呈负指数分布),系统内有无穷个服务设备,每个服务设备的服务时间T 服从独立同分布G .M /G /∞序列是指排队系统中的顾客总数在时间轴上构成的序列.M /G /∞模型可以通过选取不同的G 使序列具有长/短相关的结构,系统的服务时间G 服从Pareto 分布的时候,顾客总数序列构成一个渐进自相似过程.M /G /∞序列无法直接用概率密度或分布函数描述.改进后的M /G /∞模型[28](包间隔即顾客流用Pareto 分布代替指数分布)生成的流量更能反映真实流量的排队特性.M /G /∞排队模型也是一种采用构造方式的自相似网络流量模型.由于现在IP 网络设备都基于分组交换,并且在设备的接口上都采用了统计复用的实现方式,所以该模型的一个优点在于从排队系统的角度解释了网络流量产生自相似特性的原因;另外一个优点是该模型比较适合于分析自相似网络流量输入时的排队性能.但是,该模型假设了服务器一直处于忙期,主要凭借服务时间的随机性来描述自相似特性,因此对网络流量的突发性描述方面存在不足.4.3 FBM /FGN 模型分形布朗运动(fractional Brownian motion,简称FBM)是由Manderbrot 和Van Ness 提出的一种统计自相似过程的数学模型[51],主要用于生成布朗运动过程.其定义如下:定义(FBM ). 设X (t )为一般布朗运动,称满足如下条件的随机过程X H (t )为分形布朗运动:{}01/21/21/2 (0)0,()(0)1/(1/2)[()()]d ()[()]d ()H H H H H H X X t X H t s s X s t s X s Γ−−−−∞−∞=−=+−−−+−∫∫ (3) 其中,t >0,0<H <1,X (s )为一般布朗运动.当H =1/2时,FBM 即为一般布朗运动.FBM 是一种不平稳的自相似过程,其自相似系数为H .FBM 是一个均值为0的连续高斯过程,其平稳增量过程是分形高斯噪声FGN(fractional Gaussian noise).令Z H (k )=X H (k )−X H (k −1),则Z H (k )即为FGN,FGN 是平稳的严格二阶自相似过程.在此基础上,Norros 提出了一个自相似网络业务流模型[52].令()i t A 为第i 个信源在时间[0,t ]内输入的网络业 务流,其输入平均到达速率为m ,网络的聚合业务流的形式化表示如下:, (0,)t t A mt t =∈+∞ (4)A t 表示到时刻t 为止的所有网络业务流.其中,m 为整个网络流量的平均到达速率,a >0为方差系数,X t 为标准的分形布朗运动且其自相似系数H 满足0.5<H <1.产生分形布朗运动的主要算法是RMD [53]法,但此算法生成业务的Hurst 系数与期望值不一致:当0.5<H <0.75时,其值偏大;而当0.75<H <1时,其值偏小;尤其是当H =0.5时,生成的业务数据与标准的布朗运动有较大偏差.另一种方法是通过对分形高斯噪声的频谱进行快速傅里叶逆变换而获得业务数据,所生成的业务源Hurst 指数具有较好的一致性,而且业务数据样本的边缘分布非常接近高斯分布[54].此外,还有采用小波变换[55]的方法和线性近似[56]的方法产生分形布朗运动.张宾 等:Internet 流量模型分析与评述121FBM 模型能够描述网络业务流的自相似特性,只需要平均速率m 、方差a 和Hurst 参数3个参数就可以完整地刻画整个模型,在数学上有坚实的理论基础且比较好处理,因而可以很方便地应用于流量的实时仿真和特性分析.FBM 模型分析网络流量时也存在一些不足:由于FBM 是严格自相似的过程,模型的参数较少使得其描述能力有限,可以用来对长相关数据进行建模,但无法描述业务的短相关特性,从而不能对既有长相关特性又有短相关性的流量准确建模;而且,FBM 模型带有高斯性,对于非负的信号(即非高斯性的信号)也不能很好地分析.4.4 FARIMA 模型分形ARIMA (p ,d ,q )[57,58]过程(fractional autoregressive integrated moving average)是ARMA (p ,q )的一个扩展形式,在d 为0时即为ARMA (p ,q )模型,其定义如下.定义(FARIMA ). 若均值为0的平稳随机序列{X k }满足如下条件:1212212()(), (0.5,0.5), ()1...,(1)()()1..., (1)()/(()(1))d k k k k p d d k k p d k q k k q d B X B d B BX X B B B B B C B B B B B C d k d k φΔθεφφφφΔθθθθΓΓΓ−⎧=∈−=⎪⎪=−−−−=−=−⎨⎪⎪=−−−−−=−+−+⎩∑是延迟算子分形差分算子 (5) 则称X k 是FARIMA (p ,d ,q )过程.其中,Γ为Gamma 函数,εk 为高斯过程.当k →∞时,其自相关函数为21(1)()||()d x d k k d ΓρΓ−−≈ (6) 因此,FARIMA (p ,d ,q )是二阶渐进自相似过程,且具有自相似参数H =d +1/2.FARIMA 是一个时间序列模型,通过p ,d ,q 这3个参数来控制自相关结构,用p +q +1个参数刻画样本中的短相关结构;采用d =H −0.5描述样本的长相关结构.参数d 的取值区间不同,FARIMA 过程的特性也不同.如果p =q =0,即FARIMA (0,d ,0),它是FARIMA (p , d ,q )过程的最简单的形式,一般称为分形差分噪声.事实上,当0<d <0.5时,FARIMA (p ,d ,q )过程可以被看作是一个分形差分噪声FARIMA (0,d ,0)驱动的ARMA (p ,q )过程,其数学表达为X k =φ−1(B )θ(B )Y k (7)其中,Y k =Δ−d εk 是FARIMA (0,d ,0)中的分形差分噪声. 分形FARIMA (p ,d ,q )算法其实就是先产生分形差分噪声FARIMA (0,d ,0),然后利用分形差分噪声驱动ARMA 模型获得FARIMA 模型.实现分形差分算子是FARIMA 网络流量建模的一个关键,可以利用第1.1节的Hurst 参数估计法间接地对d 进行近似估计.FARIMA (p ,d ,q )是一种渐近二阶自相似过程,可以有效地描述样本流量的长相关特性,同时也能很好地表示具有短相关结构的业务流量.但是,由于模型本身的复杂性和参数较多,计算量很大,算法复杂性为O (n 2),使其在实际应用中存在一定的局限性.4.5 基于小波的模型小波变换是20世纪80年代后期在泛函分析、数值分析、逼近论和傅里叶分析基础上发展起来的一个应用数学分支.经过多年的发展,小波分析被广泛地应用于信号处理、图像处理、模式识别、数字水印等相关领域中.具有多分辨率,也叫多尺度的特点,可以由粗及细地逐步观察信号.小波分析是一种窗口大小(即窗口面积)固定但其形状可以改变、时间窗和频率窗都可以改变的时频局部化分析方法(即在低频部分有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率),可以根据实际分析需要自适应地调节时频窗口,能够聚焦到信号时域和频域的任意细节.自20世纪90年代开始,研究人员逐渐将其引入到网络模型的研究中,依靠它的多尺度特性来进一步揭示网络中的流量特征[59].随机信号X (t )∈L 2(R )的连续小波变换(continuous wavelet transform,简称CWT)定义为*,,,,()()d d , (), 0, ab a b a b a b R W X X t t t t t a b ψψψ=〈〉=>∈∫ (8) 称W a ,b 为小波系数.ψ(t )为小波母函数,ψ(t )经过尺度为a 的伸缩和参数为b 的平移后得到正交基ψa ,b (t ),则。
基于机器学习的网络流量分类方法研究
基于机器学习的网络流量分类方法研究一、引言近年来,随着网络技术的不断发展与普及,网络流量量级不断增加,对网络流量进行准确分类和分析的需求也日益紧迫。
网络流量分类是指将网络中的数据流分配到相应的应用或协议类别中,以实现对网络流量的监管与管理。
而基于机器学习的网络流量分类方法,凭借其对大规模、复杂的流量数据进行分析和学习的能力,逐渐成为解决该问题的有效手段。
本文将探讨不同的机器学习算法在网络流量分类中的应用和性能评估。
二、研究背景传统的网络流量分类方法主要基于端口、IP地址或协议头等特征进行分类,然而这些方法难以应对日益复杂多变的网络应用场景。
而机器学习算法通过对大量的带有标签的流量数据进行学习,能够识别出流量中的隐含特征,并将其应用于未知数据的分类中。
因此,研究基于机器学习的网络流量分类方法具有重要的理论与实际意义。
三、常用的机器学习算法1. 支持向量机(Support Vector Machines, SVM)支持向量机是一种主要用于二分类问题的机器学习算法。
它通过在特征空间上构造一个超平面来实现对样本的分类。
在网络流量分类中,支持向量机可用于识别具有不同协议或应用的流量。
2. 决策树(Decision Tree)决策树是一种基于树状结构的机器学习算法。
它通过对特征进行分割,并构建一个树状的决策过程来实现对样本的分类。
在网络流量分类中,决策树可用于识别不同的流量类型。
3. 随机森林(Random Forest)随机森林是一种集成学习方法,它将多个决策树组合起来进行分类。
通过对每个决策树的预测结果进行投票,随机森林能够有效地提高分类的准确性。
在网络流量分类中,随机森林可用于处理大规模数据集,提高分类效果。
4. 深度学习(Deep Learning)深度学习是一种基于神经网络的机器学习算法。
它通过多层次的神经元网络进行特征提取和模式识别,能够处理大规模、复杂的数据,并取得优秀的分类性能。
在网络流量分类中,深度学习可以利用其强大的学习能力,获得高准确度的分类结果。
QoS部署
第五章QoS部署为了在IP网上提供QoS,IETF提出了许多服务模型和协议,其中比较突出的有IntServ (Integrated Services)模型和DiffServ (Differentiated Services)模型。
IntServ模型要求网络中的所有节点(包括核心节点)都记录每个经过的应用流的资源预留状态,需要通过IP包头识别出所有的用户应用流(进行MF分类),同时为每个经过的应用流设置单独的内部队列以分别进行监管(Policing)、调度(Scheduling)、整形(Shaping)等操作。
对于现在大型运营网络中的节点,这种应用流(活动的)的数量非常庞大,会远远超出节点设备所能够处理的能力,而且可扩展性差,仅适合在小规模网络中使用。
DiffServ模型的基本原理是将网络中的流量分成多个类,每个类接受不同的处理,尤其是网络出现拥塞时不同的类会享受不同的优先处理,从而得到不同的丢弃率、时延以及时延抖动。
在DiffServ的体系结构下,IETF已经定义了EF (Expedite Forwarding)、AF1-AF4(Assured Forwarding)、BE(Best Effort)等六种标准PHB(Per-hop Behavior)及业务。
DiffServ对聚合的业务类提供QoS保证,可扩展性好,便于在大规模网络中使用。
本次工程推荐使用DeffServ机制实现QOS。
DiffServ域将设备分为两类,边缘设备和核心设备,其中边缘设备承担了较多的工作,如流分类、标记、带宽限制、拥塞管理、拥塞避免、流量整形等。
如果由单一设备全部处理,开销较大,容易形成网络瓶颈,因此需要将这些功能分布到不同的设备上去,如流分类功尽量在边缘实现。
5.1 QoS技术介绍IP网QoS技术包括:Diff-Serv、MPLS-TE、IP电信网技术。
Diff-Serv技术的核心思想为不同的业务保证不同的QoS等级,Diff-Serv实施的主要技术如下:流分类:包括IPv4的五元组、VLAN、PVC、端口、优先级标记等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( xSi r )
x Sir
若 | Zi( r 1) Zi( r ) | , i 1, 2,..., k ,则聚类过程结束,否则转(2).
P维空间聚类法
Bernaille等提出了基于TCP连接的前p个报文来识别应用类 型的技术。 若流f用P维空间点来表示,则每个分组对应空间中一个维 度,第i维的坐标值代表了第i分组的大小(i=1,…,P)。则两 点距离代表了其相似度。 相似度计算公式:
协议掩码M的生成
协议指纹分类法
协议指纹的计算:
(1)协议掩码Mp,即协议的概率分布函数PDF (2)协议阈值Tp,定义了某种协议流与其协议掩码M之 间的差异。
异常向量A:
1 Ai ( P , M i ) i max( , M i ( P )) i 协议异常S: n
Sn ( F , M )
(1)
(2)
(3)
已知K个类别,M个特征和N个训练数据点,每个 数据点由一对{Xj∈IRM,Gj∈{1,…,K}}构成,其中Xj 是特征向量,Gj是第j个数据点的类别。 然后通过学习算法得到分类规则或分类模型。分 类模型提供了映射G:IRM→{1,…,k}。 给定一个新的数据点,则根据该分类模型可以得 到它的类别。
统计流分类法
统计流分类方法包括:
柱状图分类法 协议指纹分类法 基于统计签名的分类法
柱状图分类法
Trussell提出了统计分类的思想,利用了柱状图 对以太网报文大小建模,研究了其流量类型及 其含量:
a ( E{B}) * E{h}
N k
1
S .T .
a
1, a R , 0 ak 1
CERNET2010
Internet流量分类技术
秦董洪 清华大学网络中心 2010-10-28
内容提要
流分类意义 传统流分类法 统计流分类法 基于ML分类法 TDGs推理法 结论
流分类的意义
网络流分类是认识、管理、优化各种网络资源 的重要依据,对网络运行与管理、安全检测等 都有非常重要的作用。 流分类的过程:
协议阈值Tp:
| 1 Ai ( P , M i ) / n | Amin i Amax Amin
Tnp {Sn ( F , M p )} {Sn ( F , M p )}
协议指纹:
p
{M , T }
p p
基于统计签名的分类法
流量特征包括:平均分组大小、流持续时间、流平 均字节数、流平均报文数。 签名特征的实时计算采用递推的公式:
C和A为聚类和应用类型的数目,Nac是应用类型a被归到聚 类c的流的数目,Nc是聚类c中流的总数目,聚类c的类内同 质性H即为所有Hc的平均值。
K-means聚类
K-means聚类是Mac Queen提出的一种无监督的聚类算法,它在 最小化误差函数的基础上将样本集划分为预定的类数k。 聚类误差函数为误差平方和(error square sum, ESS)。根据训练集 自身的结构特性,算法将训练集划分成k个聚类并使得该误差函 数为最优。 K-means算法计算步骤如下:
C( X ) arg max
cj
P (C c j | X ) P ( x1 , x2 , , xn | C c j ) P (C c j ) P( X ) P (C c j ) P ( xi | C c j )
i
arg max
cj
arg max
cj
P( X )
C为预测流的应用类型,cj为某应用类型,xi为流属性。
(1) (1) (1) 任选k个初始聚类中心 Z1 , Z 2 ,其中上标为迭代计算次数。 , , Z k 第r次迭代,对训练集中任一样本x若 d ( x, Zi( r ) ) min{d ( x, Zi( r ) ), i 1, 2,..., k} ,则 1 ,i=1,…,k x 重算聚类中心 Z n
均值: 方差:
k 1
1 k ( zk 1 k ) k 1
1 k [ ( zk 1 k )2 k2 ] k 1 k 1
k21 k2
简单模式分类
最近邻法(nearest
neighbor, NN) 线性判别分析(linear discriminate analysis, LDA)
SVM分类法
支持向量机- support vector machine, SVM. SVM分类法基本思想是在样本空间中构造最优分类超平面,使 得超平面与不同类别的样本集之间的距离最大,从而达到最大 的泛化能力。 假设有m 类C={c1,c2, … ,cm}, 训练样本集为{(xi, yi), i=1,…, n},其 中yi∈C。SVM 模型就是一个分类超平面的优化问题:
E{.}为均值运算,hM×1是网络流量的PSD,M是柱状
图的bin数目,BM×N由N个bM×1应用类型的psd构成, N为应用类型的数目;aN×1是每种应用类型的所占 权重,它代表在网络流量中各种应用类型所占比例。
协议指纹分类法
Crotti等提出了协议指纹的概念,它代表了一种协议 所产生流的统计特性,可以用来识别这种协议的流 类型。 协议掩码M代表了该应用层协议的特征。
动态端口的使用; 隧道(或加密隧道)的使用。
基于载荷分析的流分类法
基本原理:通过分析报文中的载荷来确定它们 是否含有已知应用的特征签名。例如,应用层 载荷含有特定签名GET * HTTP。 优点:准确度高。 缺点:
填充或加密技术导致了方法失效;
仅能识别签名有效的流量;
需要增加处理和存储开销; 分析流量的有效载荷会侵犯隐私和安全。
应用领域
网络流量分类是认识和管理各种网络资源的重 要依据,广泛地应用于如下领域:
网络运行与管理 网络安全
QoS管理
容量规划 趋势分析
入侵检测
合法拦截 ……
结论
阐述了Internet流分类的意义。 详细介绍了四种流分类技术,以及若干具体算法:
传统流分类法 统计流分类方法 基于ML分类法 TDGs推理法
平均度(average degree, AD) 最大度比率(max degree ratio, MDR) 方向性(directionality)。 GCC大小(giant connected component, GCC)。 深度(depth)
目前,利用TDGs来推理流量类型的研究还处于起步阶段, 要将它变成一种有效的网络监视和流分类工具,还有大量 研究要做……。
基于ML分类法
机器学习(machine learning, ML)主要研究如何从一 些观测样本出发得出目前尚不能通过原理分析得 到的规律或知识,利用这些规律或知识去对未来 数据或无法观测的数据进行预测或分类。
机器学习过程通常包括两个阶段:
分类模型的构建 使用模型进分类
基于ML分类法
arg min
, d ,b , e
n 1 T J ( w, d , b, e) w w d ei2 2 i 1
s.t. yi wT φ( xi ) b ei , ei 0, i 1, 2,..., n w为权值向量,b为标量,xi为样本,yi为类别,φ为核函数,ei为松弛 变量,d为正则化参数(或惩罚因子) 。
传统流分类方法
传统流分类方法包括:
端口号映射的流量分类 基于载荷分析的流量分类
端口映射的流分类法
工作原理:通过检查报文中的源端口和目的端 口的值来识别应用的类型。
例如,IANA预定义和分配的周知端口(1024以下的
端口),HTTP为80等。
优点:最简单,在过去很成功。 缺点:
Naï veBayes方法 支持向量机SVM分类法
无监督(聚类)算法:根据特征值的相似度将网络流分 成不同的类别,这些类别不是预先定义的而是由算法 本身运算得到的,它反映了数据的内在统计特性。
AutoClass K-means聚类 P维空间聚类法
Naï veBayes方法
训练阶段。计算训练集的统计特性包括两步: (1)统计训练集中各类型的先验概率P(C=c) (2)假设各属性相互独立,统计其条件概率P(xi|C=c) 分类阶段。若给定流实例X,则计算各类型在X下的条件概率 P(c|X),取最大值类型为X的预测类型。
sim( fi , f j )
( xik x jk ) 2
k 1
p
流fk的类别:
c( f k ) arg min(| f k f i |)
i
TDGs推理法
Iliofotou等使用了流量传播图(traffic dispersion graphs, TDGs) 作为一种分析和识别网络流量的抽象工具。在IP网络中, TDGs的节点对应于不同IP地址的实体, TDGs的边存在一种 隐含时序关系即显示了网络中相应节点交互次序。TDGs 边按不同的研究目的有多种不同的定义方式。 TDGs边按节点对之间交互类型(kind of interaction)的定义称 作“边过滤”(edge filtering)。TDGs边的交互类型包括以 下5种情况:
阐述了流分类技术的应用领域。
Thanks
(1)交换分组的数目或字节数; (2)交换分组的类型和顺序; (3)传输层协议; (4)基于端口或端口范围的应用; (5)分组载荷的属性。