网络流量分类研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服务质量,还能对网络进行有效的监督管理。
研究意义
❖ 通过流分类,可以获悉各类网络应用所占比例,研究新的协 议与应用,预测网络业务的发展趋势,合理规划网络;
❖ 定期分析重要的特定流量,了解流入流出信息,发现设备故 障、链路拥堵、用户带宽的使用及发现入侵和恶意攻击等。
现有的网络流量分类产品
❖ Niksun公司的NetDetector
程、到达间隔及其局部特性等 ❖ d)Stream-level:关注主机对之间的应用流量
流量分类度量标准
TP(True Positives),属于类别X并被正确
预测为类别X的百分比;
FN(False Negatives), 属于类别X但被预
测为不是类别X的百分比;
FP(False Positives),不属于类别X但被预
目前,分类模型的构造 方法主要包括决策树、朴素 贝叶斯、支持向量机、关联 规则学习、神经网络、NN 算法、LDA算法和遗传算法 等。
基于机器学习的流量分类—聚类
无监督学习,它是最终要发现相似 数据点的结合,相对于有监督的机 器学习法,无监督学习不需要事先 有待分类对象的先验知识,只是根 据待分类对象的相似度分类。
❖ Cisco公司的SCE
采用DPI对应用层协议进行识别; 只能识别已知的非加密协议;
不同层面(粒度)的流量分析
❖ a)Bit-level:关注网络流量的数据特征 ❖ b)Packet-level:关注数据包(packet)的特征及其到达过程
、延迟和丢包率等 ❖ c)Flow-level:依据地址和应用协议划分,关注流的到达过
目前常用的聚类算法也有很多,如: k-means算法、DBSCAN、 AutoClass和EM算法等。
几种分类方法比较
分类方法 准确度
分类速度 使用场景
优点
缺点
是否单独适合高Байду номын сангаас速网络流量分类 是否单独适合加
密流量分类 是够单独适合精 细化流量分类
基于端口号
低 很快 使用传统IANA注 册端口号的传统 网络
基于特征字段的流量分类
❖ 根据网络应用在传输过程中所具有的特征来区分不同的应用, 需要解析数据包中的特征字段。主要用于识别P2P协议流量。
基于传输层主机行为的流量分类
分析主机在传输层的
行为模式,主要有三个特 点:不需要访问数据包的 载荷内容;无需识别端口 号;只需采集当前的流量 信息。
主要分析三个层次的内容: 社会层:分析某台主机与
是,需配合其他 方法 是
是
基于机器学习 较高 慢
传统及新型网络 应用
可扩展性强,能 够识别加密流量
耗费资源过多
试验阶段 是 是
流量分类未来发展预测
可以总结为以下几点:
逐步避免依赖端口号; 无需检测用户数据包的负载内容; 能迅速得到新型应用的识别特征; 在高速骨干网络环境中,对流量进行实时精确地分类; 为避免涉及用户隐私问题,对加密流量的分类; 更细粒度的层次上对网络流量进行分类; 协议动态变化时的流量分类。
简单快速
若应用不使用 IANA注册的端口 号或使用动态端 口号,该方法无
法使用
否
否
否
基于特征字段 非常高 慢
数据包有效负载 为明文
适合P2P等新兴 网络应用
开销大,涉及用 户隐私问题
是,但范围有限
否
是
基于传输层主机 行为 较高 较快
大流量骨干网络
能对加密数据进 行分析,开销较
低、易实施
无法识别特定应 用的子类型
网络流量分类研究
❖ 演讲人:衡丽花 ❖ 导 师:王宗敏 ❖ 指导老师: 陈 刚
主要内容
❖ 研究背景、意义和现状 ❖ 流量分类基本概念 ❖ 当前流量分类进展 ❖ 几种分类方法的比较 ❖ 流量分类未来发展预测 ❖下一步工作
研究背景
❖ 自P2P网络出现以来,网络流量越来越大; ❖ 网络流量管理技术可以帮助网络运营商提供更好的
哪些主机进行相互通信; 功能层:研究主机在网络
中的功能,即它是做为一个提 供者还是请求者,或者是两者 兼有;
应用层:捕获特定主机间
的相互作用,利用一个四元组 通过观察流的特性来细化分类。
基于机器学习的流量分类—分类
也称监督机器学习方法, 根据已标记样本的特点构造 分类规则或分类器,将未知 类别的样本映射到给定类别 中的一个。它的输入为一些 已经分好类的样本实体的集 合,输出为通过这些样本产 生的一个分类模型。主要包 括两个过程:训练过程和分 类过程。
测为类别X的百分比;
TN(True Negatives),不属于类别X并被
预测为不是类别X的百分比。
Accuracy:
TP+TN
TP+FN+FP+TN
Recall:
TP
TP+FN
Precision:
TP
TP+FP
基于端口号的流量分类
❖ 依赖TCP或UDP数据包中的端口号,将熟知的端口号进行映 射来识别不同的应用类型。分类器只需找到一次TCP连接中 的SYN包,并从这个SYN包中找到目的端口号即可。UDP也 使用类似的方法。
下一步工作
❖ 对机器学习中的几种算法通过实验进行性能比较 ❖ 找出一种效率及准确率更高的流量分类算法
参考文献
[1]熊刚,孟姣,曹自刚,王勇,郭莉,方滨兴.网络流量分类研究进展与展望 [J].集成技术,2012 [2]彭芸,刘琼.Internet流分类方法的比较研究[J].计算机科学,2007 [3] Thuy T.T.Nguyen,Grenville Armitage.A survey of techniques for internet traffic classification using machine learning.In IEEE,2008. [4] Sen S, Spatscheck O, Wang D. Accurate, scalable in network identifi cation of P2P traffi c using application signatures [C] //In WWW2004. New York(USA), 2004. [5] Moore A, Papagiannaki K. Toward the accurate identification of network applications [C] //Proceedings of Passive and Active Measurement Workshop ( PAM2005).Boston(USA), 2005. [6]Karagiannis T,Papagiannaki K,Faloutsos M.BLINC:Multilevel traffic classification in the dark.In ACM. October 1st 2005. [7]徐鹏,林森.基于C4.5决策树的流量分类算法[J].软件学报,2009. [8]胡婷,王勇,陶晓玲.网络流量分类方法的比较研究[J].桂林电子科技大学, 2010. [9]席讴婕,李茹.基于k-means和自适应谐振理论的网络流量分类方法.内蒙古大 学.2010.
提供实时、连续的流量记录和分析; 需时较长,工程规模复杂,费用极高;
❖ FLUKE公司的网络协议分析仪OPV_WGA
提供对网络的从一层到七层的全部分析; 基于端口的传统协议;
❖华为3Com公司的NTA(Network Traffic Analysis)
基于三层协议号、端口号,可以识别上千种应用; 无法分析四层至七层的应用流量;
研究意义
❖ 通过流分类,可以获悉各类网络应用所占比例,研究新的协 议与应用,预测网络业务的发展趋势,合理规划网络;
❖ 定期分析重要的特定流量,了解流入流出信息,发现设备故 障、链路拥堵、用户带宽的使用及发现入侵和恶意攻击等。
现有的网络流量分类产品
❖ Niksun公司的NetDetector
程、到达间隔及其局部特性等 ❖ d)Stream-level:关注主机对之间的应用流量
流量分类度量标准
TP(True Positives),属于类别X并被正确
预测为类别X的百分比;
FN(False Negatives), 属于类别X但被预
测为不是类别X的百分比;
FP(False Positives),不属于类别X但被预
目前,分类模型的构造 方法主要包括决策树、朴素 贝叶斯、支持向量机、关联 规则学习、神经网络、NN 算法、LDA算法和遗传算法 等。
基于机器学习的流量分类—聚类
无监督学习,它是最终要发现相似 数据点的结合,相对于有监督的机 器学习法,无监督学习不需要事先 有待分类对象的先验知识,只是根 据待分类对象的相似度分类。
❖ Cisco公司的SCE
采用DPI对应用层协议进行识别; 只能识别已知的非加密协议;
不同层面(粒度)的流量分析
❖ a)Bit-level:关注网络流量的数据特征 ❖ b)Packet-level:关注数据包(packet)的特征及其到达过程
、延迟和丢包率等 ❖ c)Flow-level:依据地址和应用协议划分,关注流的到达过
目前常用的聚类算法也有很多,如: k-means算法、DBSCAN、 AutoClass和EM算法等。
几种分类方法比较
分类方法 准确度
分类速度 使用场景
优点
缺点
是否单独适合高Байду номын сангаас速网络流量分类 是否单独适合加
密流量分类 是够单独适合精 细化流量分类
基于端口号
低 很快 使用传统IANA注 册端口号的传统 网络
基于特征字段的流量分类
❖ 根据网络应用在传输过程中所具有的特征来区分不同的应用, 需要解析数据包中的特征字段。主要用于识别P2P协议流量。
基于传输层主机行为的流量分类
分析主机在传输层的
行为模式,主要有三个特 点:不需要访问数据包的 载荷内容;无需识别端口 号;只需采集当前的流量 信息。
主要分析三个层次的内容: 社会层:分析某台主机与
是,需配合其他 方法 是
是
基于机器学习 较高 慢
传统及新型网络 应用
可扩展性强,能 够识别加密流量
耗费资源过多
试验阶段 是 是
流量分类未来发展预测
可以总结为以下几点:
逐步避免依赖端口号; 无需检测用户数据包的负载内容; 能迅速得到新型应用的识别特征; 在高速骨干网络环境中,对流量进行实时精确地分类; 为避免涉及用户隐私问题,对加密流量的分类; 更细粒度的层次上对网络流量进行分类; 协议动态变化时的流量分类。
简单快速
若应用不使用 IANA注册的端口 号或使用动态端 口号,该方法无
法使用
否
否
否
基于特征字段 非常高 慢
数据包有效负载 为明文
适合P2P等新兴 网络应用
开销大,涉及用 户隐私问题
是,但范围有限
否
是
基于传输层主机 行为 较高 较快
大流量骨干网络
能对加密数据进 行分析,开销较
低、易实施
无法识别特定应 用的子类型
网络流量分类研究
❖ 演讲人:衡丽花 ❖ 导 师:王宗敏 ❖ 指导老师: 陈 刚
主要内容
❖ 研究背景、意义和现状 ❖ 流量分类基本概念 ❖ 当前流量分类进展 ❖ 几种分类方法的比较 ❖ 流量分类未来发展预测 ❖下一步工作
研究背景
❖ 自P2P网络出现以来,网络流量越来越大; ❖ 网络流量管理技术可以帮助网络运营商提供更好的
哪些主机进行相互通信; 功能层:研究主机在网络
中的功能,即它是做为一个提 供者还是请求者,或者是两者 兼有;
应用层:捕获特定主机间
的相互作用,利用一个四元组 通过观察流的特性来细化分类。
基于机器学习的流量分类—分类
也称监督机器学习方法, 根据已标记样本的特点构造 分类规则或分类器,将未知 类别的样本映射到给定类别 中的一个。它的输入为一些 已经分好类的样本实体的集 合,输出为通过这些样本产 生的一个分类模型。主要包 括两个过程:训练过程和分 类过程。
测为类别X的百分比;
TN(True Negatives),不属于类别X并被
预测为不是类别X的百分比。
Accuracy:
TP+TN
TP+FN+FP+TN
Recall:
TP
TP+FN
Precision:
TP
TP+FP
基于端口号的流量分类
❖ 依赖TCP或UDP数据包中的端口号,将熟知的端口号进行映 射来识别不同的应用类型。分类器只需找到一次TCP连接中 的SYN包,并从这个SYN包中找到目的端口号即可。UDP也 使用类似的方法。
下一步工作
❖ 对机器学习中的几种算法通过实验进行性能比较 ❖ 找出一种效率及准确率更高的流量分类算法
参考文献
[1]熊刚,孟姣,曹自刚,王勇,郭莉,方滨兴.网络流量分类研究进展与展望 [J].集成技术,2012 [2]彭芸,刘琼.Internet流分类方法的比较研究[J].计算机科学,2007 [3] Thuy T.T.Nguyen,Grenville Armitage.A survey of techniques for internet traffic classification using machine learning.In IEEE,2008. [4] Sen S, Spatscheck O, Wang D. Accurate, scalable in network identifi cation of P2P traffi c using application signatures [C] //In WWW2004. New York(USA), 2004. [5] Moore A, Papagiannaki K. Toward the accurate identification of network applications [C] //Proceedings of Passive and Active Measurement Workshop ( PAM2005).Boston(USA), 2005. [6]Karagiannis T,Papagiannaki K,Faloutsos M.BLINC:Multilevel traffic classification in the dark.In ACM. October 1st 2005. [7]徐鹏,林森.基于C4.5决策树的流量分类算法[J].软件学报,2009. [8]胡婷,王勇,陶晓玲.网络流量分类方法的比较研究[J].桂林电子科技大学, 2010. [9]席讴婕,李茹.基于k-means和自适应谐振理论的网络流量分类方法.内蒙古大 学.2010.
提供实时、连续的流量记录和分析; 需时较长,工程规模复杂,费用极高;
❖ FLUKE公司的网络协议分析仪OPV_WGA
提供对网络的从一层到七层的全部分析; 基于端口的传统协议;
❖华为3Com公司的NTA(Network Traffic Analysis)
基于三层协议号、端口号,可以识别上千种应用; 无法分析四层至七层的应用流量;