数据挖掘_网络流量分类研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

流量分类未来发展预测
可以总结为以下几点:
逐步避免依赖端口号; 无需检测用户数据包的负载内容; 能迅速得到新型应用的识别特征; 在高速骨干网络环境中,对流量进行实时精确地分类; 为避免涉及用户隐私问题,对加密流量的分类; 更细粒度的层次上对网络流量进行分类; 协议动态变化时的流量分类。
下一步工作
对机器学习中的几种算法通过实验进行性能比较 找出一种效率及准确率更高的流量分类算法
基于机器学习的流量分类—聚类
无监督学习,它是最终要发现相似 数据点的结合,相对于有监督的机 器学习法,无监督学习不需要事先 有待分类对象的先验知识,只是根 据待分类对象的相似度分类。 目前常用的聚类算法也有很多,如: k-means算法、DBSCAN、 AutoClass和EM算法等。
ห้องสมุดไป่ตู้
几种分类方法比较
基于传输层主机行为的流量分类
分析主机在传输层的 行为模式,主要有三个特 点:不需要访问数据包的 载荷内容;无需识别端口 号;只需采集当前的流量 信息。
主要分析三个层次的内容: 社会层:分析某台主机与 哪些主机进行相互通信; 功能层:研究主机在网络 中的功能,即它是做为一个提 供者还是请求者,或者是两者 兼有; 应用层:捕获特定主机间 的相互作用,利用一个四元组 通过观察流的特性来细化分类。
只能识别已知的非加密协议;
不同层面(粒度)的流量分析
a)Bit-level:关注网络流量的数据特征 b)Packet-level:关注数据包(packet)的特征及其到达过程 、延迟和丢包率等 c)Flow-level:依据地址和应用协议划分,关注流的到达过 程、到达间隔及其局部特性等 d)Stream-level:关注主机对之间的应用流量
参考文献
[1]熊刚,孟姣,曹自刚,王勇,郭莉,方滨兴.网络流量分类研究进展与展望 [J].集成技术,2012 [2]彭芸,刘琼.Internet流分类方法的比较研究[J].计算机科学,2007 [3] Thuy T.T.Nguyen,Grenville Armitage.A survey of techniques for internet traffic classification using machine learning.In IEEE,2008. [4] Sen S, Spatscheck O, Wang D. Accurate, scalable in network identifi cation of P2P traffi c using application signatures [C] //In WWW2004. New York(USA), 2004. [5] Moore A, Papagiannaki K. Toward the accurate identification of network applications [C] //Proceedings of Passive and Active Measurement Workshop ( PAM2005).Boston(USA), 2005. [6]Karagiannis T,Papagiannaki K,Faloutsos M.BLINC:Multilevel traffic classification in the dark.In ACM. October 1st 2005. [7]徐鹏,林森.基于C4.5决策树的流量分类算法[J].软件学报,2009. [8]胡婷,王勇,陶晓玲.网络流量分类方法的比较研究[J].桂林电子科技大学, 2010. [9]席讴婕,李茹.基于k-means和自适应谐振理论的网络流量分类方法.内蒙古大 学.2010.
数据挖掘 网络流量分类研究
主要内容
研究背景、意义和现状 流量分类基本概念 当前流量分类进展 几种分类方法的比较 流量分类未来发展预测 下一步工作
研究背景
自P2P网络出现以来,网络流量越来越大; 网络流量管理技术可以帮助网络运营商提供更好的 服务质量,还能对网络进行有效的监督管理。
流量分类度量标准
TP(True Positives),属于类别X并被正确 预测为类别X的百分比; FN(False Negatives), 属于类别X但被预 测为不是类别X的百分比; FP(False Positives),不属于类别X但被预 测为类别X的百分比; TN(True Negatives),不属于类别X并被 预测为不是类别X的百分比。 Accuracy: TP+TN TP+FN+FP+TN Recall: TP TP+FN Precision: TP TP+FP
基于端口号的流量分类
依赖TCP或UDP数据包中的端口号,将熟知的端口号进行映 射来识别不同的应用类型。分类器只需找到一次TCP连接中 的SYN包,并从这个SYN包中找到目的端口号即可。UDP也 使用类似的方法。
基于特征字段的流量分类
根据网络应用在传输过程中所具有的特征来区分不同的应用, 需要解析数据包中的特征字段。主要用于识别P2P协议流量。
基于机器学习的流量分类—分类
也称监督机器学习方法, 根据已标记样本的特点构造 分类规则或分类器,将未知 类别的样本映射到给定类别 中的一个。它的输入为一些 已经分好类的样本实体的集 合,输出为通过这些样本产 生的一个分类模型。主要包 括两个过程:训练过程和分 类过程。 目前,分类模型的构造 方法主要包括决策树、朴素 贝叶斯、支持向量机、关联 规则学习、神经网络、NN 算法、LDA算法和遗传算法 等。
FLUKE公司的网络协议分析仪OPV_WGA
提供对网络的从一层到七层的全部分析; 基于端口的传统协议;
华为3Com公司的NTA(Network Traffic Analysis)
基于三层协议号、端口号,可以识别上千种应用;
无法分析四层至七层的应用流量;
Cisco公司的SCE
采用DPI对应用层协议进行识别;
研究意义
通过流分类,可以获悉各类网络应用所占比例,研究新的协 议与应用,预测网络业务的发展趋势,合理规划网络; 定期分析重要的特定流量,了解流入流出信息,发现设备故 障、链路拥堵、用户带宽的使用及发现入侵和恶意攻击等。
现有的网络流量分类产品
Niksun公司的NetDetector
提供实时、连续的流量记录和分析; 需时较长,工程规模复杂,费用极高;
分类方法 准确度 分类速度 基于端口号 基于特征字段 低 非常高 较高 很快 慢 慢 使用传统IANA注 数据包有效负载 传统及新型网络 使用场景 大流量骨干网络 册端口号的传统 为明文 应用 网络 能对加密数据进 适合P2P等新兴 可扩展性强,能 优点 简单快速 行分析,开销较 网络应用 够识别加密流量 低、易实施 若应用不使用 IANA注册的端口 开销大,涉及用 无法识别特定应 缺点 耗费资源过多 号或使用动态端 户隐私问题 用的子类型 口号,该方法无 法使用 是否单独适合高 是,需配合其他 否 是,但范围有限 试验阶段 速网络流量分类 方法 是否单独适合加 否 否 是 是 密流量分类 是够单独适合精 否 是 是 是 细化流量分类 基于传输层主机 行为 较高 较快 基于机器学习
相关文档
最新文档