流量的精确识别

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

流量的精确识别

一:国内外研究的现状

随着互联网应用种类不断的增多,网络流量不断增大。这就要求流量识别和控制技术需要进一步发展以适应当前严峻的形势。正则表达式算法、模式匹配算法、硬件加速等各种技术不断融入到传到的网络识别和控制技术当中。这些技术的发展和衍生提高了流量识别和控制的实时性、准确性和可靠性。近些年的国际学术会议上,不断涌现了关于流量识别和流量控制的研究成果。国内外各大网络设备厂商如华为、思科、爱立信等也推出了各自的流量识别与控制产品。流量控制技术巳经有较为成熟的理论支持,所以网络流量识别技术成为研究的重点。

1:基于IANA端口(Port)的识别法

传统的流量识别技术釆用基于端口的识别方法。即只是检测网络报文层的内容,就是仅对报文的五元组”信息进行检测,包括源地址、目的地址、源端口、目的端口以及协议类型。其中,主要对端口的检测来区分不同的应用类型。

但是一些知名网络应用特别是一些软件、软件为了逃避运营商的网络监管,很多都会使用动态端口技术,采用一些非常规的端口,如表所示。基于端口的识别技术在相当长的一段时间里该技术占有重要的地位。但是,等分析了当时最为流行的六种软件的应用层特征和使用的网络端口,明确提出了基于端口的识别技术已经失效的观点,并指出现在的软件已经采用了新的网络通信技术。

根据KIM和KANG的研究指出目前端口识别技术已经不能识别互联网上的流量。由于出现了端口复用、协议复用、协议模糊等技术演变,端口识别方法只是作为辅助的识别手段。现在许多软件都使用随机端口技术或者盗用一些常见协议端口进行伪装,仅仅通过端口识别显然是不够的

2: 基于DPI的识别方法

所谓的DPI,即Deep Packet Inspection深度报文检测。所谓的“深度”报文检测是相对于基于端口的识别方法而言。对整个L2-L7上的信息进行检测,对报文的分析扩张到了应用层。基于的识别方法大多釆用特征匹配算法。

在特征匹配算法的研究上,目前的研究主要集中在基于软件的匹配算法上。BM算法、CW算法八:AC算法、KMP算法都是通过对单模式匹配算法的改进来提高匹配速率, 等提出了基于偏移约束的应用层自动提取算法,通过类算法来自动获取流量特征。基于硬件的特征匹配算法成为了研究的热点。

3:基于DFI的识别方法

DFI即Deep Flow Inspection深度流检测。釆用的是一种基于流量行为的识别方法。识别方法主要是针对DPI方法的不足提出的,它不对网络流量的应用层进行深度解析,只关注与网络流量特征的通用性。通过对网络流浪的平均流速、流持续时间、流状态、网络层和传输层信息、字节长度分布等参数的统计分析,来获取网络流量的类型。例如,互联网上的一些应用的流量就具有比较明显的流状态特征,主要表现为包长相对固定,通常在130byte到220byte之间,同时,连接速率比较低,一般维持在20kbit/s到82kbit/s之间,并且会持续相当长一段时间。一些应用的流量的平均包长也比较固定,一般维持在

450byte以上,并且连接速率高,使用TCP协议作为传输层协议

基于的识别方法也有些比较明显的优点,比如处理速度快、维护成本低等。但是也有比较明显的缺点就是识别率低、精确度不能保证,不过可以把作为辅助的流量识别手段。

4: 基于数据挖掘的识别方法

数据挖掘(Date Mining)是通过分析每个数据,从大量数据中寻找其规律。当前,数据挖掘已经被应用到了各个领域当中,并将成为未来10年的重要的技术,从2005年开始流量的识别的研究就开始设计数据挖掘中的分类算法

数据挖掘中的分类算法一般包括三类,即监督式的学习算法、无监督式的学习算法和半监督式的学习算法。在有监督式的学习算法研究方面,Roughan等将连续时间和流量报文中的平均字节数作为流量分类的特征,并提出利用该特征可以作为网络应用分类标准的思路.Moore等采用贝叶斯分类方法对于网络流量进行分类识别,该方法运用人工分类的网络数据作为有监督式朴素贝叶斯估计的输入。研究结果表明,采用有监督式朴素贝叶斯估计能实现单条流的识别率达到,两条流合并识别率更可以提高到95%

二:解决方案

基于数据挖掘的应用识别方法,从应用会话内容中自动提取应用特征,然后根据特征匹配识别应用。在这个方案中重要的是提取应用特征,应用特征在会话中表现出的特性是特征提取算法设计的依据;

应用特征提取就是从应用层数据中提取能够代表某种应用的全部特征的集合.在通信过程中,应用特征一般具高频率(在一种会话集中反复出现)和关联性(在一个会话中同现),同时在一个会话中的偏移量(MO和BO)是相对固定的,据此提出一种特征自动提取(signaturesetselection,SS-se-lec)算法,该算法是对经典的关联规则发现算法— Apriori算法进行了改进,使其适合于提取应用会话中的频繁会话片段集,再经过适当过滤规则筛选得到代表某种应用的特征集

2.1网络应用提取特征的方法:

1:可以通过查阅应用层协议的相关的文档找到应用特征,但是这中只能对于部分的有效果,比如HTTP协议的标准文档RFC2616;

2:通过wireshark、tcpdump等补包工具对网络上采集的应用层数据进行分析和统计,得到应用特征,但是这种方法效率不高,而且可信对也不高

3:设计特征提取算法来提取应用层的特征,要设计出这种算法,首先应该搞清楚应用特征在会话层种表现出来的特性;从补获的单一应用流量种划分会话,及对会话进行重组是特征提取算法的基础数据重组方法:首先,收集单一应用的流量(Trace)作为该应用流量的训练样本集,然后,依据分组报头(header)的二元组(sourceIP、destinationIP)信息及TCP 数据流传输层会话建立和结束的标志(SYN,ACK,RST/FIN)将其划分成不同会话,并同时将每一个会话按照时间顺序依次保存其报文数据到一个数据文件中,完成其重组过程;对于UDP流量,其会话的开始、结束标志是空闲时间(idletime)大于一个给定阈值(常取64s).在会话报文重组基础上,实现基于会话的应用特征自动提取.

2.2识别算法的结构

应用识别模型由训练过程和识别过程组成

相关文档
最新文档