快速流分类算法研究综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
快速流分类算法研究综述
李振强
(北京邮电大学信息网络中心,北京 100876)
摘要
本文对流分类算法进行了综述,包括流分类的定义,对流分类算法的要求,以及各种流分类算法的分析比较。文章的最后指出了在流分类方面还没有得到很好解决的问题,作为进一步研究的方向。
关键词
流分类;服务质量;IP
背景
当前的IP网络主要以先到先服务的方式提供尽力而为的服务。随着Internet的发展和各种新业务的出现,尽力而为的服务已经不能满足人们对Internet的要求,IP网络必须提供增强的服务,比如:SLA(Service Level Agreement)服务,VPN(Virtual Private Network)服务,各种不同级别的QoS (Quality of Service)服务,分布式防火墙,IP安全网关,流量计费等。所有这些增强服务的提供都依赖于流分类,即根据包头(packet header)中的一个或几个域(field)决定该包隶属的流(flow)。典型的,包头中可以用来分类的域包括:源IP地址(Source IP Address)、目的IP地址(Destination IP Address)、协议类型(Protocol Type)、源端口(Source Port)和目的端口(Destination Port)等。
流分类算法描述
首先定义两个名词:规则(rule)和分类器(classifier)。用来对IP包进行分类的由包头中若干域组成的集合称之为规则,而若干规则的集合就是分类器。构成规则的域(我们称之为组件component)的值可以是某个范围,例如目的端口大于1023。流分类就是要确定和每个包最匹配的规则。表1是由6条规则组成的一个分类器。我们说这是一个5域分类器,因为每条规则由5个组件构成。我们假定分类器中的规则是有优先级的,越靠前的规则优先级越高,即规则1的优先级最高,规则6的最低。
分类器中的每条规则有d个组件。R[i]是规则R的第i个组件, 它是包头第i 个域的一个通用表达式。如果对于任意i, 包头的第i域满足R[i]的表达式,那么该包就匹配规则R。实际中,规则组件常常用地址/掩码或者操作符/数字的方式表达。在地址/掩码方式中,如果掩码的某位是0,表示我们不关心地址中的对应位,如果掩码为1,则反之。操作符/数字表达方式是指如下的形式:等于21,范围 55-1023。
传统路由器中查中下一跳IP地址所使用的最长匹配算法其实就是一维流分类的一个特例。我们可以认为所有去往同一个网络(network prefix)的包都属于一个流。包应该转发往的下一跳的IP地址就是规则的行为(action),而前缀的长度决定的规则的优先级,前缀越长优先级越高,即特定主机路由具有最高优先级。
对流分类算法的要求
流分类算法具有位数宽、多维(multiple dimension)和允许范围匹配等特性,这就决定了流分类算法的复杂性。高速路由器对快速分组转发能力的需求又要求流分类算法必须具有很高的吞吐能力(具有“线速”的流分类能力)。这使得流分类算法的设计具有较高的难度。一个好的流分类算法应该具有如下的特征:
查找速度高:随着网络链路速度的提高,流分类必须具有较高的匹配速度。
内存消耗少:算法需要的内存少,就可以使用价格较高的但速度较快的存储技术,例如SRAM,CACHE等。
能够适用于实际中的规则较多的分类器
容易实现:算法应便于采用软件和硬件的方式进行实现,要便于采用流水线结构和并行逻辑进行实现。
预处理时间短:在应用算法进行实际流分类之前,初始化数据结构需要的时间要尽量短。
能够快速更新:动态性好,预处理完成后能够容易的从分类器中删除和向分类器中添加规则。
用于流分类的域具有可扩展性:算法能够对5域(源IP地址、目的IP 地址、源端口、目的端口和协议类型)的任意组合进行分类。
规则的任意性:一个好的算法应该能够支持不同形式的规则,包括前缀,操作符(大于, 等于, 小于,范围等),统配符等。
国内外研究现状
目前流分类算法主要应用了三种数据结构:线性表,树和Hash表。这三种方法都是在预处理时建立相应的数据结构,流分类时通过一次或多次查找建立的数据结构和一些简单的处理获得最终的分类结果。使用线性表数据结构的算法包括:Linear Search、Ternary CAM、Crossproducting、Recursive Flow Classification等。使用树数据结构的算法包括:Hierarchical Tries、Set-Pruning Tries、Grid of Tries、Hierarchical Intelligent Cuttings、Aggregate Bit Vector等。使用Hash表数据结构的算法包括:Tuple Space Search等。下面对每一种算法进行简要的分析,指出各自的优缺点。
Linear Search
这种算法采用的数据结构最简单,规则以链表的方式降序存储。分类时数据包从表头开始依次和链表中的各个规则进行比较,直到找到一条匹配的规则或者达到链尾。尽管该算法存储效率高,简单,但是查找时间长,并且查找时间随规则数的增加而线性增加。
Ternary CAM
Ternary CAM算法具有最快的分类时间,只需要一个内存访问周期。但该算法只能由硬件实现,需要的CAM存储器的容量为dNW(d:分类器的维数,N:分类器中规则的个数,W:每一维的宽度,下同)。CAM存储器价格高,耗电量大,不能直接支持范围匹配,因而对d, N, W的扩展性均较差,只能用于较小的流分类问题。
CrossProducting[6]
CrossProducting算法将多维的流分类问题建立在多个一维流分类基础上,利用多个一维流分类的结果查找CrossProducting表获得最终的流分类结果。该方法便于实现,时间复杂度是dW,空间复杂度为Nd,对规则维数和数量的可扩展性较差。
Recursive Flow Classification[1]
RFC是由Pankaj Gupta和Nick McKeown提出的一种适合多域流分类问题的算法,具有流分类速度快,直接支持范围和前缀匹配等优点。但当d, N, W 增加时,所需存储空间太大。如果该算法所基于的特征在所用的分类器中不具有或不明显,每一维长度的压缩量将很小,这将严重影响流分类的性能。该算法的另一个缺点是动态性差,添加一条新规则在最坏的情况下需要重建整个数据结构,因而不适合规则频繁变化的流分类器。
Hierarchical Tries
Hierarchical Tries是对一维查找树的一种简单扩展,它从d维中任选一维生成第一级查找二叉树,对该二叉树中的每一个与分类器中第一维匹配的结点,按分类器中规则的第二维建立另一个二叉树,反复上述过程直到完成每一维的处理,就构成了多维分层查找树。该方法简单、直接,也便于硬件实现,但查找时间较长,对d的扩展性差,也不直接支持范围匹配。
Set-Pruning Tries[7]