基于机器学习的流量分类

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于机器学习的加密流量分类研究
引言
随着互联网技术不断发展，网络规模逐渐增大，网络应用业务类型不断涌现。

网络应用迅速产生了大量流量，对网络业务的识别，监视，控制和安全管理方面带来巨大的挑战。

互联网各种应用类型有着自身的统计特征，通过分析这些特征，可以对网络流量进行有效分类，帮助网络管理人员对网络流量进行控制。

传统的流量分类方案一般是基于数据包载荷信息，数据包头部信息，服务端口号等，但是随着动态端口，加密，网络代理，多重封装等技术，例如，一些网络恶意攻击行为经常采用web默认80端口进行通信，因此传统分类方法受到很大挑战，因此采用机器学习方法进行网络流量分类成为研究热点，根据网络流属性的统计特征，建立分类模型，可以有效规避上述问题，取得了很好的分类效果，受到学术界广泛关注。

相关工作
目前，已经有大量的机器学习算法被应用于网络流量分类，其中有代表性的学习算法有：朴树贝叶斯（NB），贝叶斯神经网络（BNN），C4.5算法，支持向量机（SVM）等，通过对网络流量的属性特征进行统计，运用机器学习算法建立分类模型，可以对未知流量进行分类或预测。

近期的相关研究工作的贡献如下:
2005年，剑桥大学的Moore[1]等人提出基于概率模型的朴素贝叶斯方法，该方法利用先验概率和样本数据信息，计算出最大的后验概率值，从而得出样本类型，该方法具有较高的分类精度，建模开销小的特点。

但是该方法要求参与分类的各项属性条件独立而且遵循高斯分布,然而在流量分类问题中,原始的网络流属性集合很难满足上述条件，因此该方法的实际应用受到极大限制。

Panchenko[2]等人采用包括总传输的字节数、总传输数据包个数、每个方向数据包比例、html文件的大小、及数据包的大小等特征作为候选属性集，利用SVM(支持向量机)算法进行分类，在样本总类512以下，有载荷加密，数据包填充，网络代理等防御措施下，分类精度可以达到80%，然而该方法只针对网页应用进行类型识别。

Kevin P. Dyer [3]等人提出利用一条数据流的总传输时间、每个方向的带宽总消耗、bursts bandwith等粗粒度信息作为特征集而不考虑每个数据包信息（大小及方向）之类的细粒度特征，这样可以有效降低数据包填充等防御措施对分类精度的影响，该方法取得了与Panchenko等人相似的精度。

国内方面，国防科学技术大学的王锐等人率先将支持向量SVM(support vector machine)方法应用到P2P 流的识别领域.他们利用网络连接数相关的统计属性将网络流简单划分为P2P 流和非P2P 流,然而他们所用的统计属性依赖于应用的连接模式,因此,该方法与基于传输层行为的流量识别方法相似,分类结果的稳定性极易受到网络环境的影响。

本文研究的目的在于找到一种能够检测恶意网络行为的数据流量，提出了一种在现有的传统分类模型的基础下，采用基于决策树算法的分类模型对流量进一步进行判别来检测出异常流量的两层结构。

3、分类结构
3.1 分类模型如下图所示：
（1）利用常用协议通信端口的不同，可将流量初步分类，如http（80）、https（443）、VoIP 等协议。

（2）初步分类之后，只能确定应用类型，还不能确定具体的网络服务商，是否为恶意流量等信息，所以有必要利用机器学习分类器对流量进行更详细的判别，并能检测出异常流量信息。

3.2 特征选取
机器学习分类阶段主要任务是根据网络流统计特征样本建立流量分类模型，特征选择和模型建立是该步骤核心子任务。

选取适当的网络特征对分类精度有直接影响。

由于网络流量的属性特征存在冗余，对分类作用不大。

特征选择就是要挑选兼顾计算精度和计算开销的最优特征属性集。

正如文献[3] 中的分析，粗粒度信息具有很好的分类效率，本文主要采用流量的粗粒度属性特征：
（1）流量中各个方向数据传输总字节数，及各所占比例。

（2）网络流量中数据传输方向改变的次数。

（3）前20个burst数据包的大小及burst 总数。

（4）总的传输时间和总的带宽消耗。

3.3 决策树算法
3.4 分类器模型
4 实验验证
4.1 实验平台及分析工具
本文所使用的数据挖掘工具是Weka-3.5.6[17].该工具是由新西兰怀卡托大学Witten 教授等人开发的开源工作平台.该平台利用Java 语言实现了决策树、朴素贝叶斯等多种机器学习方法。

运行windows 7 系统的PC
4.2 数据采集
Wireshark
4.3 特征提取
4.4 实验结果与分析。