基于行为特征的P2P流量快速识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
邮局订阅号:82-946360元/年技术创新
软件时空
《PLC 技术应用200例》
您的论文得到两院院士关注
基于行为特征的P2P 流量快速识别
Classifying P2P stream quickly with behavior pattern
(哈尔滨工业大学)
戴强张宏莉叶麟
DAI Qiang ZHANG Hong-li YE Lin
摘要:网络中P2P 流量的快速识别,对于实现网络流量控制和QoS 保证提供了有效的流量组成结果。本文提出了一种基于行为特征的流量识别技术,捕获流量数据,分析数据集端口与IP 个数比值,上行数据量和下行数据量比值,实现P2P 流量快速识别。
关键词:P2P;流量识别;行为特征
中图分类号:TP393.08文献标识码:A
Abstract:This paper indicates a quick classification of p2p streams while focusing on the behavior characteristics of streams.In order to get higher correct rate,the ratio of input packets and output packets and the scope of packet length are considered.The given re -sults illustrate the practicability of the design.
Key words:Peer-to-peer;flow classification;behavior characteristics
文章编号:1008-0570(2009)01-3-0209-02
1概述
目前基于P2P 协议的网络应用快速发展,极大地推动了网络发展,但其网络带宽过度消耗亦成为自身发展的桎梏。用户希望能有效地引导P2P 流量及其服务,促进了P2P 流量识别的研究。从研究方法上,P2P 流量识别主要分为基于端口的方法、基于应用层特征的方法和基于流量模式的方法。
P2P 应用在早期使用固定端口号通讯,如Gnutella 使用6346-6347端口,BitTorrent 使用6881-6889端口。为实现P2P 流量的识别,采用P2P 应用程序端口建立分类器,识别数据集中的P2P 流量。基于端口的识别法简单迅速,结果准确度高。
为了避免对P2P 应用的恶意干扰,目前P2P 应用采用随机端口方式隐藏数据报文,端口已经无法唯一标识P2P 应用。Thomas Karagiannis 和Andre Broido 依据协议分析以及逆向工程提出基于应用层特征的方法,其统计结果表明,P2P 应用中部分数据报文携带特定字段,如eMule 协议中存在0xE3,BitTor -rent 含有0x13Bit 。该类方法能够准确识别已知数据格式的P2P 应用,但P2P 协议更新频繁,从而需要依据协议的变化动态增
减特征串,扩展性差。
随着用户安全性的加强,部分P2P 应用已采用加密传输数据,目前约20%的BitTorrent 和eDonkey 流量采用了加密设计,
95%的因特网电话流量来自于加密的Skype 。加密流量导致基
于应用层特征的识别法失去效果,进而出现基于流量模式的方法,该类方法依据P2P 流量的内在特征实现流量识别。研究人员在离线方式下采用K-均值聚簇算法和DBSCAN 算法,统计
TCP 连接时间间隔等特征;或者采用EM 算法,统计数据报文的
有效载荷与数据报文到达时间的比值,依据大数据量的统计结果获取P2P 流量中的报文分布特征,进而识别具备相应特征的P2P 流量。文献中提出基于社会层、功能层、应用层的启发式分析方法,综合了P2P 客户端IP 出现频率实现流量识别。基于流量模式的识别法不检查数据报文的应用层内容,不受数据加密的限制,有效预测未知P2P 流量,但对内存空间以及处理速度提出了比较大的要求。
2P2P 流量快速识别方法
P2P 流量作为网络中的一种流量类型,采用TCP 连接实现共享文件数据的传输。P2P 网络中的节点同时具备客户机和服务器的功能,在文件共享过程中,P2P 流量具备以下特征。
2.1TCP 连接特征P2P 流量具有多个对端IP 和对端Port 。对于P2P 文件传输,一个P2P 客户端(源端)和一个或多个P2P 客户端(对端)建立连接。相对于源端,对端的IP 地址数量较多,对端的IP 和对端Port 都是随机的,而且对端IP 和对端Port 个数比值接近1.0(部分Port 可能相同)。采用对端IP 的数量以及对端IP 和对端Port 个数的比值作为P2P 流量的一个
识别特征。
2.2上下行P2P 流量特征
P2P 应用在传输文件时,源端向对端稳定上传、下载数据,受用户主观影响小,上行流量和下行流量对称。对于P2P 应用,
单个时间段内源端数据下载总量和上传总量的比值在一定的区间内波动。
2.3数据报文大小特征
考虑到网络中协议繁多,P2P 应用在传输过程中,多数IP 数据报文含有一定大小的有效载荷。网络中各种应用由于应用目的的不同,数据报文大小存在一定的分布规律,通过分析数据报文大小规律,可以提高识别的准确率。
本文将eMule 作为典型的P2P 应用进行分析。eMule 协议通过TCP 连接传输数据,实现文件共享,因此本文针对文件传输过程中的行为特征进行研究。
3P2P 流量快速识别步骤
3.1对端IP 地址数量、IP 地址数量与Port 数量的比值
(1)源端和对端连接以后,使用TCP 传输数据,捕获单个时间片内数据传输过程当中的数据报文,统计对端IP 地址总数(IP_Num)和对端不同的Port 总数(Port_Num)。
(2)计算比值(Ratio =IP_Num/Port_Num)。实验设定Ratio 取值范围。如果Ratio 不在这个范围之内,则认为不属于P2P 数据报文。
戴强:硕士生
209--