p2p流量识别

合集下载

P2P流量识别技术的研究

P2P流量识别技术的研究

如果从 Pe 的角度而言,2 er P P系统存在 以下特 点: er @Pe 知道其他 P e 在网络 中的位置 ( I 地 er 如 I ) 址 、 口号等) 而在传统 电信网络只有通过运营商 端 , 设备 ( H R、 N 如 L D S等) 才能找到用户; er  ̄P e 同时
具有 Ci t Sre 的特 点 ,这 也是 它 与 CS架 构 ln 和 evr e / 最 显著 的 区别 , 络 中的 节 点 (er既 可 以 获取 其 网 pe)
P P流 量识别 技 术及 研 究进 展 , 后对 P P流 量识别 技术 的发 展提 出了看 法 。 2 最 2
关 键词 : 2 ; 量识 别: 口识别 P P流 端
中图分 类 号 :P 9 T 33
文献标 识 .7 2( l)1 260 2
K y r s P PTr伍 CIe t c to ; o t d n i c t n e wo d : 2 ; a ni ain P r I e t ai d i f i f o
0 引 言
种分布式网络,其中的参与者共享它们所拥有部分
或全 部 资源 ( 处 理 能力 、 储 能力 、 络 能力 等 ) 如 存 网 ,
之 j( 二 如互 联 网) ④ 多个 P e 可 以组成 为一 个 Pe ; er er 组 , er Pe 的这 种 属 性一 方 面 可 以符 合 人类 社 会 的群 组特性, 同时也降低了技术实现难度 。
Ab ta t T i p p r ec ie ed f io n h r ceit s f 2 , n o tep it f e ra ay i i s r c: h s a e sr s h e nt n a dc aa tr i P P a df m on p e n lss t d b t i i sc o r h o s

带背景流的P2P流量识别技术研究

带背景流的P2P流量识别技术研究

带背景流的P2P流量识别技术研究欧阳玲;宋克【摘要】The Diversity and complexity of Peer hosts in P2P application systems and P2P application traffic make P2P traffic identification approach based on only typical feature inaccurate. We propose a novel multi-phase identification method to reveal P2P traffic from traffic aggregation. Our method is based on a set of heuristics derived from the robust properties of P2P traffic. Experiments indicate the classification accuracy of our proposed method can reach 99. 7%, while the false positive is lower than 0. 3%.%针对P2P (peer- to peer,对等体网络)应用系统中对等体主机的行为特征与P2P业务流量特征多样化、复杂化,使得单纯利用一种典型特征的P2P流量分类技术的识别精度不高的问题,提出了一种新的P2P流量多阶段识别方法;该方法根据P2P应用流量的一系列固有特征,可以从聚合网络流中识别P2P流量;通过实验表明,该方法P2P流识别精度可达99.7%,同时错误分类精度0.3%.【期刊名称】《计算机测量与控制》【年(卷),期】2011(019)010【总页数】3页(P2562-2563,2570)【关键词】P2P;聚合流量;典型特征;流量分类【作者】欧阳玲;宋克【作者单位】中原工学院,河南郑州 450052;国家数字交换系统工程技术研究中心,河南郑州 450005【正文语种】中文【中图分类】TP393.00 引言近几年来,P2P作为一项全新的Internet技术得到飞速发展,不断涌现出新型的P2P协议及应用软件,如国外的BitT-orrent、eDonkey、Skype,国内的迅雷、PPLive、QQ等,P2P给网民带来方便快捷的同时,已成为当前网络带宽的“杀手级”应用,其上传/下载比趋近于1,造成传统xDSL网络的上行链路极易拥塞,并且存在许多安全隐患。

P2P网络流量识别技术的研究

P2P网络流量识别技术的研究

1引 言
Itme 的 迅速 发 展带 动 了 网 络 带 宽 的 快 速 增长 , 大 的 ne t 广
网 络 使 用 者 喜 欢 使 用 各 类 P P和 点 对 服 务 器 技 术 2 ( ert P e o
对 于 以 上情 况 , 制 P S 控 2 P这 类 应 用 流 量 , 决 P S 解 2 P带 来 的 网络 拥 塞 。最 简 单 的方 法就 是 禁 止 P P和 P S 2 2 P的应 用 . 但 目前 P P和 P S 2 2 P的 应 用 已经 被 非 常 多 的 用 户所 喜 爱 。 一旦 禁
tef w. is ae ec b sapia o d terltdtc n lge nP e ev r e r P P , a s fsv r pc rfc h o Th p rd sr e p l t na h eae eh oo is e rt S re&P e ( 2 ) a l i o ea t ia ta l p i ci n o o n ys e l y l i
【 关键 词】流 量 识 别 P P 深度 包检 测 2 连 接 模 式
中 图分 类 号 : P 9 文 献 标 识码 : 文章 编 号 :0 8 1 3 ( 0 0 0 — 0 3 T 33 A 10 — 7 9 2 1 )6 6 —
The S v y o P a c I ntfc to e ha im ur e fP2 Tr f de i ai e eo me to ne ta d bo d a d n t rs P e o P e (2 )a d P S p L a o saei- sr c : t te rpd d v lp n fItme n ra b n ewok , e rt er P P n 2 P a p ct n r h i n

基于BP神经网络聚类算法的P2P流量识别

基于BP神经网络聚类算法的P2P流量识别

习段 和检 验 段 , 再 训 练 网络 , 拟 合 学 习段 时 间 序
列, 使其 误 差平 方和 达到最 小 ; 最 后用 检验 段数 据
数据 挖 掘作 为 人 工 智 能 研究 的 热 点 , 其 基 本 原 理 是分 析数 据 库 中的数 据得 到有 用 的数据 或知
识, 其 中包 括 有 监督 机 器 学 习 的 分类 分 析 和 无 监 督 机 器学 习 的 聚类 分 析 , 利用 数 据 挖 掘 知 识 可 以 有 效识 别 P 2 P等 流 量 。有 监 督 的 机 器 学 习 算 法
策树 c 4 . 5分类 算 法 等 … 。无 监督 的机 器 学 习算
法 利 用聚类 算 法 对 训 练 样 本 ( 无类标 签 ) 进 行 聚 类, 根 据样 本属 性 间 的相 似程度 生成 不 同 的簇 , 当 簇 取得 较好 的类 内相似 度 和类 间相 异度 时结 束 训 练, 产 生模 型 用 于 识 别 , 包括基于划分、 密 度 和 模
无监 督 的 机 嚣 学 习 算 法 的优 点 , 能 快速 地进 行 精 确 的 流 量 识 别 , 即取 少 量 离线 的 流 量样 本 进 行 标 记 与 分
类. 然 后 利 用 分 类 结 果 为 聚 类 中心 对 大 量在 线 流 量 进 行 聚 类 识 别 。 这 样 既 提 高 了效 率 , 又 能 保 证 结 果 的 准确性。利用 B P神 经 网 络 对 所 采 集 的 少 量 流 量 数 据 中每 个 流按 包 大 小标 准差 、 变换 频 率 、 平 均值 、 包数 目和 总 字 节 数 5个 特 征 进 行 分 类 , 得 出 分 类 结 果 的 特 征 均值 , 对 大量 的在 线数 据 进 行 指 导 聚 类 。 多次 实 际 网络 测 试 结 果 的 准 确 率 很 高 , 证 明 该 算 法 模 型 是 可行 的 关键词 P 2 P流 量 识 别 B P神 经 网 络 聚 类 算 法 标 记 与 聚 类 加 密流 量

P2P流量识别和管控技术分析

P2P流量识别和管控技术分析
P 2P
流 量 识 别 和 管控
技术分析
_ 马 少 武 唐 雄 燕 姜智 峰 张 辉
_ 中国 网 通 集 团研 究 院
摘要 : 基于
P 2P
北 京 市 西 城 区 金 融 大街 2
l

10 0 0 3 2
模 式 的业 务 和 应 用 给 互 联 网 的发 展 带 来 了 巨 大 影 响


本 文 在 简 要分 析 了 现 网
-
特 征 字 如 果在数 据 包 的 相 应 位 置 能够找 到 这 些 特
征 字就 可 以 判 断 数据 包属 于 哪 种 类 型 的 网 络应 用
由此 可 以 大 致 判 别 出

M G C P


数 据 流 所 对应 的 应 用 业 务 类 型 能够 发 现 未 知
P 2P
此 方法 的 优 点 是
以 上 P 2 P 业 务还 可 以 分 为 基 于 T C P 和 U D P 的
P 2 P 业 务两 大 类
。 『 I

应用

具 有对 新 P 2 P 应 用 的 感

a
tu r e
特 征 值进行应

k
t
In
p e c tio n
)
用 层 流量 识 别
网 络应 用 的 数 据 包 中

各种 应 用 在
a
常用 端


口 检 测法 即利 用 P 2 P
应 用 发 展 的 初期使
不 同的 数据 包 位 置 都有

些 特有 的 固 定 的 S i g n
tu
r e
些 固 定 端 口 进行控制 和数 据 的 通 信 原 理 进 行检 如早 期 e D o n k

基于流量与行为特征的P2P流量识别模型

基于流量与行为特征的P2P流量识别模型
第 3 卷 第 l 期 8 6
V0 . 1 38






21 0 2年 8月
A u us 01 g t2 2
N O.6 1
Co p t rEng n e i m ue i e rng
人工 智能 及识 别技 术 ・
文章缡号;1 0_ 2( 1 l _ 8—0 0 —3 8 02 6 o 2_ 文献标识码: 0 4 2 )— 1 3 A
[ ywo d l t fcie t ct n P e- -er 2 )t - y rdmo e; a ei ewok S p o co c ieS Ke rs ri ni ai ; er oP e( P;wol ee d lB ysa n t r; u p rVetr hn(VM)bh vo aue a d f o i t・ P - a n t Ma ; e air etr f
2 S h o f e ti a nd I f r a in E i e rn , i e st fHu n I t r a i n l o o c , a g h 0 5 Ch n ; . c o l Elc rc l o a n o m to ng n e i g Un v r i o y na n e n t a o Ec n mi ห้องสมุดไป่ตู้ Ch n s a41 20 , i a
W U Shu・ yue’, U e , Y Ji FA N a pi Xi o- ng ( . c o fIf r ainS inc n gn e ig Ce r l uhUnv ri Ch n s a41 0 3 Chn ; 1 S ho l n om to ce ea dEn ie rn , nta t iest o So y, a g h 0 8 , ia

基于聚类分析的P2P流量识别

基于聚类分析的P2P流量识别
中 图分 类 号 : P 9 . 8 T 33 0 文 献标 识 码 :A
P2 r f i d ntfc to a e n c u t r a a y i P t a fc i e i ia i n b s d o l s e n l s s
ZH AO i Ka ,SH ICh ng q o g,ZH ANG — r c :Cur e l ta t r nty P2P t a fc i ntfc to o l m sbe n a f usa ti e e ui r fi de iia in pr b e ha e oc nd i s a pr r q — st o fe tv a ge e to P ta fc i r r t n g h e wo k be t r Tr di ief r e f c i e m na m n fP2 r fi n o de o ma a e t e n t r t e . a — ton li e tfc to t o r o ge f e tv n hi a e e l t r a a y i p— i a d n iia i n me h ds a e no l n r e f c i e a d t s p p r us sc us e n l ss a p o c o i e iy P2 ta fc r a h t d ntf P r fi.Gi e he c r c e itc fP2 ta fc,t l t rng f a ur v n t ha a t rs iso P r fi hec us e i e t e te s d fn d,by c lul tng t e d t r e i e i e a c a i h a a whih i c nn d fom he ne wo k,we o an t c s s a e r t t r bt i he

基于神经网络集成的P2P流量识别研究

基于神经网络集成的P2P流量识别研究

P Pf w dtc o d l sdv l e yuigcr l i —ae etr e c o ( F ) a o tm t 2 o e t nmo e i ee p db s or a o b sdfa esl t n C S l rh o l ei o n e tn u ei gi
第3 0卷
第 3期
南 京
邮 电 大 学 学 报
( 自 然 科
学 版

Vo . No. 130 3
21 0 0年 6月
Jun l f a igU i r t o ot adT l o muia os N t a Sine ora o m n nv sy f s n e cm nct n( a rl cec ) N e i P s e i u
Re e r h o 2P Tr f c I e tfc to s d o s a c fP a i d n i a i n Ba e n i Ne r lNe wo k En e b e u a t r s m l
X U e , ANG uo p ng W ANG H W S . i , Ru. h n , c ua ZHAo n Da
e ta tP x r c 2P o c a a t rsis.a tlzn i ns mb e n u a ewo k y d n mi i h e n e r — l f w h r ce tc i nd u iii g sx e e l e r ln t r sb y a c weg td i tg a to t d. T r ug e pe me tl c mp rs n bewe n h s r p s d mo e a ta iin l i n meho ho h x r i n a o a o t e t i p o o e d l nd r d t a meho , i o t ds

一种P2P流量识别方法的研究

一种P2P流量识别方法的研究

摘 要 :本 文先介 绍 了 目前主 流 的 P 2 P 流 量识别 方 法及 其优 缺 点 ,通过 实际捕 包分析 了B T协议 的 交互过程 及特 点 。 分析 选取 流量 特征 中的 平均 包长 度、流 持 续 时间、上 下行 流 量 包数 比、 目的端 口等 4个特征 ,结合 支持 向量机 方法对 网 络流 量 的进行识 别 。实 验结 果显 示 ,该 方法能 够有 效地 检测 网络 流量 中的 P 2 P 流 量。 关键 词 :P 2 P;流 量识 别 ;流行 为特征 ;支持 向量 机
计算机光盘软件与应用
工 程 技 术
C o m p u t e r C D S o f t w a r e a n d A p p l i c a t i o n s
2 0 1 3年第 0 1 期

种P 2 P 流量识别方法 的研 究
4 0 0 0 6 5 )
Hale Waihona Puke 杜 江 ,龙 涛 ( 重庆 邮 电大学通信 与信 息工程 学院 ,重庆
得 了不错 的分 类效 果 。 因此 本文通 过 流行 为特 征 的分析提 取 ,结合支 持 向量机 为 网络 流量特 征建 立 识别分 类模 型 。
1 协议 特征 分析
B T 网络 主要 由种 子文 件 、 目录 服务 器 、种子 提供 站 点和 内容 发布 者/ 下载 者共 5 部 分组 成 。 B T协 议规 范把提 供下 载 的文 件 虚拟 分成 大 小为 2 K B 的整 数 次方 的数 据 块 ,把每 个块 的 索引信 息和 哈希 验证 码写 入种 子文 件 中 。 发布 者将 种 子 文件 放 在种 子 发布 站 点供 下 载者 下 载 。B T 协议 主要 包括 3 个 部分 :种子 文件 的格 式 、  ̄ a c k e r 协议 和 端w k e 协 议 。B T协 议工 作 时的 交互过 程及 特 征为 B T协 议数 据流特 征 分析 提供 了基 础 。 常见 的 P 2 P应 用 中 由于 其 传输 的是 大流 量 的文件 或者 视频 流等 数据 , 因此其 传输 的 包 长 度与传 统 的 H T T P等协 议存 在着较 大 的差 异 。 一条 流 从开 始到 结束 , P 2 P应 用与 非 P 2 P应 用在 流持 续 时间上 存 在显 著差 异 。 P 2 P网络 中对 等节 点和 传统 应用 中的服 务器 不 同,一个 对等 节 点 同时与大 量 的节 点相连 接 , 每 个对 等 节 点既是 资源 的下载者 又是 资源 的提 供者 , 其 上行 流量 和 下行 流量 的 比值 基本相 当, 这 和传统 的 C / S模 式 的传输 方 式存 在者 巨大的 区别 。在常 见 的 We b应 用 中 ,通 常服 务 器是使用 固定的端 口来接收客户端的连接请求进行数据

基于跨层特征的P2P流量识别技术

基于跨层特征的P2P流量识别技术
E —Do k y n e
BT
T P端 口号 C
46 46 6 1, 6 2
6 8 8 1—68 0 9 6 4 6 4 3 6, 3 7 4 6 62 6 9 69 8 2 06
L me  ̄ i wl Emu e l
Wi nMX
詈 " 。 号 一 ∞ I
P P流量进 行合理 有效 的监控 , 2 促使 P P技术 和其 2
第2 9卷 第 1 期
21 年 O 月 01 1
佳 木 斯 大 学 学 报 ( 自 然 科 学 版 ) Ju a o Ja ui nvr t N trl c n eE io ) o r l f i s U i sy( a a Si c dt n n m ei u e i
V0 . 9 No 1 12 .
量属 于 P P流 量 , 之 亦 然 . 着 P P技 术 的发 2 反 随 2
0 引 言
P P技术 , 2 即对 等 网 络 ( ert P e ) P e o er 技术 , 是

展 ,P P应用 软件 通过采 用 非 常见 端 口号 、 用熟 2 使 知应用 的端 口号伪 装 自己的功能端 口、 允许 用户使
种不 同于客 户 端/ 务 器 ( l n S re) 构 的 服 C i t evr 结 e/
网络结构思想 . 资源共享性高、 容错性好、 扩展性 好 和分 布式 网络结构 的优 势使其 逐 步深入 语音 、 视 频 、 布式存储 、 布式计 算 、 人 即时通 信和协 同 分 分 个 工作等 领域 ¨ ; P P应 用所 产生 的流 量在互联 由 2
网总流量 中的 比重不 断增 加 . 同时 ,2 P P流量 具有 的带宽 侵略性 、 上下行 流 量对称 性 、 远在 线性 、 永 业 务点广 泛分布 等特征 给运 营商 、 教育 网 、 域 网、 城 企

基于统计特性的P2P流量识别方法研究

基于统计特性的P2P流量识别方法研究
1 P P 量 特 性 分 析 2流
f l ≤ ≤ ,流量的某个特性 表现 越强 ,其对应 的量化 值就越接 i 】 i2 。 e 1 近 于l 。流量本身是具有 连续性 的,流量统 计信息的量化结果也应 该呈现出连续性 。经过特性量化 以后 ,连续的一段流量就 转化为一 个具有指定意义的点 。为了准确描述 网络流量的变化情况 ,本文采 用滑动 窗口机 制实现P P 2 流量特性 的量化。流量的特性量化值不是 仅仅 由当前—个窗 口中的原始统计信息决定 ,而是由滑动 窗口机制 中的 “ w个发送窗 口”的信息共 同决定 。
性 两个 因素共 同决定 ,同时满足两个特性 的流量才被判定为PP 2流
量。
PP 2 流量 的统 汁特性都是描 述性 的统计特征 ,需要将这 些特 征 进行 数值化才能应用于P P 2流量 识别模型 中,并且量化值能 够有 效 反 映流量 的特 性强 弱程度 。在本文 的 没计中 ,流量 的特 性量化值
PP 2流量 ,该方法识 别准确 度高 ,但是受 与试验 主机进行 数据交换 的P P 2节点 的限制 ,有可能 识别不完全 ,漏检 率很高 。③基 于传输 层端 口的PP 2流量 识别方法 实现简单 ,花 费的系统资源也较 少 ,对 早期 的纯P P 量识 别很 有效 ,但 是当前很 多PP 2流 2协议 都开始 采用 动态端 口技术或借用知命端 口以规避检测 . 此时该 识别方法显得无 能为 力。④基 于流量特 征的PP 2 流量 识别方法是 一种新的流 量识别 方法 ,文献【】 出根据P P 2 提 2 应用的传输层 通信模式 特点进行 PP 2流 量识 别 ,能 够识别 出采用 随机端 口以及借 用熟知 端 口进 行通信 的 PP 2应用流量 ,与传统的 以流量 为研 究对 象的方法 不同 ,该方 法以 网络主机作为研究对象 ,识别流量方法简单有效。 本文提 出了一种新的基 于流量统计特性的 P P 量识别方法 , 2流 可以识别协议类型已知和未知的P P 2 流量。

采用两阶段策略模型(KTSVM)的P2P流量识别方法

采用两阶段策略模型(KTSVM)的P2P流量识别方法
P P流 量 识 别 方 法 2
丁要 军 ,蔡 皖东
(. 1西北工业大学计算机学院 , 1 1 9 西安 ; . 702 , 2 成阳师范学院信息工程学院 , 10 0 陕西咸 阳) 720 ,
摘 要 :针 对 识别加 密 P P 网络 流 量 比较 困难 的 问题 , 出一种 基 于 K 均 值 和 直推 式 支持 向 量机 2 提 (S T VM) 半监督 学 习模 型— — 两 阶段 策 略模 型 ( S 的 KT VM ,kmen ae rnd ciesp ot - asbsdta sut u p r v vco cie , etr mahn ) 以提 高 P P流 量的识别 精度. 模 型 首先使 用 K 均 值 半监督 聚 类算 法计 算 训练 2 该
a d a c r c fTS n c u a yo VM r mp o e . An i p ra ta v n a eo h d l st a h d l a a ei r v d m o tn d a tg ft emo e h tt emo e n i c b r ie y b t b ld s mp e n n a ee a pe 。a d t emo e Ss i b efrt ei e — etan db o h l ee a lsa d u lb lds m ls n h d li u t l o h d n a a t ia ino 2 r fi t a Sdfiutt elb ld i c t fP P taf h ti if l ob a ee .Ex e i n a e u t h w h tt ep o o e f o c c p rme tl s lss o t a h r p sd r m o e Sb te h n TS d 1i et rt a VM n VM o esi c u a y a d sa it a dS m d l n a c r c n tbl y,a d t a sa fe t e i n h ti i n efci t v wa o i r v h c u a yo 2 r fi d n iiain y t mp o et ea c r c fP P ta f ie t c t . c f o

P2P流量综合识别方法的研究

P2P流量综合识别方法的研究

P2P流量综合识别方法的研究摘要P2P的网络传输优势将是民航未来网络传输的发展方向,而P2P流量占用了大量互联网带宽资源,为保证网络的正常运行,有必要对P2P流量加以识别并适当控制。

本文提出一种利用贝叶斯分类技术对网络中P2P流量进行分类的方法,结合深层数据包载荷特征识别和端口识别技术构建了P2P流量识别器。

关键词:P2P;贝叶斯;网络流量;流量控制;识别器0 引言随着网络技术的迅速发展,P2P技术得到了广泛的应用,其传输优势必将是民航未来网络传输的发展方向。

P2P技术不断发展的同时,各种P2P业务所产生的网络流量成为网络带宽的最大消费者,一定程度上影响了其他网络业务正常开展。

对P2P网络流量进行科学的管理和控制,已成为网络管理者面临的重要课题之一。

本文将探讨一种基于流量特征检测和深层数据分析的精确匹配方法,结合深层数据包载荷特征识别和端口识别技术构建P2P流量识别器,为网络管理者对P2P流量管理提供一种可行的方案。

1 P2P流量综合识别法P2P流量综合识别法是运用端口识别、流量特征和深层数据包检测共同对P2P流量进行分类识别的方法。

在流量识别的开始阶段使用端口识别技术,把网络流量中的一些常规网络业务流量(如www、FTP等)分离出来,去除这些不需要进行识别的常规网络流量,为后面的流量识别分类工作做好准备。

对剩余的网络流量,运用流量特征检测技术识别。

在进行识别时,结合数据挖掘技术对P2P 网络流量进行分析,获取P2P流量产生的特征属性集,用这些流量特征集来识别新的P2P流量。

最后通过深层数据包载荷检测技术对识别出来的P2P流量进行精确分类。

首先获取网络流量数据包,让其进入缓存队列,并对数据包进行完整的信息提取,获取网络流的五元组信息。

其次,对缓存队列里的数据包采用IP地址识别,端口识别,TCP/UDP识别技术进行流量识别,识别出一些常规的网络流量和一些采用固定端口进行流量传输的P2P业务。

第三,对于仍没有识别出来的网络流量,采用贝叶斯(Naïve Bayes,简记为NB)分类技术来进行识别,识别出具有P2P流量特征的网络流量,并对这些网络流量进行分类标识,未能识别出具体类型的P2P流量放到下一步去识别。

一个基于云计算的P2P流量识别系统模型的研究

一个基于云计算的P2P流量识别系统模型的研究

深 度分组 检测 技术 的主要特 点就 是对 网络 数据 分组
的有效载荷部分进行特征串扫描和匹配, 根据匹配结果确 定该数据分组所采用的协议类型是否为P P 进而确定下 2,

网络流量的外部特征来对 PP 2 应用协议进行识别 . 同样不
涉及 对 P P 用流量 的 内容进行检 查。 2应 通过对捕获 到的数
识别技术的关键是提取和分析 P P 2 有效载荷 ,建立 PP 2 应用特征库, 通过不断更新和维护特征库, 使其具有对各
种 已知的和新型 的 PP应用进行识别 的能力 。 2
目前 ,主流的 PP业务分为文件下载和流媒体应用 2 两大类。其中, 文件下载类软件包括:io eteoky BT ̄ n、D ne 、 t e u 、迅 雷 等 。P P流媒体 类 软件 包 括 IT 类 的 Ml e 2 PV
表 1 常 见 P P协 议 特 征 串 2
尽管在以上提到的 3 种流量识别方式中, 深度分组检 测技术通过对 I 数据分组 4 5 P 层协议的特征字进行分析 对 比, 具有较高的识别率和识别精度, 同时维护升级特征 库也相对比较容易, 但是基于深度分组检测的方法也存在
以下 2 问题 。 个
法处理多模式串的扩展算法 , 以匹配的正确率、 速度、 资源
消耗为主要指标进行选择。 3 基于流量特征的识别原理 . 2
要将这些中间结果进行归类排序, 然后输出到分布式文件 系统的文件中。 a 任务结束后进人 Rdc 操作。 eue Mp eue R dc
操 作就 是将 M p产生 的 中间文件 中具有相 同 ky a e 值

深度分组检 测是 针对现有 的 PP应用 , 2 不能对未 知 流量进行识别 。

基于K均值和双支持向量机的P2P流量识别方法

基于K均值和双支持向量机的P2P流量识别方法

结果表明采用基 于 均值 间代价 、 准确率和稳 定性 方面要 远优 于
标 准 支 持 向 量机 。
关键词 : P 2 P流量识别 ; 有监督机器学 习; 双 支持 向量机 ; K均值集成 ; 时间代价
中图分类号 : T P 3 9 3 . 0 6 文献标志码 : A
基 于 K均 值 和 双 支 持 向量 机 的 P 2 P流 量 识 别 方 法
郭 伟 ,王西闯 ,肖振久
( 1 . 辽宁工程技术大学 软件学院, 辽 宁 葫芦岛 1 2 5 1 0 5 ; 2 . 中国传媒大学 计算机学院, 北京 1 0 0 0 2 4 )
( 通信作者电子邮箱 x i c h u a n g 1 9 8 8 @1 2 6 . c o n )
J o u r n a l o f C o mp u t e r A p p l i c a t i o n s
I S S N 1 o o 1 . 9 0 8 l
2 01 3. . 1 0. . 01
计 算机应 用, 2 0 1 3 , 3 3 ( 1 0 ) : 2 7 3 4— 2 7 3 8
t o b u i l d c l a s s i i f e r .K- me a n s e n s e mb l e wa s u s e d t o c r e a t e l a b e l e d s a mp l e s e t a n d l a b e l e d s a mp l e s e t w a s c o mb i n e d a s t h e t r a i n i n g s a mp l e o f t h e T WS VM.At l a s t .t h e c o n s t r u c t e d c l a s s i f i c a t i o n mo d e l wa s u s e d t o i d e n t i f y P 2 P t r a f i f c .T h e e x p e r i me n t a l

P2P流量识别技术浅谈

P2P流量识别技术浅谈

0 景
随着 P P技 术 的发展 .2 2 P P流量 已经 占据 了整个 互联 网流量 的 6 一 0 逐渐成 为其 重要组成部分 。P P应用 的不断增 加 , O 9 %. 2 其抢 占宽 带的特点造成 了网络带宽 的巨大消耗 , 至引起 网络拥 塞 , 甚 对其他 应 用的服务质量造成了威胁 , 损害了 IP的利益 。另一方面 ,2 S P P环境 下 文件共享的方便和选路机制的快速 . 为网络病毒和不健康信息也 提供 了更好的入侵机会 因此 . 实现 P P流量的准确识别对于有效管 理网 2 络和合理利用 网络资源都具有重要意义
1 现 状 概 况
就 目 国内外研究 现状而言 .2 前 P P流量识别方法 主要可 以分 为基 于人工经验和基于机器学习 的 P P流量识别方法 2 目前 . 基于人工经验 的 P P流量识别方法主要可分为两类 : 2 第一类 基于应 用层数 据的 P P 2 流量识别方法 : 第二类 基于流量特征 的识别 方法 。 近年来 .利用 机器学习方法处理 P P流量识 别问题 已经成 为该 2 领域 的一个新兴研究方 向. 流量识别本质上就是一个分类 问题 . 因而 , 可 以将机器学 习方法应用到流量识别和分类领域 。 从训练数据 中自动 学习得到识别规则是这类方法 的主要特征 基于机器学 习的 P P流 2 量识别方法主要从支持 向量机 、 决策树和神经 网络等方面进行阐述 ・支持 向量机被广泛地用于二值分类和多值分类问题。 ・决策树方法是 以实例为基础 的归纳学习方法 , 在分类 、 预测 、 规 则提取等领域有着广泛的应用 。 ・神经 网络是 由人工神经元构成的神经 网络学 习系统 . 该技术 已 经被成功应用于模式识别等领域 过 判 断 h s al 主 机 节 点 的 c et res次 数 是 否 在 指 定 阈 值 内 ot be中 T l ns vr i e 来 区分 P P 和非 P P流 量 。 2 2 2 优 势 与 缺 陷 平 均包到达时间间隔 比分析模块检测 每一 个未知 的报 文 ( 经 从 P P流量识别 的技术 现状来看 . 于应用层数 据识 别方法 D I 节点 角色分析模块 算法确定为 P P的报文不再检测 ) 2 基 P 2 ,步骤 如下 : 首 由于具有准确 性高 、健壮性好和分类功 能 .且过去 的 P P大都 未加 先根 据五元组的定义进行组流 :计算该 流 <i, ot 和< i,Pr> 2 sps r P > dpd ot 密. 因此 曾经是 P P流量识别 的主要方法 。然而 D I 2 P 方法也面临诸如 的平 均包到达 时间间隔 .分别将 其加入 sp otal lPr be和 dp otal T lP r be T 如何提 高识 别算法 的性能 、如何 支持对加密数 据的识别 、如何 更新 列表 :计算 sp otal IP r be和 dp 0ta l T lP r be列表 中相 同的地 址端 口对的 T P P应 用 特 征 库 等 问 题 基 于 流量 特 征 的 P P流 量 识 别 方 法 虽 然 具 有 u 2 2 d值 . 若在指定的 阈值区间 内, 则该流属于 P P流。 2 性能高 、 可扩展性好的优点 , 由于有些方法 的准确性不 够 . 但 因此在实 P P流量 的识别 已经成 为流量管理 中的重要部分 ,在 P P技术 2 2 际应用 中也面临诸多 困难 。 此外 , 现有方法都 以离线数据分析为主 . 缺 不断发展的 同时也给识别技术带 来了新的挑战 。利用 P P网络 中每 2 乏 P P流量 的实时识别能力 从本质看 , 2 基于流量特征 的识别属于启 个 节 点 具 有 双 重 角 色 性 以及 P P流 量 所 表 现 出来 的平 均 包 到 达 时 间 2 发 式 方 法 . 基 于 应 用 层 数 据 的识 别 属 于 精 确 匹配 方 法 而 间隔 比主要 集 中在一定 的范围内的特点来识别 P P流量 ,这两种流 2 上述两种方法主要都是建立在人工经验之上 . 们的优势在于特 量特征都属于传输层 . 以不仅 不需要访 问应用 层数据 内容 , 他 所 而且对 征 提 取 充 分 利 用 了人 类 专 家 对 P P应 用 的 工作 机 理 的 观 察 和 分 析 . 2 可 加密的和未 知的 P P应用识别也 能取得 良好 的效果 。 2 能得到有效 的识别规律 :缺点是规律的获得带有 主观性 和偶 然性 . 同 2 时 也 意 味着 繁 重 的人 类 劳 动 。机 器 学 习 方 法 则 有 比较 坚 实 的 理 论 基 4 P P网 络流 量分 类 础 , 好 的 自动 性 和 适 应 性 , 是 训 练 数 据 的构 成 . 特 征 维 的独 特 程 41 利用传输层流量特征和决 策树模 型对互 联网 中 P P流量进行分 较 但 如 . 2 度, 明显 影 响 分 类 模 型 的准 确 性 和 效 率 。 因此 , 人 工 经 验 和 机 器 学 习 将 类 的 方 法 方 法 结 合 是 一 个 研 究 方 向 基 本 思 想 是 : 先 在 基 于 T PI 首 C/ P协 议 的 互 联 网 中 , 照流 的 五元 按 组( I 源 p r、 源 P、 ot 目标 I、 P 目标 pr 及 pooo) 0t ret 的定义 , 1 将报 文分 成双 3 P P流 量 识 别 2 向 的 T P或 U P流 .抽 取 与端 口和 应 用 层 协 议无 关 的流 特 征 属 性 : C D 由于基于传输层 流量特征 的 P P流量识别方法虽然具有性 能高 、 然后 以 P P流的应用类型为类别 . 2 2 根据 样本流 以及流 的特征属性 . 利 可 扩 展 性 好 的 优 点 , 由于 准 确 性 差 , 以在 实 际 应 用 中 也 面 临 诸 多 但 所 用决 策树 的 c . 法【88 ,O9 ] 45算 8 ,99 ,1比较各个 特征属性对 分类 的信息 困难 。 因此 , 何 对 现 有 的识 别 技 术 进 行 有 效 结 合 或 者 寻 找 新 的基 于 增益率情况 , 而构建 和学 习决策树模 型 : 如 ��

P2P流量识别技术的研究

P2P流量识别技术的研究

P2P流量识别技术的研究P2P(Peer-to-Peer)流量识别技术是指通过分析网络流量数据,识别出使用P2P协议进行通信的流量。

P2P协议广泛应用于文件共享、视频流媒体等领域,但同时也为网络安全带来了一定的挑战。

因此,研究P2P 流量识别技术对于网络安全和网络管理具有重要意义。

P2P流量的特点是多源、多目的地的分布式通信模式,其与普通Web 浏览、Email通信等方式有很大的不同。

因此,传统基于端口号、IP地址等特征进行流量识别的方法在P2P流量中往往效果并不理想。

为此,一些研究者提出了基于流量行为特征、统计学方法和机器学习等技术的P2P流量识别方法。

基于流量行为特征的P2P流量识别方法主要是通过分析流量数据包的各种特征,如数据包大小、方向、间隔时间等,来区分P2P流量和非P2P 流量。

例如,P2P流量通常具有比较大的数据包大小和不规则的数据包间隔时间,而非P2P流量通常具有较小的数据包大小和规则的数据包间隔时间。

因此,通过对这些特征进行统计和分析,可以有效识别出P2P流量。

统计学方法是一种基于概率统计原理的P2P流量识别方法。

该方法通过统计流量数据包的特征分布情况,并基于统计规律来进行识别。

例如,可以统计P2P流量中数据包的大小分布、方向分布等特征,并与非P2P流量进行对比。

如果两者的特征分布存在明显的差异,那么可以通过概率统计的方法来进行流量识别。

机器学习是一种借助于算法和模型进行自动识别和分类的方法,已被广泛应用于P2P流量识别研究中。

通过利用机器学习算法和模型,可以从大量的流量数据中学习到P2P流量的特征和规律,并利用这些特征和规律来进行流量识别。

常用的机器学习算法包括支持向量机(SVM)、随机森林(Random Forest)、神经网络等,这些算法可以根据已知的样本数据进行学习和训练,并在未知的数据上进行判别和分类。

除了以上几种方法,还可以结合多种技术和方法进行P2P流量识别。

例如,可以结合深度学习技术和机器学习方法进行流量特征提取和分类;可以结合模式识别和数据挖掘技术进行P2P流量的行为分析和异常检测等等。

P2P流量识别

P2P流量识别

Ke r s p e— -er(2 ) ew r; o e t c t n d e ak tn pcin mahn ann ; ewok ywod : ert p e P P n t ok p r i ni ai ; epp c e ise t ; c iel rig n t r o td f o i o e
E ma :o@i a. . ・ i js s s c n l c ac ht:ww js r. t / w. . gc p/ oo n
Te/ x" 6 1 . 2 6 5 3 l Fa +8 — 0 6 5 2 6
@中国科学院软件研 究所版权所有 .
P P流 量 识 别 2
鲁 刚, 宏 , ,张 莉1 2 麟, ,叶
( 哈尔滨工业 大学 计算 机科学 与技术学 院, 黑龙江 哈尔滨 1 0 0 ) 50 1
( 哈尔滨工业 大学 国家 计算机信 息 内容安全 重点实 验室, 江 啥尔滨 1oo ) 黑龙 5o i
P2 n a cI ntfc ton P i f de i a i i
LU n Ga g , , Z HANG n . 1 Ho g Li. -
软 件 学报 IS 10 .85 C DE xU w S N 0 09 2 , O NRu E J un lf otae 0 1 26:2 1 1 9 d i1 . 2 /PJ10 . 1.3 9 】 o ra Sfw r, 1, () 8- 2 8[o: 03 4S . 0 12 1 9 5 o 2 2 1 7 . 0 0
ta c d n i c t n r i to u e f s.Ne t h r f i e t a i a e n r d c d i t i i f o r x ,t e ma n t c n q e a d e e r h p o r s e o P ta f i e h i u s n r s a c r g e s s f P2 r f c i i e tf a in a e s mma i e . i a l , h u u e te di u o wa d d n i c t r u i o rz d F n l t ef t r r n p tf r r . y s

基于混合特征的P2P流量识别方法

基于混合特征的P2P流量识别方法
摘要 : 研究 P 2 P异常流量的识别 问题 。P 2 P网络节点特征属性较 多, 代表流量特征 的属性存在多层属性 , 传统 的流量识别方
法以整体特征为基础 , 没有对流量特征属性 进行进一步划分 , 一旦 出现多识别特征的情况 , 单一类 内的特征很 难准确描述这 种多流量特 征, 导致识别精度下降。为了避免上述传统算法 的缺 陷 , 提出 了一种基 于支持 向量机增 量学习算 法的 p 2 p 流量
识 别方法 。提取 p 2 p流量混合特征 , 并将其作为 p 2 p流量识别 的依据。建立支持 向量 机增 量学 习模 型 , 并对提 取的流量混
合特征进行有效 的识别 。实验结果表明 , 利用改进后 的算法能够对异常流量进行准确的识别 , 提 高异常流量识别率 , 降低误
判 率, 从 而有利 于 p 2 p网络的管理。 关键词 : 异常流量 ; 混合特征 ; 流量识别 ; 支持向量机增 量学 习算法
ABS T RACT : T h e i d e n t i i f c a t i o n p r o b l e m o f P 2 P a b n o r ma l t r a f i c wa s s t u d i e d i n t h i s p a p e r .W e p r o p o s e d a p 2 p t r a f i f c i d e n t i i f c a t i o n me t h o d b a s e d o n S VM i n c r e me n t a l l e a r n i n g a l g o i r t h m.F i r s t l y, p 2 p t r a f f i c mi x f e a t u r e s w e r e e x t r a c t e d t o u s e d a s t h e b a s i s o f p 2 p t r ff a i c i d e n t i i f c a t i o n .T h e n a s u p p o a v e c t o r ma c h i n e i n c r e me n t a l l e a r n i n g mo d e l wa s c r e a t e d,
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3、peer交换数据识别
Peer之间的若干种消息交互中,唯一可被用来 作为识别依据的是握手消息。
0x13 BitTorrent protocl Reserved(8) Info_hash(20) Peer_id(20)
握手时互发的TCP包
分析TCP数据流的第一个包含有效数据的TCP数据 包,如果它的TCP负载部分第一个字节是0x13(十进制 的19),第2到20字节为字符串“BitTorrent protocol”, 则可以认为此数据包是一个BitTorrent握手消息。
DHT数据包识别关键字
消息 find_node get_peers announce_pee r ping
请求关键字 “find_node” “target” “find_hash” “Info_hash” “token” “ping”
回应关键字 “nodes” “token””values” “nodes” _ _
种子文件
通过分析发现,种子文件通常以“d8:announce” 开始,之后紧跟tracker URL,并且在之后的某位置 会出现“info”和“piece”(用于计算文件的HASH校验)。 通过扫描以上特征足以精确的发现种子下载的传输 过程。
2、peer和tracker交互识别
提交状态报告(HTTP GET请求)
.torrent
发送请求 响应 pieces
A
Peer(leecher)
pieces pieces
ቤተ መጻሕፍቲ ባይዱ
Peer(seed)
C
B
Peer(leecher)
1、种子文件传输识别
HTTP GET 请求 用户 HTTP 回应 在回应的头部会出现种子传输的特征值。 Content-Type字段的值是application/x-bittorrent或者 是application/bittorrent,则表明该HTTP会话传输的是种子 文件。 出现漏识:如它的值会为text/plain。 种子下载服务器
一、基于端口识别技术:
在P2P应用兴起早期,众多P2P数据流都采用固定端 口的形式,如BitTorrent采用端口6881-6889,Gnutella采 用6665-6669。通过检查数据包头中的端口,与已知的 P2P端口对照便可以识别出P2P流量,而且可以进一步识 别出是哪种P2P应用程序。 优点:简单易行,不需要进行复杂的分组处理即可 得出结论,在P2P应用初期十分有效。 缺点:随着P2P的发展,一些应用采用随机动态端 口甚至是伪端口(为了躲避流量审计与过滤 等) ,这种方 法便不再适用。
2、核心特征属性的确定
*流行为特征指数据包在传输过程中,在传输层表现 出来的特征。(持续时间,平均数据包长度,平均速率) *特征属性:兼顾效率和效果。
1 m n L( x) = ∑∑ d ( xi , y j ) mn i =1 j =1
若类间距明显大于类内距,可推断此特征可以有 效的将两类分开,即可作为核心特征。
P2P流量识别流程图
4、可疑进程监测: 应对P2P应用程序的不断更新和升级。 符合以下几个特征: (1)在一定时间段内,同时产生较大的上行和下行。 (2)同时使用TCP和UDP端口与外部主机通信。 (3)同时使用多个端口且与多个不同IP地址的主机通信。
5、客户端与服务器端之间的消息传送:
客户端
P2P流 量 可疑进 客户端 发现 消 息
人工神经网络+基于流量行为特征的识别技术
人工神经网络有两个与用传统方法进行信息处理 完全不同的性质: ①神经网络是自适应和可以被训练的, 它有自调整 即自学习能力, 学习输人与输出之间的某种隐藏着的关 系, 这种关系可能是线性关系也可能是非线性关系, 对 这种隐藏着的关系的学习表现在对网络权值的不断调 整。如果最后的输出不正确, 系统可以调整权值加到每 个输入上去以产生一个新的结果, 如此反复, 直至到达 所期望的结果。 ②神经网络结构本身就决定了它是大规模并行机 制, 由于它是数据驱动的, 故其处理速度较传统方法要 快得多。
1 m δ= ∑ ( yi σ i ) 2 2m i =1
足够小。
优点:具有鲁棒性,泛化性高,自 学能力强,人工干预少,效率和准确 性可以达到一定的要求。 缺点:模型的识别精度有待提高。
四、基于特征进程的识别 :
识别原理: *进程 *特征进程 *进程—网络流量 *特征进程—网络流量
P2P应用程序 BitTorrent Plus BitSpirit Emule TOM-Skype Vagaa KuGoo2007
1、P2P特征进程库的生成: 方法一:对于公开的、众所周之的P2P应用程序。 P2P 应 用 程 序
当前主机所有 运行进程
方法二:对于符合某些P2P特征的一些进程。 系统根据可疑进程判断策略确定后,添 加到特征进程库中。
2、客户端P2P特征进程库的更新: 客户端通过比较本地特征进程库和服务器上的特 征进程库标识的大小,就能判断出是否需要下载 更新特征进程库。 Void Update_Lib() //获得最新的进程库 {long client_lib_id=get_client_libid();
服务器
程消息 状态消 息
消 进程库更新


谢!
1、神经网络模型
人工神经网络模型示意图
由行为特征组成的特征向量(x1 x2。。。xn)做为输 入。流的类别作为期望输出。
核心思想: 将流量表现出来的若干行为特征量化成向量, 作 为神经网络的输入, 经过隐含层的处理, 到达输出层节 点, 输出结果对应着流量的类别。通过对训练样本进 行反复学习来调节网络,从而使得网络误差函数取得 最小值。
优点:这种方法的特点是识别率高, 根据一次P2P 会话的头几条报文检测出该 P2P 应用,并且能把后续的报文分类到所 属的P2P 会话。据有关资料表明该方法的 识别正确度高达95%。
缺点: ①各种P2P应用程序的关键字随着软件的升级 可能会发生变化,必须时刻注意更新。 ②关键字的获取是通过分析数据包内容获得 的,这关系到数据隐私的问题,一旦对数据包内容 加密,这种技术就失效了。 ③关键字的总结需要采集大量数据包,在主干 网上对数据包截取或者拷贝,特别是当主干网网速 达到10Gbps时,采集效率和对数据包存储容量往往 不乐观。 ④算法检测性能与载荷特征串的复杂度有关, 载荷特征越复杂,则检测代价越高,算法性能越差。
//获得客户端当前进程库版本号
Connect_server(); Long server_lib_id=get_server_libid();
//获得服务器最新进程库版本号
If(client_id<server_lib_id) {down_newlib();} //下载新的特征进程库 }
3、P2P流量识别的实现:
三、基于流量行为特征的识别技术 (基于人工神经网络模型) :
P2P流量和非P2P流量在某些流行为属性上有很大差 异,这些属性成为特征。
现有的基于流量行为特征的代流识别技术, 通过 给每个核心特征确定其界值, 通过综合每个核心特征 与界值的大小比较来实现对P2P流的识别。由于每个 核心特征在流量类型识别中所起的作用程度不同, 同 时每个核心特征的界值需要人工总结分析所得, 因此 纯粹的根据界值大小在识别准确率方面很不稳定。 研究表明, 核心特征与流量类别之间的关系不是简单 的线性关系, 而是非线性关系。
常用P2P软件端口
二、深层数据包识别技术(DPI) :
基于应用层数据检测的P2P流量识别技术是通 过协议分析与还原技术,提取P2P应用层数据(即 P2P载荷),通过分析P2P载荷所包含的协议特征 值,来判断是否属于P2P应用。 在此我们以BitTorrent为例来进行了解。
BT工作原理图
Web服务器 .torrent file Web Page ………… 连接 到.torrent file Tracker Peers list ………… ………… …………
4、DHT流量识别
DHT是BT的一种协议扩展。增强了系统的健壮性。 BitTorrent中的DHT采用了RPC机制,由在UDP上 发送的bencode编码的字典组成。发送单个请求包,单 个包作为回复,没有重试。在DHT协议中有四种查询 请求:ping, find_node, get_peers 和announce_peer。
3、样本整理
*样本量化: 0 同时使用TCP和UDP作为传输层协议 UBTC= 1 未同时使用TCP和UDP 流量属性特征取值不同时,P2P流和非P2P流数之 比也不同,根据比例的高低,一次对相应取值分级量 化。比例越大,说明P2P流量占有率越高,那么量化 值就越小。 *归一化处理:使数据成高斯分布状,更加有利于训 练。
特征进程名 Btdownloadgui.exe Bitspitit.exe Emule.exe Skype.exe Vagaa.exe Kugoo.exe
部分P2P特征进程
系统总体结构
服务器:实现P2P特征进程库的建立和维护以及识别 数据的处理等。 客户机:完成对自身主机产生的P2P流量的识别。
关键模块的设计与实现:
P2P流量识别
P2P网络概述
Peer-to-peer 核心思想:系统的节点处于完全对等的地 位,每个节点既是客户机也是服务器。
peer peer peer
近年来,随着P2P技术的兴起,P2P流量 已经超过了HTTP和FTP流量,占据了Internet 整个流量的一半以上,给网络带来了沉重的负 担,同时也影响其他网络应用。因此对于P2P 流量的识别以及监控逐渐成为人们关心的问题。 在此,将介绍四种P2P流量识别技术: *基于端口的识别技术; *深层数据包识别技术(DPI); *基于流量行为特征的识别技术(基于人工神 经网络); *基于特征进程的识别技术;
peer
相关文档
最新文档