p2p识别技术
P2P流量识别技术的研究
如果从 Pe 的角度而言,2 er P P系统存在 以下特 点: er @Pe 知道其他 P e 在网络 中的位置 ( I 地 er 如 I ) 址 、 口号等) 而在传统 电信网络只有通过运营商 端 , 设备 ( H R、 N 如 L D S等) 才能找到用户; er  ̄P e 同时
具有 Ci t Sre 的特 点 ,这 也是 它 与 CS架 构 ln 和 evr e / 最 显著 的 区别 , 络 中的 节 点 (er既 可 以 获取 其 网 pe)
P P流 量识别 技 术及 研 究进 展 , 后对 P P流 量识别 技术 的发 展提 出了看 法 。 2 最 2
关 键词 : 2 ; 量识 别: 口识别 P P流 端
中图分 类 号 :P 9 T 33
文献标 识 .7 2( l)1 260 2
K y r s P PTr伍 CIe t c to ; o t d n i c t n e wo d : 2 ; a ni ain P r I e t ai d i f i f o
0 引 言
种分布式网络,其中的参与者共享它们所拥有部分
或全 部 资源 ( 处 理 能力 、 储 能力 、 络 能力 等 ) 如 存 网 ,
之 j( 二 如互 联 网) ④ 多个 P e 可 以组成 为一 个 Pe ; er er 组 , er Pe 的这 种 属 性一 方 面 可 以符 合 人类 社 会 的群 组特性, 同时也降低了技术实现难度 。
Ab ta t T i p p r ec ie ed f io n h r ceit s f 2 , n o tep it f e ra ay i i s r c: h s a e sr s h e nt n a dc aa tr i P P a df m on p e n lss t d b t i i sc o r h o s
P2P网络流量识别技术的研究
1引 言
Itme 的 迅速 发 展带 动 了 网 络 带 宽 的 快 速 增长 , 大 的 ne t 广
网 络 使 用 者 喜 欢 使 用 各 类 P P和 点 对 服 务 器 技 术 2 ( ert P e o
对 于 以 上情 况 , 制 P S 控 2 P这 类 应 用 流 量 , 决 P S 解 2 P带 来 的 网络 拥 塞 。最 简 单 的方 法就 是 禁 止 P P和 P S 2 2 P的应 用 . 但 目前 P P和 P S 2 2 P的 应 用 已经 被 非 常 多 的 用 户所 喜 爱 。 一旦 禁
tef w. is ae ec b sapia o d terltdtc n lge nP e ev r e r P P , a s fsv r pc rfc h o Th p rd sr e p l t na h eae eh oo is e rt S re&P e ( 2 ) a l i o ea t ia ta l p i ci n o o n ys e l y l i
【 关键 词】流 量 识 别 P P 深度 包检 测 2 连 接 模 式
中 图分 类 号 : P 9 文 献 标 识码 : 文章 编 号 :0 8 1 3 ( 0 0 0 — 0 3 T 33 A 10 — 7 9 2 1 )6 6 —
The S v y o P a c I ntfc to e ha im ur e fP2 Tr f de i ai e eo me to ne ta d bo d a d n t rs P e o P e (2 )a d P S p L a o saei- sr c : t te rpd d v lp n fItme n ra b n ewok , e rt er P P n 2 P a p ct n r h i n
P2P流量识别和管控技术分析
流 量 识 别 和 管控
技术分析
_ 马 少 武 唐 雄 燕 姜智 峰 张 辉
_ 中国 网 通 集 团研 究 院
摘要 : 基于
P 2P
北 京 市 西 城 区 金 融 大街 2
l
号
10 0 0 3 2
模 式 的业 务 和 应 用 给 互 联 网 的发 展 带 来 了 巨 大 影 响
,
,
本 文 在 简 要分 析 了 现 网
-
特 征 字 如 果在数 据 包 的 相 应 位 置 能够找 到 这 些 特
征 字就 可 以 判 断 数据 包属 于 哪 种 类 型 的 网 络应 用
由此 可 以 大 致 判 别 出
。
M G C P
等
。
数 据 流 所 对应 的 应 用 业 务 类 型 能够 发 现 未 知
P 2P
此 方法 的 优 点 是
以 上 P 2 P 业 务还 可 以 分 为 基 于 T C P 和 U D P 的
P 2 P 业 务两 大 类
。 『 I
。
应用
,
具 有对 新 P 2 P 应 用 的 感
。
a
tu r e
特 征 值进行应
,
k
t
In
p e c tio n
)
用 层 流量 识 别
网 络应 用 的 数 据 包 中
一
各种 应 用 在
a
常用 端
用
一
口 检 测法 即利 用 P 2 P
应 用 发 展 的 初期使
不 同的 数据 包 位 置 都有
,
些 特有 的 固 定 的 S i g n
tu
r e
些 固 定 端 口 进行控制 和数 据 的 通 信 原 理 进 行检 如早 期 e D o n k
一种P2P流量识别方法的研究
摘 要 :本 文先介 绍 了 目前主 流 的 P 2 P 流 量识别 方 法及 其优 缺 点 ,通过 实际捕 包分析 了B T协议 的 交互过程 及特 点 。 分析 选取 流量 特征 中的 平均 包长 度、流 持 续 时间、上 下行 流 量 包数 比、 目的端 口等 4个特征 ,结合 支持 向量机 方法对 网 络流 量 的进行识 别 。实 验结 果显 示 ,该 方法能 够有 效地 检测 网络 流量 中的 P 2 P 流 量。 关键 词 :P 2 P;流 量识 别 ;流行 为特征 ;支持 向量 机
计算机光盘软件与应用
工 程 技 术
C o m p u t e r C D S o f t w a r e a n d A p p l i c a t i o n s
2 0 1 3年第 0 1 期
一
种P 2 P 流量识别方法 的研 究
4 0 0 0 6 5 )
Hale Waihona Puke 杜 江 ,龙 涛 ( 重庆 邮 电大学通信 与信 息工程 学院 ,重庆
得 了不错 的分 类效 果 。 因此 本文通 过 流行 为特 征 的分析提 取 ,结合支 持 向量机 为 网络 流量特 征建 立 识别分 类模 型 。
1 协议 特征 分析
B T 网络 主要 由种 子文 件 、 目录 服务 器 、种子 提供 站 点和 内容 发布 者/ 下载 者共 5 部 分组 成 。 B T协 议规 范把提 供下 载 的文 件 虚拟 分成 大 小为 2 K B 的整 数 次方 的数 据 块 ,把每 个块 的 索引信 息和 哈希 验证 码写 入种 子文 件 中 。 发布 者将 种 子 文件 放 在种 子 发布 站 点供 下 载者 下 载 。B T 协议 主要 包括 3 个 部分 :种子 文件 的格 式 、  ̄ a c k e r 协议 和 端w k e 协 议 。B T协 议工 作 时的 交互过 程及 特 征为 B T协 议数 据流特 征 分析 提供 了基 础 。 常见 的 P 2 P应 用 中 由于 其 传输 的是 大流 量 的文件 或者 视频 流等 数据 , 因此其 传输 的 包 长 度与传 统 的 H T T P等协 议存 在着较 大 的差 异 。 一条 流 从开 始到 结束 , P 2 P应 用与 非 P 2 P应 用在 流持 续 时间上 存 在显 著差 异 。 P 2 P网络 中对 等节 点和 传统 应用 中的服 务器 不 同,一个 对等 节 点 同时与大 量 的节 点相连 接 , 每 个对 等 节 点既是 资源 的下载者 又是 资源 的提 供者 , 其 上行 流量 和 下行 流量 的 比值 基本相 当, 这 和传统 的 C / S模 式 的传输 方 式存 在者 巨大的 区别 。在常 见 的 We b应 用 中 ,通 常服 务 器是使用 固定的端 口来接收客户端的连接请求进行数据
基于跨层特征的P2P流量识别技术
BT
T P端 口号 C
46 46 6 1, 6 2
6 8 8 1—68 0 9 6 4 6 4 3 6, 3 7 4 6 62 6 9 69 8 2 06
L me  ̄ i wl Emu e l
Wi nMX
詈 " 。 号 一 ∞ I
P P流量进 行合理 有效 的监控 , 2 促使 P P技术 和其 2
第2 9卷 第 1 期
21 年 O 月 01 1
佳 木 斯 大 学 学 报 ( 自 然 科 学 版 ) Ju a o Ja ui nvr t N trl c n eE io ) o r l f i s U i sy( a a Si c dt n n m ei u e i
V0 . 9 No 1 12 .
量属 于 P P流 量 , 之 亦 然 . 着 P P技 术 的发 2 反 随 2
0 引 言
P P技术 , 2 即对 等 网 络 ( ert P e ) P e o er 技术 , 是
一
展 ,P P应用 软件 通过采 用 非 常见 端 口号 、 用熟 2 使 知应用 的端 口号伪 装 自己的功能端 口、 允许 用户使
种不 同于客 户 端/ 务 器 ( l n S re) 构 的 服 C i t evr 结 e/
网络结构思想 . 资源共享性高、 容错性好、 扩展性 好 和分 布式 网络结构 的优 势使其 逐 步深入 语音 、 视 频 、 布式存储 、 布式计 算 、 人 即时通 信和协 同 分 分 个 工作等 领域 ¨ ; P P应 用所 产生 的流 量在互联 由 2
网总流量 中的 比重不 断增 加 . 同时 ,2 P P流量 具有 的带宽 侵略性 、 上下行 流 量对称 性 、 远在 线性 、 永 业 务点广 泛分布 等特征 给运 营商 、 教育 网 、 域 网、 城 企
基于隐马尔科夫模型的P2P流识别技术
第 3 第 6期 3卷 21 0 2年 6月
通
信
学
报
、 l3 No 6 b -3 .源自 J n 01 u e2 2J u a nC o m u iai n om l m o nc t s o
基 于 隐 马 尔科 夫 模 型 的 P P流 识 别技 术 2
许博 ,陈呜,魏祥麟
中图分类号:T 3 3 P9
文献标识码 :A
文章编号 :10 —3 X 2 1)60 5 —9 004 6 (0 20 —0 50
H i e a k v m o e a e P f w e tfc to e h i u dd n M r o d l s d P2 o i n i a i n t c n q e b l d i
基 金项 目: 国家 高 技 术研 究 发 展 计 划(“ 6 ” 计划 ) 金 资 助项 目(0 7 A0 Z 1 ) 83 基 2 0 A 1 4 8 ;江 苏 省 自然 科 学基 金 资助 项 目 ( K20 0 8 ;国家 自然科 学基 金资助项 目( 17 0 3 B 095 ) 60 20 )
C e a ptv o d feen e wor ic n a b da i et if r tn t k cr um sa c t n e.
Ke r s p e e r fn t t t c n ; o i e t c t n h d e ak v mo e y wo d : e rt p e ; i sae ma h e f w n f ai ; i d nM r o d l o i e i l d i i o
P2P流量的识别技术
-
P P流量的识别技术 2
Cl .京邮 电大学 - . I c 徐斌 孙学康 网络教育学院 北京 108 ) 08 0 摘 要: 结合现阶段 P P网络 应用巾出现的问题 , P P的技术原理、应用现状 、存在的 问题作 了介绍 和研 究。并提 出了解决 P P 2 对 2 2 流量问题的一个方案。最后展望 了 P P技术的进一步的发展前景。 2
一
小在 lO OM 以 上 。 笔者 通 过 对 国内 著 名 P 2P 下 载 网 站 求 ,网络 应 用 由使 用者 自由驱 动 。 B hi a 2 1 2 息在网络设备 间商 接流动 ,高速 及时 ,降低 中转服 ( T@ C n )的不完全 采样统计 ,平 均每个 P P种子 的文件 .信 大小在 6 0 左右 ,可 见文 件共享 以大文 件为主 。 0M 务成本 。
关键词 :P P业务 识 别 缓存 2 中图分类号 :TI 9 3 3 文献标识码 :A
当 w w 产生 那一 _ 开始 ,集 中式 的 服务 器就 一 育是 包传 递 的 功 能 。 w 火 It r e 的核心 ,它集中 了网络 中所有可 以检索 到的资源 。但 ren t t 是随着 网络的继续 膨胀 ,用户终端 的处理能 力、存储 能力进一
1 po . lp a
图1
2 2 应用现状 .P P 由于 P P相比于传统 网络模 型在信息共享 方面的优势 ,近 2 年来 ,发展十 分迅速 ,这些 技 术 中以文件 共享 应用最 为广泛 , 它是 一种新的通信模式 ,每个参 与 者具 有同等的能 力,可以发 i ret Bt ret T T 2 的文件 起 一个通信 会话, 络模 型如 图 l 所示。P P 通信模式有以 下 其中最为典 型的就是 Btorn。 i orn 是一个 P P 2 披术特性 。 1 1既是服务 器( ) . s 又是客 户端 ( ,表现取 决于用 户的要 C) 共 享软件 ,它能提供 各个 P e 之 间直接共享文 件资源的功能 , er 般应用最为广泛 的是共享 影视资源 、软 件资源 ,一般文件大
基亏Snort系统的局域网P2P流量识别系统
V0 9 1 1 No 2 .0
电 子 设 计 工 程
El cr n c De in Engne rn e to i sg i eig
21 0 1年 1 O月
Oe .2 t 011
基亏 S ot系统 的局域 网 P P流量识别 系统 nr 2
中图分类号 : P9. T 3 31 文 献标 识 码 : A 文 章 编 号 :1 7 — 2 6 2 1 )0 0 5 — 3 6 4 6 3 (0 12 — 0 8 0
A LAN P O i ntfc to y t m s d o S r P2 f W de i a i n s se ba e n no t l i
林 国庆 , 静 , 陈汝伟 。 王
(. 1长安 大 学 汽 车 学 院 , 西 西安 7 0 6 ; . 陕 10 4 2 长安 大 学 信 息 学 院 ,陕 西 西 安 7 0 6 ; 10 4 3 桂 林 电 子科 技 大 学 数 学 与 计 算科 学 学 院 , 西 桂 林 5 10 ) . 广 4 0 4
Ke r s f w ie tiain;p e op e ( 2 ;S o ;c ansrcue; ue ywo d : o d nic t l f o e rt e rP P) n r h i t tr r l t u
P P( e r oP e ) 术 实 现 了 网 络 节 点 的地 位 平 等 , 2 P e er 技 t 每
Ab ta t mig a ehg a d dh as mpin o 2 ( e rt e r l w,a L 2 o d nic t n sse i sr c:Ai n tt ih b n wit su t fP P p e op e )f h o o AN P P f w ie t iai y tm s l f o
p2p流量识别
3、peer交换数据识别
Peer之间的若干种消息交互中,唯一可被用来 作为识别依据的是握手消息。
0x13 BitTorrent protocl Reserved(8) Info_hash(20) Peer_id(20)
握手时互发的TCP包
分析TCP数据流的第一个包含有效数据的TCP数据 包,如果它的TCP负载部分第一个字节是0x13(十进制 的19),第2到20字节为字符串“BitTorrent protocol”, 则可以认为此数据包是一个BitTorrent握手消息。
DHT数据包识别关键字
消息 find_node get_peers announce_pee r ping
请求关键字 “find_node” “target” “find_hash” “Info_hash” “token” “ping”
回应关键字 “nodes” “token””values” “nodes” _ _
种子文件
通过分析发现,种子文件通常以“d8:announce” 开始,之后紧跟tracker URL,并且在之后的某位置 会出现“info”和“piece”(用于计算文件的HASH校验)。 通过扫描以上特征足以精确的发现种子下载的传输 过程。
2、peer和tracker交互识别
提交状态报告(HTTP GET请求)
.torrent
发送请求 响应 pieces
A
Peer(leecher)
pieces pieces
ቤተ መጻሕፍቲ ባይዱ
Peer(seed)
C
B
Peer(leecher)
1、种子文件传输识别
HTTP GET 请求 用户 HTTP 回应 在回应的头部会出现种子传输的特征值。 Content-Type字段的值是application/x-bittorrent或者 是application/bittorrent,则表明该HTTP会话传输的是种子 文件。 出现漏识:如它的值会为text/plain。 种子下载服务器
一种基于流特征的P2P流量实时识别方法
报文关键字、 加密报文或伪装 其它常用网络应用端 口
号( 8 端 口) 如 O 的方式进行通信 , 这使得采 用传 统端 口映射 的方 法监 测 P P流 量 不 再 可行 ,uhba e 2 Sb araSn t 等 人提 出 了基 于应用 签 名 的 P P流 量 检 测 方法 u , 2 实 J 际上是一种深层数据包检测方法 , 该方法把 p l d a o 特 ya 征分为固定偏移量特征 和变化偏移量特征, 一步检 第
维普资讯
第4 6卷
增刊 2
厦 门大学 学报 (自然科 学版 )
Ju a o i nUn e i Na r c ne o r l f a i rt n X me v sy( t aSi c) ul e
Vo!46 S p. . u 2
基金项 目: 国家 自然科学基 金( 0 7 10 资助 6 53 2 ) 作者简介: 柳斌 。 , 男 讲师.
Emal b i@ ma . u t e u. n i: l u i h s.d c l
维普资讯
1 一 种 基 于流 特 征 的 P P流 量 识 别 2 方 法
1 1 特征分析与提取 -
在 P P网络 中, 2 客户端 s不 仅承 担服务 器 的功 能, 同时还 会主动 向别 的节点发 起连接. 在一 个 P P 2 网络系统中 , 可供 s连接 的“ 服务 器” 多个 ( s 有 除 之 外的节点都 可 以是 s的服务 器) 这 样 , . 在总体 上看 来, 既作为服务器又作为客户端的 s 表现出如下特征 : 它既有大 量流人 的连接 ( 其它节 点连 接其监 听端 被 口) 又有大量 流 出的连接 ( 接其它 节点 的监 听端 , 连 口) 而当 s . 不参与 P P时, 2 要么只是单纯作 为客户 , 要么只是单纯作为服务器 , 它们的出入连接必定是不 平衡 的. 统计 在某 段 时间 内 s连 人连 接 与 连 出连 接 之 比, 并与使用传统网络应 用的主机 的经验观测值作 比 较, 就可 以判 断 s是否参 与 P P 2.
panabit 与深信服区别
PANABIT和深信服几个主要技术问题的提要;1、关键的p2p识别技术;(1)深信服;按深信服的P2P的专利文献(详见深信服《[12];现在的深信服还采用了“IP包头数据包特征字匹配”;其协议识别还有很大问题,其流量控制只是其产品很小;(2)PANABIT;PANABIT采用自己独有的“流跟踪+节点跟踪+;这个方法的特点是精确识别,不误判,由于只判断每个;2PANABIT和深信服几个主要技术问题的提要1、关键的p2p识别技术(1)深信服按深信服的P2P的专利文献(详见深信服《[12]发明专利申请公布说明书》),是基于“端口+连接数”识别和控制的,另从其软件配置界面也可以看出来,这在几年前也许是有效的。
但是现在的P2P越来越先进,采用加密和动态端口(比如也许P2P走Web的80端口等等),这个方法效果很差很容易误判。
现在的深信服还采用了“IP包头数据包特征字匹配”的方法,这个方法对加密P2P仍然识别效果很差,对设备的性能影响很大,这个性能不是CPU利用率多大的问题,而是实际能达到多大吞吐量的问题。
其协议识别还有很大问题,其流量控制只是其产品很小的一个功能模块,随着目前应用协议的日趋复杂化,该方法存在很大的误判概率,在大流量下性能下降很严重。
(2)PANABITPANABIT采用自己独有的“流跟踪+节点跟踪+主动探测引擎”三者相结合的方式来识别复杂的P2P流量(具体原理看文档《PANABIT流量引擎系统架构及特色优势》)。
由于定位专业流控,在协议更新方面有很强的技术保证。
这个方法的特点是精确识别,不误判,由于只判断每个连接的几个关键数据包,不用分析所有的数据包,可以保证在大流量的情况下得到极好的性能和最小的网络延迟2、高可靠性问题(1)深信服双机备用:成本高,且只能部署在网关模式下,此方式下在设备初次安装和设备出现故障的情况下均要调整网络结构、核心设备IP地址和路由,非常麻烦并会造成网络长时间中断,增加了网络故障点。
P2P流量识别技术浅谈
0 景
随着 P P技 术 的发展 .2 2 P P流量 已经 占据 了整个 互联 网流量 的 6 一 0 逐渐成 为其 重要组成部分 。P P应用 的不断增 加 , O 9 %. 2 其抢 占宽 带的特点造成 了网络带宽 的巨大消耗 , 至引起 网络拥 塞 , 甚 对其他 应 用的服务质量造成了威胁 , 损害了 IP的利益 。另一方面 ,2 S P P环境 下 文件共享的方便和选路机制的快速 . 为网络病毒和不健康信息也 提供 了更好的入侵机会 因此 . 实现 P P流量的准确识别对于有效管 理网 2 络和合理利用 网络资源都具有重要意义
1 现 状 概 况
就 目 国内外研究 现状而言 .2 前 P P流量识别方法 主要可 以分 为基 于人工经验和基于机器学习 的 P P流量识别方法 2 目前 . 基于人工经验 的 P P流量识别方法主要可分为两类 : 2 第一类 基于应 用层数 据的 P P 2 流量识别方法 : 第二类 基于流量特征 的识别 方法 。 近年来 .利用 机器学习方法处理 P P流量识 别问题 已经成 为该 2 领域 的一个新兴研究方 向. 流量识别本质上就是一个分类 问题 . 因而 , 可 以将机器学 习方法应用到流量识别和分类领域 。 从训练数据 中自动 学习得到识别规则是这类方法 的主要特征 基于机器学 习的 P P流 2 量识别方法主要从支持 向量机 、 决策树和神经 网络等方面进行阐述 ・支持 向量机被广泛地用于二值分类和多值分类问题。 ・决策树方法是 以实例为基础 的归纳学习方法 , 在分类 、 预测 、 规 则提取等领域有着广泛的应用 。 ・神经 网络是 由人工神经元构成的神经 网络学 习系统 . 该技术 已 经被成功应用于模式识别等领域 过 判 断 h s al 主 机 节 点 的 c et res次 数 是 否 在 指 定 阈 值 内 ot be中 T l ns vr i e 来 区分 P P 和非 P P流 量 。 2 2 2 优 势 与 缺 陷 平 均包到达时间间隔 比分析模块检测 每一 个未知 的报 文 ( 经 从 P P流量识别 的技术 现状来看 . 于应用层数 据识 别方法 D I 节点 角色分析模块 算法确定为 P P的报文不再检测 ) 2 基 P 2 ,步骤 如下 : 首 由于具有准确 性高 、健壮性好和分类功 能 .且过去 的 P P大都 未加 先根 据五元组的定义进行组流 :计算该 流 <i, ot 和< i,Pr> 2 sps r P > dpd ot 密. 因此 曾经是 P P流量识别 的主要方法 。然而 D I 2 P 方法也面临诸如 的平 均包到达 时间间隔 .分别将 其加入 sp otal lPr be和 dp otal T lP r be T 如何提 高识 别算法 的性能 、如何 支持对加密数 据的识别 、如何 更新 列表 :计算 sp otal IP r be和 dp 0ta l T lP r be列表 中相 同的地 址端 口对的 T P P应 用 特 征 库 等 问 题 基 于 流量 特 征 的 P P流 量 识 别 方 法 虽 然 具 有 u 2 2 d值 . 若在指定的 阈值区间 内, 则该流属于 P P流。 2 性能高 、 可扩展性好的优点 , 由于有些方法 的准确性不 够 . 但 因此在实 P P流量 的识别 已经成 为流量管理 中的重要部分 ,在 P P技术 2 2 际应用 中也面临诸多 困难 。 此外 , 现有方法都 以离线数据分析为主 . 缺 不断发展的 同时也给识别技术带 来了新的挑战 。利用 P P网络 中每 2 乏 P P流量 的实时识别能力 从本质看 , 2 基于流量特征 的识别属于启 个 节 点 具 有 双 重 角 色 性 以及 P P流 量 所 表 现 出来 的平 均 包 到 达 时 间 2 发 式 方 法 . 基 于 应 用 层 数 据 的识 别 属 于 精 确 匹配 方 法 而 间隔 比主要 集 中在一定 的范围内的特点来识别 P P流量 ,这两种流 2 上述两种方法主要都是建立在人工经验之上 . 们的优势在于特 量特征都属于传输层 . 以不仅 不需要访 问应用 层数据 内容 , 他 所 而且对 征 提 取 充 分 利 用 了人 类 专 家 对 P P应 用 的 工作 机 理 的 观 察 和 分 析 . 2 可 加密的和未 知的 P P应用识别也 能取得 良好 的效果 。 2 能得到有效 的识别规律 :缺点是规律的获得带有 主观性 和偶 然性 . 同 2 时 也 意 味着 繁 重 的人 类 劳 动 。机 器 学 习 方 法 则 有 比较 坚 实 的 理 论 基 4 P P网 络流 量分 类 础 , 好 的 自动 性 和 适 应 性 , 是 训 练 数 据 的构 成 . 特 征 维 的独 特 程 41 利用传输层流量特征和决 策树模 型对互 联网 中 P P流量进行分 较 但 如 . 2 度, 明显 影 响 分 类 模 型 的准 确 性 和 效 率 。 因此 , 人 工 经 验 和 机 器 学 习 将 类 的 方 法 方 法 结 合 是 一 个 研 究 方 向 基 本 思 想 是 : 先 在 基 于 T PI 首 C/ P协 议 的 互 联 网 中 , 照流 的 五元 按 组( I 源 p r、 源 P、 ot 目标 I、 P 目标 pr 及 pooo) 0t ret 的定义 , 1 将报 文分 成双 3 P P流 量 识 别 2 向 的 T P或 U P流 .抽 取 与端 口和 应 用 层 协 议无 关 的流 特 征 属 性 : C D 由于基于传输层 流量特征 的 P P流量识别方法虽然具有性 能高 、 然后 以 P P流的应用类型为类别 . 2 2 根据 样本流 以及流 的特征属性 . 利 可 扩 展 性 好 的 优 点 , 由于 准 确 性 差 , 以在 实 际 应 用 中 也 面 临 诸 多 但 所 用决 策树 的 c . 法【88 ,O9 ] 45算 8 ,99 ,1比较各个 特征属性对 分类 的信息 困难 。 因此 , 何 对 现 有 的识 别 技 术 进 行 有 效 结 合 或 者 寻 找 新 的基 于 增益率情况 , 而构建 和学 习决策树模 型 : 如 ��
电子商务顾客满意度模型研究_刘佳
参考文献
[1] 杨平,封展旗,杨同卫.顾客满意与顾客忠诚的关系研究综述 [J].商场现代化,2007(31). [2] 科特勒.营销管理:分析、计划、执行与控制[M].上海:上海人民 出版社,1997. [3] Tse D A,W P C. Models of Consumer Satisfaction Formation: An Extension[J]. Journal of Marketing, 1988(25): 204-212. [4] 李延芳,杨顺坡,武佳枚.基于层次分析法对水利工程建设监理
图1 Lee提出的电子商务顾客满意度模型
44
(4)网店经营情况 顾客可以根据自己的意愿随时在网上店铺中浏览并购买商品, 但是由于顾客在收到商品之前,只能根据卖方在网络上发布的商品 描述和图片活动部分的商品信息,交易对象与交易的商品都不可 见,因此买方担心能否获得充分的信息购买到所需要的物品,是否 会被某些网上商店欺诈。 (5)服务沟通情况 与传统的交易的面对面沟通不同,电子商务的沟通方式是通过 网络,以即时聊天、电子邮件、BBS、留言版方式完成,由于顾客 无法亲自感受到商品,会更借助于与服务人员沟通的方式,获得有 关商品的信息。而服务沟通情况的好坏也直接影响顾客的购物欲。 (6)价格感知 由于电子商务的经营成本低于其他零售业态,如果相同的商 品,网络店铺能保证其价格位于较低的水平,一定会大大增加顾客 的满意度。如果同样的商品与在实体店中的价格相当,大部分顾客 会选择能亲自感受到商品质量、样式、大小的实体店,这样会大大 降低顾客满意度。 (7)售后服务 售后服务是保证顾客权益的最后一道防线,由于网络购物顾客 事先不能亲自感受到商品,再加上配送途中损坏,在拿到商品后, 会出现不合心意或发现有质量问题的情况,因而如果能及时补救实 物、改正错误,有效的处理客户的投诉等售后服务措施将使消费者 利益得到了更有力的保障,会有效的提高顾客满意度。 综上所述,本文对影响电子商务顾客满意度的因素进行了如下 总结,如表2所示。
P2P流量识别技术的研究
自2 0 0 4年以来 , P 2 P , 流量 已成 为互 联网的主宰流量 , 占全部 流量 改进 的6 0 %以上。 P 2 P流量的迅猛增长一方面给网络带宽造成严重的负 担, 而且还以其近乎对称 的流量模式加剧 了网络的拥 塞状况 ; 另一 方面 , 基于 P 2 P的恶 意 流 量 也频 繁 出现 在 互 联 网 上 , 大 量 的 非 法 连 接加快了带宽的消耗 , 甚至导致拒绝服务攻击。[ 1 】 由于 P 2 P 业务存在以上诸多问题 , 从网络中有效的识别 出 P 2 P 的数据流量 , 对其进行流量控制 , 流量管理 以及安全机制的研究变 得尤为重要 。随着 P 2 P程序不断 出现 以及许多新技术 的应用 , 对 P 2 P流量识别技术展开研究 , 具有重要意义。 3 P 2 P流 量 识别 技 术 通过对 P 2 P流 量 识 别技 术 的研 究发 现 , 目前 P 2 P流 量 识 别 技 术 主 要分 为 基 于端 口的识 别 技 术 、 深层 数 据包 检 测 技术 和基 于 传 输
摘 要: 随着 P 2 P技 术 的 发展 , 互 联 网的 流 量控 制 问题 逐 渐 显 现 出来 。 提 出了应 用流 量 识 别技 术 的 必要 性 , 介 绍 了几 种 P 2 P流 量 识
别技 术 , 并 对 几 种技 术各 自的优 缺 点 进 行 了比较 , 最后指 出了 P 2 P流 量 识 别 技 术 今后 的 主要 研 究方 向。
层 的 特征 识 别技 术 。 3 . 1 基于端 口的识别技术 。 该方法针对 固定端 口的 P 2 P业务 , 可利 用端 口号识别 P 2 P流量 , 如B T常用端 口为 6 8 8 1 ~ 6 8 8 9以及 6 9 6 9 , e D o n k e y 常 用端 口为 4 6 6 1 ~ 4 6 6 5 , G n u t e l l a常用端 口为 6 3 4 6 ~ 6 3 4 7 等 。识别过程为抽取数据流 中的源端 口或者 目标端 口进行判断 , 匹 配成功即为 P 2 P流量。端 口识别技术有效率 高 、 快速 、 易实现等优
P2P流量识别技术综述
第29卷2009年12月计算机应用JournalofComputerApplicationsV01.29Dee.2009文章编号:1001—9081(2009)s2—0011—05P2P流量识别技术综述袁雪美,王晖,张鑫,刘亚杰(国防科学技术大学信息系统与管理学院,长沙410073)(xuemeiqiqi.yuan@gmail.咖)摘要:在归纳P2P流量识另q问题概念的基础上,对现有的P2P流量识别技术进行了较全面地分析。
借助分类模型形式化地定义P2P流量i7,Aq问题,依据所采用的识别特征将已有技术分为基于端口号、基于流量特征、基于应用层签名、基于双重特征和基于统计行为特征五类方法,并对各类方法进行了介绍、分析与优劣对比。
探讨了新兴的P2P流媒体流量识别问题,总结了P2P流量识别技术的发展趋势。
关键词:P2P流量识别;端口号;流量特征;应用层签名;混合特征;统计行为特征中图分类号:TP393.07文献标志码:ASurveyofP2PtraffiCidentificationYUANXue—mei,W.ANGHui,ZHANGXin,UUYa-jie(Collegeo,Information跏觚andManagement,NationalUnivers蚵of蜘eTechnology,ChangshaHunan410073,China)Abstract:AcomprehensivestaayofexistedP2Ptramcidentificati∞methodbasedonthedefinitionofP2PtrafficidentifieationWaSintrodueed.n地problemofP2Ptra缶cidentificationwasdefinedthoughtheclassificationmodel.Fivemethodswhichwereport—based,trafficfeaturesbased。
P2P的识别
识别方法 的类型
( )传 输 晨 识 尉 一
就 目前 来 说 ,传 输 层 识 别 的 方 法 大体 上分 为 两种 : 首 先 是 基 于 端 口 的 识 别 。 这 种 识 别 方 法 简 单 快 速 。利 用 P P应 用 的专 用 端 口进 行 快 速 识 别 。对 于 早 期 的 P P客 户 端 版 2 2 本 的识 别是 比较 有 效 的 。 但 是 随 着 P P的 发展 。以及 出于 合 法 2
口识 别 还 是 可 行 的 。
视 频 流 量 首 次 超过 音 频 流 量 。 巨大 、 无形 的 P P文件 共 享 网络 2 正 在 被 用 来 分 发 电视 节 目和 电 影 。 这 种 情 况 的 出现 更 多 的 是 对
运 营 商 产 生 负 面 影 响 。首 先 是 降 低 了 运 营 商 的 营 收 。如 利 用
维普资讯
。郭
锋 刘玉利
刘鹏军
■
■ :本 文 主 要 介 绍 了 P P技 术 的发 展 及 目前 主 要 识 别 2
于 公 司企 业 来 说 , P P的 应 用 会 占 用 大 量 企 业 网 络 带 宽 资 源 , 2 让 网 络 无 法 区分 合 法 和 非 法 的 P P流 量 。而防 火 墙 却难 以阻 挡 2
以往 对 P P进 行 识 别 的 方 法 。大 多 集 中在 某 些特 定 的 P P 2 2 协 议 的或 者 其 子 集 的 分析 上 。还 有就 是 集 中于 P P网络 拓 扑 结 2 构 的分 析 上 和 网络 瓶 颈 的分 析 上 等 。 这 些 识 别 方 法 。首 先 不 具 有 P P识 别 的 通 用 性 ,对 于 管 理 来 说 。会 漏 掉 相 当 多 的 P P 2 2 类 型 ;其 次 。仅 从 网 络结 构 上 来 分 析 P P 2 ,在 对 P P具 体 类 型 2 的 分 析 方 面 又 有所 欠缺 。 总体 来 说 , 目前 对 P P的识 别 与 管 理 2
基于P2P业务识别的QoS路由平台的研究与实现
现按 照业 务 参 数 的不 同要 求 ,实 现 不 同 的路 由转 发 .这样 能充分 利用 空 闲的路 由点 ,解 决现有 网络 在最 短路径 算法 运行 下所造 成 的拥堵 问题 ,提高传 输 质量 。 此 平 台系 统 首先 对 进 人流 量进 行 识 别与 控 制 , 即按 照策 略管 理需 求 对P P 务类 别 进行 识别 ( 2业 此
图 1 平 台系 统模 型
8 %的流量【 0 ” 。但 是 由于P P 务没 有统一 标准 , 2业 自
身缺 乏管 理 和控制 机 制 ,并且 P P 2 业务 流 量具 有 带 宽吞噬特 性 .导致 简单 的网络升级 扩容 无法 满足 网 络 流量增 长 的需 要 , 成 网络服务 质量 下降 。同时 , 造
I 分组 业 务 中 ,2 业 务 开 始 占据 越 来 越 重 要 的位 I ) PP
置 。P P 务 被广 泛应 用 于 即时通 信 、 件共 享 、 2业 文 流
媒体等 方 面 ,据统 计 ,2 业务 占据互 联 网业务 6 % PP 0
~
_l控l\如田广 -应 f 明 1制 适 s/ 塑 厮
业 务进 行统 一 管理 和运 作 , 高 网络 的 可控 、 管 , 提 可 提升 网络 的Qo 保 障 。 S
务 流量控 制软 件进行 控制 。确 定各种 P P 务后 , 2业 由
基 于 P P 务 识 别 与 Qo 路 由 平 台 系 统 模 型 如 2业 S
于各 种P P 务 对各 种参 数 ( 宽 、 2业 带 时延 、 时延 抖动 、
丢包 率 等 ) 求 不 同 , 要 可据 此对 业 务进 行分 类 嘲 。对
p2p协议识别
竭诚为您提供优质文档/双击可除p2p协议识别篇一:p2p协议识别p2p协议识别技术方案报告人:时间:1gnutella0.4协议1.1端口特征识别缺省端口:6346/6347/63481.2流量特征识别ipp2p识别方案:gnutellatcp检查gnutella的get命令如果tcppayload的最初9个字节的内容为"get/get/",或最初的13个字节为"get/uri-res/"即为gnutella 检查gnutella的get命令和其他特定字段如果tcppayload的最初17个字节的内容为"gnutellaconnect/",或者最初的9个字节的内容为"gnutella/"。
即为gnutella如果tcppayload的最初9个字节的内容为"get/get/",或最初的13个字节为"get/uri-res/"若ippayload长度大于tcp头部长度+30,此时如果指针自tcppayload右移8个字节,指针所指的内容中第一个字节为0x0d,第二个字节为0x0a,匹配"x-gnutella-",或"x-queue:",匹配成功则为gnutella,(详情参看代码)gnutellaudp如果udppayload的最初3个字节的内容为"gnd",或者最初的9个字节的内容为"gnutella/"。
即为gnutella l7Filter识别方案:^(gnd[\x01\x02]..\x01|gnutellaconnect/[012]\.[0-9]\ x0d\x0a|get/uri-res/n2r\urn:sha1:|get/.*user-agent: (gtk-gnutella|bearshare|mactella|gnucleus|gnotella| limewire|imesh)|get/.*content-type:application/x-gn utella-packets|giv[0-9]*:[0-9a-f]*/|queue[0-9a-f]*[1-9][0-9][0-9]\.[1-9][0-9][0-9]\.[1-9][0-9][0-9]\. [1-9][0-9][0-9]:[1-9][0-9][0-9][0-9]|gnutella.*cont ent-type:application/x-gnutella|..................l ime)我们的识别方案:连接查询过程:payload的第17个字节是命令id,其值为:0x00,0x01,0x80,0x81,0x40,(扩展:0x02,0x10,0x30,0x31,0x32),从第20到23这4个字节,是其后的payload长度,即(payload长度-23)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
息传递的功能
1.P2P 概述 P2P 即 Peer - to - Peer 称为对等连接或对等网络 它是一种新的通信模式 每个参与者具有同等的能力 可以发 起一个通信会话,网络模型如图 1 所示 P2P 通信模式有以下 技术特性 1.1 既是服务器(S)又是客户端(C) 表现取决于用户的要 求 网络应用由使用者自由驱动 1.2 信息在网络设备间直接流动 高速及时 降低中转服 务成本 1.3 构成网络设备互动的基础和应用 1.4 在使网络信息分散化的同时,相同特性的 P2P 设备可以 构成存在于互联网这张大网中的子网,使信息按新方式又一次集 中 P2P 与当今广泛使用的客户端 / 服务器(C/S)模式形成了鲜 明的对比 C/S 模式中服务器是网络的控制核心 所有的信息 都保存在中央服务器上 所有的信息传递必须通过中央服务器 才能完成 而 P2P 模式下的每一个节点都可以视作 C/S 模型 下的中央服务器 任何一个节点都可以提供信息传递的功能 任何一个节点都保存有需要共享或者需要传递的信息 在提供 信息传递服务的同时 P2P 模式下的每一个节点同时又是消费 服务的客户节点 本地的一个节点通过其他节点提供的信息服 务分享其他节点的信息 P2P 相比于 C/S 模式的最大优点是充 分利用了闲散的客户机资源 能够最大化的利用资源 同时又 极大的提高了整个服务网络的健壮性 比如 C/S 模式下一旦服 务器发生故障 则整个信息传递就完全崩溃了 而在 P2P 网络 中 即便一个节点出了故障 整个 P2P 网络照样可以正常传递 信息 因为网络中任何一个节点都是服务节点 都能够提供信
科技资讯 SCIENCE & TECHNOLOGY INFORMATION
109
科技资讯 2006 NO.5 SCIENCE & TECHNOLOGY INFORMATION
I T 技 术
浅谈基于 SAN 架构的网络存储系统的设计
贺玲玲 (重庆工商大学计算机科学与信息工程学院 40Байду номын сангаас067)
网络带宽中的大部分被 P2P 业务所占用 网络负载加大 其 他业务被影响 这样下去的结果只能有两个 一个是运营商不 断提高网络容量,并把费用分摊给用户,导致用户上网费用上升, 一个就是运营商在保持原有网络容量的情况下 限制 P 2 P 业 务 用户将无法享受到 P 2 P 技术带来的优势
本文的目的就在于研究解决这个矛盾 可以让我们享受P2P 业务的同时减低运营商的维护费用 使得整个P2P技术能够良性 发展下去
2. P2P 应用现状 由于 P2P 相比于传统网络模型在信息共享方面的优势 近 年来 发展十分迅速 这些技术中以文件共享应用最为广泛 其中最为典型的就是BitTorrent BitTorrent是一个P2P的文件 共享软件 它能提供各个 Peer 之间直接共享文件资源的功能 一般应用最为广泛的是共享影视资源 软件资源 一般文件大 小在 1 0 0 M 以上 笔者通过对国内著名 P 2 P 下载网站 B T @ C h i n a 的不完全采样统计 平均每个 P 2 P 种子的文件 大小在 6 0 0 M 左右 可见文件共享以大文件为主 近几年又兴起的一个 P2P 应用是网络流媒体,主要就是网络 电视直播 该应用采用 P2P 原理发布电视节目,很好解决了原来 电视直播服务节点带宽限制的问题 基本原理就是服务站点把 实时的电视节目压缩成流媒体后通过 P2P 共享出去 各个收看 电视的节点互相分流 分担服务节点的流量 最终可以让每一 个用户都能够较流畅的收看到实时节目 P2P 流媒体应用的流 量可用比特率来衡量 一般在宽带环境中比特率为 700Kbps 大致估算一下收看一小时的节目需要下载 250M 字节的数据
6.结束语 P2P 技术占据着网络带宽的绝大部分 中国又是世界上 P2P 流量最大的地区 如何控制 P2P 流量是我们在享受 P2P 带来的便 利的同时必须要考虑的一个问题 解决这个问题的一个重要前提 是要对 P2P 流量进行正确的识别 目前还没有一个速度快 识别 率高的方法 本文就想在这个领域作一点探索性的研究 提出一 些解决这个问题的思路 相信随着P2P 应用的进一步发展 越来越多的人开始研究这 种技术 更好的鉴别技术也会不断的涌现出来 那时我们一定会 有一个更好的 P2P 应用环境
应用现状
存在的问题作了介绍和研究
并提出了解决 P2P
当 W W W 产生那一天开始 集中式的服务器就一直是 Internet 的核心 它集中了网络中所有可以检索到的资源 但 是随着网络的继续膨胀 用户终端的处理能力 存储能力进一 步提高 人们发现一直被遗忘的用户终端也具有了提供服务的 能力和资源 而之前这些能力是被浪费的 这些资源是无法被 检索到的 P 2 P 技术由此诞生
进行协议一层的分析 计算量比较大 速度比较慢 另外和 第一种方法一样 也需要不断更新鉴别数据库 不断把新的 P 2 P 应用的协议添加进去 以实现有效的 P 2 P 鉴别
5.解决方案还存在的问题及改进 我们从上面的分析中可以看到 目前两种主要的 P2P 鉴别 技术都有比较明显的缺点 第一种方法在应用采用动态端口的 时候误判很高 只能对严格遵守端口规定的 P2P 流量才能进行 有效的识别 第二种方法的主要缺点是效率不高 要把整个 IP 包解开 甚至把 T C P 包解开 对里面的具体协议进行分析 虽然精度很高 但效率如果无法提升上去的话也很难取得大面 积的应用 笔者在分析了这两种方案之后 提出了一个新的解决 P2P 流量识别的思路 这个思路是从 P2P 流量的特征来考虑的 P2P 流量的特征是数据流量大 节点间数据交换频繁 一般我们访 问一个网站 流量是突发的 持续时间短 数据以下行为主 上行很少 而如果用传统方式下载一个文件的话 持续时间会 相对较长 但数据还是以下行为主 上行量相对小得多 而 一个 P2P 流量的话 突出特点是持续时间长 流量也是非突发 性的 并且上行和下行的流量是相当的 那么这种鉴别方式就 是要对数据流量进行统计分析 从统计上来判断该流量是否属 于 P2P 流量 而后对该流量进行控制 这种鉴别方式的优点在 于不需要对 I P 包的内容进行解析 只需判断其端口 源地址 IP 目的地址 IP 即可 又因为是用的统计分析 命中率也较 高 另外也对新的 P 2 P 协议有很高的适应能力 从上可看出这种方法的分析速度较快 鉴别的准确率也较 高 至于在实际系统中的运行效果还有待测试
3.分析存在的问题 在实际应用中 我们还发现 P2P 的两个重要特点 一个是 不分时段性,一个是持续性 P2P 文件下载几乎没有高峰期和低 谷期之分,理由可想而知,一般一个文件都上百兆 下载时间在几 个小时以上 而且都不需要人工干预 只要订制完任务后就可自 动在后台进行 因此在实际中大多数人都会把文件共享在后台进 行着 甚至为了下载一个更大的文件整天都开着机 电脑的自动 作业自然不像人类访问一个网站那样具有时段性 这就造成了无 论何时 P2P 业务都会以一个水平在进行着 同样 P2P 有别于
随着 P2P 技术的发展和成熟 人们在享受这项技术带来的 便利的时候 同时也发现一个问题 这个问题就是在 P2P 的应 用中 企业或者一个区域网络的大部分带宽被 P2P 的多媒体业 务所占据 这一方面影响了一个企业的正常业务或者一个区域 中网民的正常上网需求 另一方面它也加重了运营商的设备维 护成本 运营商为了满足急剧膨胀的带宽需求 就必须不断升 级它的网络
I T 技 术
科技资讯 2006 NO.5
SCIENCE & TECHNOLOGY INFORMATION
P2P 流量的识别技术
徐斌 孙学康 北京邮电大学 网络教育学院 北京 100088
摘 要:结合现阶段 P2P 网络应用中出现的问题,对 P2P 的技术原理 流量问题的一个方案 最后展望了 P2P 技术的进一步的发展前景 关键词 P2P 业务 识别 缓存 中图分类号 TP393 文献标识码 A
统计表明 现有网络带宽有 80% 被 P2P 文件共享所占用 而 这些用户却仅仅是所有网民的 5% 通过上面的分析得出这样的 统计结果也就不足为奇了 正常的业务都需要人工的参与 以突 发业务为主 且发生的时段多集中于工作时间 而 P2P 业务具有 流量大 持续长 自动进行无时段性等特点自然能够占用更多的 带宽了
110 科技资讯 SCIENCE & TECHNOLOGY INFORMATION
摘 要:本文以某企业的数据中心存储系统为案例 浅谈如何设计基于 SAN 架构的网络存储系统 关键词 企业 SAN 存储 数据中心 中图分类号:TP393.02 文献标识码 A
1.用户需求 某企业数据中心存储基本目的是为数据中心构建一个可靠 的 由高可扩展性的基于 S A N 的存储架构 现有的服务器平
4.解决方案 在这种情况下 有些人提出了 P2P 缓存技术 就是通过在 某些节点处缓存 P2P 流量 从而减小网络干路上的总流量 但 是缓存机制的最重要一点就是要正确地识别P2P 业务流和非P2P 业务流 目前研究上有两种主要的 P2P 流量鉴别技术 两者各 有优缺点 下面分开介绍 第一种鉴别技术是通过数据包的协议类型 端口号来进行 P2P 识别 这种方法的明显有点是解析速度非常快 通常只需要 对IP包头进行分析找出端口号 然后和预先设定的端口表进行比 较 如果认为该端口是 P2P 端口 则鉴别成功 否则就不认为是 P2P 流量 这个方法虽然非常简单 而且在一开始的应用中也能 起到一定的作用 但随着 P2P 应用的增多 维护一个这样的端口 对应表并不容易 不断有新的协议 新的端口加入到这个 P2P 应 用里来;另一个突出的突出问题是 P2P 应用为了躲避被这些流量 限制 往往会使用动态的端口来进行数据传输 而不是使用一个 公共不变的端口,这样就导致这种鉴别技术无法有效的识别 P2P 流量 因此也无法实现后来的缓存技术 基于端口的不确定性 有人提出另一种识别技术 就是对 P2P 数据包进行详细分析 根据 P2P 协议来进行鉴别 这种技 术的最大特点是能够对已知协议的 P2P 流量进行精确的识别 误判很低 但这种鉴别技术的缺点在于每次都要把整个 IP 解开