Internet流量识别基础数据采集技术的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随着网络技术的快速发展, 基于网络的应用日益增加、 也更加复杂。网络用户已经不满足于进行单纯的 数据传输, 而是更多的要求享受多元化的信息传输和信 息 共 享 的 服务, 这 样 就 导 致 了 网 络 流 量 剧 增, 网络行 为也变得更加复杂
[1 ]
。而且, 种类繁多的应用 ( 合 法 的 或 者 非 法 的 ) 不 但 吞 噬 着 更 多的 网 络资 源, 也 对 QoS
山东科学
SHANDONG SCIENCE
4026 ( 2011 ) 05007105 文章编号: 1002-
第 24 卷
第 5 期 2011 年 10 月出版 Vol. 24 No. 5 Oct. 2011
Internet 流 量 识 别 基 础 数据 采 集技术 的研究
* 赵彩云, 杨波 , 彭立志, 陈贞翔
72
山
东
科
学
2011 年
序信息来为流量贴上真实背景信息的标签。尽管每种网络流量采集的方法都存在一些不足之处, 但是, 这些 采集方法对我们的流量分类和采集方法的研究都提供了很多借鉴。
1
基于主干网的流量采集方法
为了更好的管理网 络, 很 多研究 团 队 一 直 在 努 力 的研究 如 何 能 够 获 得 带 准确 标 签 的 流 量 采集方 案。
Research on internet traffic collection methods with practical information
ZHAO Caiyun,YANG Bo * ,PENG Lizhi,CHEN Zhenxiang
( Shandong Provincial Key Laboratory of Network Based Intelligent Computing, School of Information Science and Engineering, University of Jinan,Jinan 250022 ,China)
Fig. 1 图1 网络监测器的架构 The architecture of a network monitor
网络监测器能够在不丢失数据包的情况下全速率捕 获 和 处 理 数 据 包, 在线 处 理 数 据 包 主要是 指 允 许 进 如果结合一种离线的高性能的流量处理过程, 这种机制将会 行标准应用程序的处理和标准应用程序的压缩, 更加高效地处理捕获的流量。但是, 磁盘的容量和缓存空间的大小会影响网络监测器对流量的采集、 处理和 存储。再者从主干网采集的流量都是经过处理的, 因此基于协议的分析可能会导致错误的判断, 从而为流量 贴上错误的标签。
第5 期
赵彩云, 等: Internet 流量识别基础数据采集技术的研究
73
单元而且是 由 TCP 协 议 或 UDP 协 议 产 生 时, 网络驱动就会检 查自 身 缓 存 中 是 否 已 经产 生 该 流 量的应用 程 序 信 息。 若 存 在, 就检 查 是 否 需要为此 流 量 做 标 记; 若 不 存 在, 就把此流量的应 用程 序 信 息 缓 存 起 来, 然后再决定是否 为此 流 量 做 标 记。 如 果不需要为流量做标记, 就直接把流量转发出去; 如果需要为 流 量 做 标 记, 就 需 进 一 步 确 定 需要为 流 量中的 哪些数据包做标记, 然后根据数据包的五元组信息来 为 流 量 进行标 记, 并 且 把 标 记 填 充 在 IP 数 据 包 头 部 的 可选项中, 在数据包封装之后就可以进行流量的转发。 该验证系统不仅可以用来验证其它分类方法的准确 度, 而且 可 以 在在线 流 量分 类 的测量 方 面 使 用 此 验 证系统所做的标记, 除这些方面之外, 还可以用此验证系统得到的带标记的流量来训练分类器等。这个系统 的流量采集是基于主机的, 能够为被捕获的、 流出主机 的 流 量 贴 上 较 高 准确 度的应用 程 序 标 记。 但 是, 该验 证系统缺少一系列捕获流量的工具和把准确信息贴到 每 个 链 接 上 的 后 续 处 理 工 具, 而且 它 对 一 个给 定 的 流 量仅提供应用程序信息, 而不提供相关协议信息。由于该系统还没有公开使用, 其本身的准确率是无法进行 验证的。 2. 2 真实流量信息的认证系统 GTVS ) [11] 在分 层 结构中 是 一 种面 向 用 户 的 设 真实信息的认证 系统 ( Ground Truth Verification System, 计, 是基于主机来采集流量和对采集的流量进行处理的, 由 Marco 等人在 2009 年开发设计, 其架构图如图 3 所示。 真实流量信息认证系统是由数据 基 础设 施 和 认 证 前 端 两部分构成。数据基础设施主要是通 过 跟 踪 不 同层 次 集 合 ( 流量, { IP, 端 口 } 元 组, 和 主 机 ) 中的 有 效 载 荷 来 采集信 息。有效载荷的跟踪是根据包含在每 个 流 量中 第 一 个 数 据 包的时间戳和每个数据包的 IP 地 址 和 协 议 来 进行 索 引 的。 被跟踪的数据包要与已知的协议特 征 进行 匹 配, 若 能 匹 配, 就将流量信息存储到流量表中, 基于 此 流 量 表, 进一步拓展 就可以生成两 张 表: 主 机 表 和 主 机 端 口 号 表。 认 证 前 端包 含呈现不同层次 集 合中的 大 量 信 息 的 图 表 接 口, 并且支持
来自百度文库
Abstract ∶ We compare two traffic collection schemes, backbone based and host computers based traffic collection schemes,to precisely classify network traffic. We also address their main functions,the process of their traffic collection, and how to impress practical information on the collected traffic. disadvantages. Key words ∶ traffic collection; application labels; traffic classification; traffic collection scheme We eventully present their advantages and
( 济南大 学信息科学 与工 程学院 , 山东省 网络 环境 智能计算 技术 重点实验室 , 山东 济南 250022 )
摘要: 为对网络流量进行准确的分类, 对比了基于主干网和基 于 主机 的 两 种 流 量 采集 方 案, 探 讨 了 这 些 采集系 统 的 主 要 作用、 采集流量的过程以及如何为采集的流量打上真实应用信息的标记, 同时指出现有流量采集方案的优势和不足。 关键词: 流量采集; 应用程序标签; 流量分类; 采集方案 中图分类号: TP393 文献标识码: A
端上执行基于网络驱动接口规范的 Windows XP 驱动。 这个 验 证 系统 是 由 Geza 等人 在 2008 年经过 努 力 研 究提出的, 网络驱动接口规范在终端中的位置如图 2 所示。 该流量分类的验证系统是在终端的网络接口卡上进行 对 流 量的 接 收, 然 后 运行网 络 接 口 规 范 标 准 的 驱 动程序来判断接收到的流量是流出终端的还是流入 终 端 的。如果 是 流 入 终 端 的, 不做任何处理直接向上转 发; 如果是流出终端的, 网络驱动就检测接收到的数据包 的 大 小 和 协 议, 若 数 据 包 的 大 小小 于 网 络 最 大 传 输
[2 ]
和网络安全带来了巨大的威胁
。如果对流量特性以及用 户 与网 络 行 为缺 乏 准确 的 理 解, 很有可能导致网
[3 - 4 ]
络的可控性和管理性变得越来越差。如何给广大的互联网使用者提供一个安全、 可靠和高效的使用环境, 是 网络管理急需解决的问题, 这就需要给流量数据贴上标签, 以便进行准确的流量分类 。 应用信息标签是网络数据流量管理的基础, 为了得到带准确应用信息标签的网络数据, 很多研究团队都 在尽力研究流量采集的方法。有些是从主干网上采集流 量, 然 后 把 采集 的 流 量 和 先 前 记录 的 采集 数 据 包 的 有效信息来进行比较, 从而为采集的流量打上真实应用信息的标签。而有些则是基于主机来采集流量的, 他 们根据采集流量的有效载荷信息、 五元组( 源 IP 地址、 目的 IP 地址、 源端口、 目的端口和协议) 或者是应用 程
图3 真实流量信息认证系统的架构 The architecture of a GTVS Fig. 3 Fig. 2 图2 流量分类方法验证的架构图
The verification structure of traffic classification algorithms
2
基于主机的流量采集方法
在主干网上进行流量的捕获, 不仅数量庞大, 而且在发送前都是需要经过处理的, 因此, 为基于主干网采
集的流量贴上准确的应用程序标签存在一定的难度。为此, 一 些 研究 团 体提出 了 几种 基于 主 机 的 流 量 采集 的系统框架。 2. 1 流量分类算法的验证
[10 ] 流量分类算法验证系统( the validation of the traffic classification algorithms) 的设计是在 产 生 流 量的 终
0630 收稿日期: 201160573065 , 61070130 , 60903176 ) ; 山东省自 然 科 基金项目: 国家 973 计划前期研究专项基金( 2010CB635117 ) ; 国家自然科学基金( 60873089 , 100863 ) 学杰出青年基金( JQ200820 ) ; 新世纪优秀人才支持计划( NCET作者简介: 赵彩云( 1987 - ) , 女, 硕士研究生, 研究方向为带准确标签的网络流量采集。Email: hongyunzhao511@ 163. com * 通讯作者, 杨波( 1965 - ) , 男, 教授, 博士生导师, 研究方向为计算机网络与智能信息处理。Email: yangbo@ ujn. edu. cn
[2 , 6 -8 ] [9 ] 2003 年, Moore 等人提出了网络监测器[5], 一直 以 来 被 流 量分 类 研究 团 队 广 泛 引 用的 Moore 数 据集
就是 Moore 等人使用这种高性能的网络监测器在主干网上采集流量的集合。这种高性能网络监测器的 工 作 架构如图 1 所示。 该网络监测器工作在 1 Gbps 的 全 双 工 网 络 上, 平 台是基于 GNU / Linux 操作系统的。网络监测器通过网 络接口卡接收 来 自 网 络 上 的 所 有 数 据流 量, 然 后通 过 安置在网络接口卡固件上的一个简单 的 过 滤 器 来 过 滤 捕获到的所有 数 据 包, 并 把 过 滤 后 的数 据 包 和 不需要 过滤的时间戳一并直接发送到一 个 内 核 内 存 的 接 收 缓 冲池中。网络监测器中 有 一 个 或 多 个 接 收 缓 冲 池, 而 每个缓冲池都 和 用 户 层 的 处 理 是息息相 关 的, 并且会 被映射到用户层的地址空间。用 户 层 有 一 些 基于 协 议 的处理模块, 如果 监测 到 数 据 包 和 某 个 协 议 模 块 相 匹 配就把这个数 据 包 临 时 存 储 在 状 态 池 中, 直 到一 个 流 的所有数据包 都 达到 后, 就把 存 储 的 整 个 流 拷贝 到 输 出记录缓冲区中, 当输出记录缓 冲 区 的 空 间 被 占 满 时, 就会把输出记录缓冲区中的所有 流 量 都 写 入 到一 个 容 量较大的 RAID 磁 盘 中, 然 后 释 放 输 出 记录 缓 冲 区 来 进行新的流量存储。