计算机网络安全探讨

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

离散
Service
在目标机的网络服务, 如 http, telnet 等
离散
src_bytes
源地址到目标地址的数据流量
连续
dst_bytes
目标地址到源地址的数据流量
连续
flag
连接状态( 正常或错误)
离散
land
1- 数据连 接源 地址和 目标 地址 为同一 主机 或端 口; 0- 其他 离散
标识类型
出现 SYN 错误的连接次数
连续
srv_rerror_rate
出现 REJ 错误的连接次数
连续
srv_diff_host_rate
连接不相同主机的次数
连续
离散型
1 protocol_type

service

flag

land
5 logged_in
6 root_shell
7 su_attempted
在 实 验 研 究 中 , 一 般 使 用 KDDCup99 中 的 网 络 入 侵 检 测 数 据 包 kddcup_data_10percent。 kddcup_data_10percent 数 据 包 是 对 kddcup_data 数据包( 约 490 万条数据记录) 10%的抽样。
2.数据预处理
聚类算法中要使用计算距离的方法对数据进行 聚 类[2] , 而 连 接 记 录的固定特征属性中有两种类型的数值: 离散型和连续型。对于连续 型特征属性, 各属性的度量方法不一样。一般而言, 所用的度量单位越 小, 变量可能的值域就越大, 这样对聚类结果的影响也越大, 即在计算 数据间距离时对聚类的影响越大, 甚至会出现“大数”吃“小数”的现象 [3] 。因此为了避免对度量单位选择的依赖, 消除由于属性 度 量 的 差 异 对聚类产生的影响, 需要对属性值进行标准化。

X' ij
归一化
后的值。
X''ij=
X' ij- Xmin Xmax - Xmin
( 2- 4)
Xmin =min{X' ij}( 2- 5)
Xmax =max{X' ij}( 2- 6)
其中下标变量 1≤i≤n, 11≤j≤32。
3.小结
在基于数据挖掘的网络入侵检测技术研究中, 数据源的获取是研
图 1- 1 连接记录实例
以下三个表为连接记录特征的完整列表, 其中表 1- 2 显示的是单 个 TCP 连接的基本特征, 表 1- 3 显示的是在一次连接 中 包 含 的 内 容 特征, 表 1- 4 显示的是以 2 秒时间窗口计算的流量特征。
通过对 41 个固定特征属性的分析, 比较能体现出状态变化的是 前 31 个特征属性, 其中 9 个离散型, 22 个连续型。因此对连接记录的
0,udp,private,SF, 105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.0 0,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,normal.
特征名


hot
热点指标的数目
num_failed_logins
企图登录失败次数
logged_in
1- 登录成功; 0- 其他
类型 连续 连续 离散
KDDCup99 训练数据集中每个连接记录包含了 41 个固定 的 特 征 属性和 1 个类标识, 如图 1- 1 所示, 标识用来表示该条连接记录是正 常的, 或是某个具体的攻击类型。在 41 个固定的特征属性 中 , 9 个 特 征属性为离散( symbolic) 型, 其他均为连续( continuous) 型。
科技信息
○IT 技术论坛○
SCIENCE & TECHNOLOGY INFORMATION
2008 年 第 15 期
KDDCup99 网络入侵检测数据的分析和预处理
王洁松 1 张小飞 2 (1.南通航运职业技术学院信息与技术系 江苏 南通 226010; 2.国家电网公司信息网络安全实验室 江苏 南京 210003)
1- su 命令执行尝试; 0- 其他 Root 权限访问的次数 文件创建操作的次数 shell 提示符合的个数 访问控制文件的次数
一次 ftp 会话中传递命令的次数 1- 属于热点清单的登录; 0- 其他 1- guset 用户登录; 0- 其他用户名登录
连续 离散 离散 连续 连续 连续 连续 连续 离散 离散
对于离散型特征属性本文中并不作标准化处理, 而是放在聚类算 法中计算距离时处理。所以数据标准化是针对连续型特征属性的。
设训练数据集有 n 条网络连接记录, 每个记录中有 22 个连续型
Baidu Nhomakorabea
407
科技信息
○IT 技术论坛○
SCIENCE & TECHNOLOGY INFORMATION
2008 年 第 15 期
究的基础, 数据源的预初步处理更是直接影响入侵检测技术的效果。
本文对 KDDCup99 网路入侵检测数据集进行了较为详细的介绍, 并给
duration,protocol_type,service,flag,src_bytes,dst_bytes,land, wrong_fragment,urgent,ho,num_failed_logins,logged_in,num_compromised, root_shell,su_attempted,num_root,num_file_creations,num_shells, num_access_files,num_outbound_cmds,is_host_login,is_guest_login,count, srv_count,serror_rate,srv_serror_rate,rerror_rate,srv_rerror_rate, same_srv_rate,diff_srv_rate,srv_diff_host_rate,dst_host_count, dst_host_srv_count,dst_host_same_srv_rate,dst_host_diff_srv_rate, dst_host_same_src_port_rate,dst_host_srv_diff_host_rate, dst_host_serror_rate,dst_host_srv_serror_rate,dst_host_rerror_rate, dst_host_srv_rerror_rate,class
1.KDDCup99 网络入侵检测数据介绍
对于入侵检测的研究, 需要大量有效的实验数据。数据的采集可 以 通 过 一 些 抓 包 工 具 来 获 得 , 如 Unix 下 的 Tcpdump, Windows 下 的 Libdump, 或 者 专 用 的 软 件 snort 捕 捉 数 据 包 , 生 成 连 接 记 录 作 为 数 据 源。在此, 本文介绍基于数据挖掘的入侵检测技术研究中使用的 KDDCup99[1] 的网络入侵检测数据集。
属性向量记作 Xij(1≤i≤n,11≤j≤32)。对 Xij 数据预处理分为两步: 数 值标准化和数值归一化。
表 1- 4 以 2 秒时间窗口计算的流量特征
特征名
描述
类型
count
过去的 2 秒内与当前连接有着相同的目的地址的连接 连续
注释: 以下特征指对同一主机的连接
serror_rate
出现 SYN 错误的连接次数
在 训 练 数 据 集 中 包 含 了 1 种 正 常 的 标 识 类 型 normal 和 22 种 训 练攻击类型, 如表 1- 1 所示。另外有 14 种攻击仅出现在测试数据集 中。
表 1- 1 KDDCup99 入侵检测实验数据的标识类型
protocol_type
协议类型, 如 tcp, udp 等
num_compromised root_shell
su_attempted num_root
num_file_creations num_shells
num_access_files num_outbound_cmds
is_hot_login is_guest_login
受到威胁状态的次数 1- 获得超级用户的 shell 外壳; 0- 其他

num_root
20
10 num_file_creations 21
11
num_shells
22
num_access_files num_outbound_cmds
count srv_count serror_rate srv_serror_rate rerror_rate srv_rerror_rate same_srv_rate diff_srv_rate srv_diff_host_rate
含义
具体分类标识
wrong_fragment
错误碎片的数目
连续
Normal
正常记录
normal
urgent
紧迫数据包的个数
连续
DOS
拒绝服务攻击
back、land、neptune、pod、smurf、teardrop
Probing 监视和其他探测活动
ipsweep、nmap、portsweep、satan
【摘 要】基于数据挖掘的入侵检测技术研究中, 常用的实验数据是 KDDCup99 的网路入侵检测数据集。本文介绍了该数据集的构成和入 侵攻击的类型, 以及在实际入侵检测中使用的有效的连接记录特征。针对入侵检测技术中的聚类算法, 本文给出一种数据预处理方法, 经实验 表明能改善聚类的效果。
【关键词】入侵检测; 聚类; 预处理; KDDCup99
’ %( A- A&) 2 对于孤立点具有更好的鲁棒性。 n- 1 在上述计算时需做如下判断:
⑴ 如果 AVGj 等于 0 则 X' ij=0
⑵ 如果 STADj 等于 0 则 X' ij=0 2) 数值归一化
将 标 准 化 后 的 每 个 数 值 归 一 化 到 [0,
1]区 间 。 设
X'' ij
8 is_host_login
9 is_guest_login
表 1- 5 31 个特征属性
连续型

duration
12

src_bytes
13

dst_bytes
14

wrong_fragment 15

urgent
16

hot
17
7 num_failed_logins 18
8 num_compromised 19
0,udp,private,SF, 105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,1.00,0.00,0.0 0,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,snmpgetattack.
R2L
来自远程机器的非法访问
ftp_write、guess_passwd、imap、multihop、 phf、spy、warezclient、warezmaster
U2R
普通用户对本地超级用户 特权的非法访问
buffer_overflow、loadmodule、perl、 rootkit
表 1- 3 一次连接中包含的内容特征
分析处理是针对该 31 个特征属性。将 31 个特征属性按离散型和连续 型顺序排列如表 1- 5 所示。
表 1- 2 单个 TCP 连接的基本特征
特征名 Duration
描述 连接时间长度( 单位: 秒)
类型 连续
该数据集是从一个模拟的美国空军局域网上采集来的 9 个星期 的网络连接数据, 分成具有标识的训练数据和未加标识的测试数据。 测试数据和训练数据有着不同的概率分布, 测试数据包含了一些未出 现在训练数据中的攻击类型, 这使得入侵检测更具有现实性。
连续
rerror_rate
出现 REJ 错误的连接次数
连续
same_srv_rate
建立相同服务的连接次数
连续
diff_srv_rate
建立不同服务的连接次数
连续
srv_count 过去 2 秒 时间 内出现 和当 前连 接服务 相同 的连 接次数 连续
注释: 以下特征指对同一服务的连接
srv_serror_rate
1) 数值标准化 设 X' ij 为 Xij 数值标准化后的值。
X' ij=
Xij- AVGj STADj
( 2-
1)
AVGj

1 n
(X1j +X2j +Λ+Xnj )( 2- 2)
STADj

1 n
#X1j - AVGj
+ X2j - AVGj
+Λ+ Xnj - AVGj
$ ( 2- 3)
其 中 AVGj 为 平 均 值 , STADj 为 平 均 绝 对 偏 差 , 比 标 准 差 σA=
相关文档
最新文档