网络安全数据集介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• TCP连接的内容特征(13种) (10)hot. 访问系统敏感文件和目录的次数,连续
(11)num_failed_logins. 登录尝试失败的次数,连续
(12)logged_in. 成功登录则为1,否则为0,离散 (13)num_compromised. compromised条件(**)出现的次数,连续 (14)root_shell. 若获得root shell 则为1,否则为0,离散,root_shell是指获得超级用户
Tool: existing tools Profile: Brute Force Attack,Heartbleed Attack,Botnet, DoS Attack,DDoS Attack,Web Attack, Infiltration Attack
Dataset
Canadian Institute for Cybersecurity
(29)same_srv_rate. 过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有相同服务的连接的 百分比,连续
(30)diff_srv_rate. 过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有不同服务的连接的百 分比,连续 (31)srv_diff_host_rate. 过去两秒内,在与当前连接具有相同服务的连接中,与当前连接具有不同目标主机的连接 的百分比,连续
KDDTrain+ KDDTest+ KDDTrain-21 KDDTest-21
3、CICIDS2017
Profiles
• Benign Profile
Tool: B-Profile system
Profile: behavior of normal user
• Attack Profiles
网络安全数据集介绍
盛川
IDS Dataset
1、KDD99 Dataset
• 模拟美国空军局域网的一个网络环境,收集了9周时间的网络连接和系统审计数 据,仿真各ห้องสมุดไป่ตู้用户类型、各种不同的网络流量和攻击手段。
类别 NORMAL PROBE DOS 含义 正常记录 监视与其他探测活动 拒绝服务攻击 具体分类标识 normal ipsweep,mscan,nmap,portsweep,saint,satan apache2,back,land,mailbomb,neptune,pod,processtable, smurf,teardrop,udpstorm
KDD99数据集中每个连接用41个特征来描述
例:0, tcp, smtp, SF, 787, 329, 0, 0, 0,0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal.
2、NSL_KDD
KDD99
——A new version of
• KDD99 数据集的一个主要缺陷是:存在大量冗余数据。
• 影响:
1)导致IDS算法更倾向于出现更频繁的记录; 2)大量冗余数据使IDS算法的测试结果普遍偏高,不能真实反映算法的有效性。
数据处理方法
• Randomly create three smaller subsets of the KDD train set each of which included fifty thousand records of information. • Employ 21 learned machines (7 learners, each trained 3 times) to label the records of the entire KDD train and test sets.
4、Other Datasets
• SEA Dataset——2001
User behavior logs
• HTTP Dataset CSIC 2010——2010
Web service requests
• CERT-IT Dataset——2013
Insider Threat Dataset
• ADFA Dataset ——2013 • WUIL Dataset——2014
Benign and malicious PE files
ADFA _LD and ADFA _WD Host-level intrusion detection system dataset Logs of Windows-users operating files
• Ember Malware Data Set——2018
U2R R2L
普通用户对本地超级用户 特权的非法访问
来自远程机器的非法访问
buffer_overflow,httptunnel,loadmodule,perl,ps,rootkit,s qlattack,xterm
ftp_write,guess_passwd, imap,multihop,named,phf, sendmail,snmpgetattack,snmpguess,spy,warezclient, warezmaster,worm,xlock,xsnoop
KDD99数据集中每个连接用41个特征来描述
例:0, tcp, smtp, SF, 787, 329, 0, 0, 0,0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal.
• 基于主机的网络流量统计特征 (共10种) (32)dst_host_count. 前100个连接中,与当前连接具有相同目标主机的连接数,连续
(33)dst_host_srv_count. 前100个连接中,与当前连接具有相同目标主机相同服务的连接数,连续
(34)dst_host_same_srv_rate. 前100个连接中,与当前连接具有相同目标主机相同服务的连接所占的百分比,连续 (35)dst_host_diff_srv_rate. 前100个连接中,与当前连接具有相同目标主机不同服务的连接所占的百分比,连续 (36)dst_host_same_src_port_rate. 前100个连接中,与当前连接具有相同目标主机相同源端口的连接所占的百分比,连续
4、Other Datasets
Honeypot Dataset
1、The Honeynet Project
数据集是由HoneyNet组织收集的黑客攻击数据集,能较好地反映黑客攻击模式,数据集包括 从2000年4月到2001年2月,累计11个月的Snort报警数据,每月大概60-3000多条Snort报警 记录,其网络由8个IP地址通过ISDN连接到ISP。 • Aug 4 23:32:00 lisa snort[17482]: SCAN-SYN FIN: 202.61.204.176:109 -> 216.80.71.99:109 • Aug 4 23:32:00 lisa snort[17482]: SCAN-SYN FIN: 202.61.204.176:109 -> 216.80.71.101:109 • Aug 4 23:32:00 lisa snort[17482]: SCAN-SYN FIN: 202.61.204.176:109 -> 216.80.71.102:109 • Aug 4 23:32:00 lisa snort[17482]: SCAN-SYN FIN: 202.61.204.176:109 -> 216.80.71.103:109
• 基于时间的网络流量统计特征 (共9种) (23)count. 过去两秒内,与当前连接具有相同的目标主机的连接数,连续
(24)srv_count. 过去两秒内,与当前连接具有相同服务的连接数,连续
(25)serror_rate. 过去两秒内,在与当前连接具有相同目标主机的连接中,出现“SYN” 错误的连接的百分比,连 续 (26)srv_serror_rate. 过去两秒内,在与当前连接具有相同服务的连接中,出现“SYN” 错误的连接的百分比,连 续 (27)rerror_rate. 过去两秒内,在与当前连接具有相同目标主机的连接中,出现“REJ” 错误的连接的百分比,连 续 (28)srv_rerror_rate. 过去两秒内,在与当前连接具有相同服务的连接中,出现“REJ” 错误的连接的百分比,连 续
KDD99数据集中每个连接用41个特征来描述
例:0, tcp, smtp, SF, 787, 329, 0, 0, 0,0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal.
KDD99将攻击类型分为4类,然后又细分为39小类,每一类代表一种攻击类型.
KDD99数据集中每个连接用41个特征来描述
例:0, tcp, smtp, SF, 787, 329, 0, 0, 0,0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal. • TCP连接基本特征(共9种 ) (1)duration. 连接持续时间,以秒为单位,连续 (2)protocol_type. 协议类型,离散,共有3种 (3)service. 目标主机的网络服务类型,离散,共有70种 (4)flag. 连接正常或错误的状态,离散,共11种 (5)src_bytes. 从源主机到目标主机的数据的字节数,连续 (6)dst_bytes. 从目标主机到源主机的数据的字节数,连续 (7)land. 若连接来自/送达同一个主机/端口则为1,否则为0,离 散 (8)wrong_fragment. 错误分段的数量,连续 (9)urgent. 加急包的个数,连续
(37)dst_host_srv_diff_host_rate. 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,与当前连接具有不同源主 机的连接所占的百分比,连续
(38)dst_host_serror_rate. 前100个连接中,与当前连接具有相同目标主机的连接中,出现SYN错误的连接所占的百分比,连续 (39)dst_host_srv_serror_rate. 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现SYN错误的连接所占的 百分比,连续 (40)dst_host_rerror_rate. 前100个连接中,与当前连接具有相同目标主机的连接中,出现REJ错误的连接所占的百分比,连续 (41)dst_host_srv_rerror_rate. 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现REJ错误的连接所占的百 分比,连续
权限
(15)su_attempted. 若出现”su root” 命令则为1,否则为0,离散 (16)num_root. root用户访问次数,连续 (17)num_file_creations. 文件创建操作的次数,连续 (18)num_shells. 使用shell命令的次数,连续,[0, 5]。 (19)num_access_files. 访问控制文件的次数,连续 (20)num_outbound_cmds. 一个FTP会话中出站连接的次数,连续 (21)is_hot_login.登录是否属于“hot”列表(***),是为1,否则为0,离散 (22)is_guest_login. 若是guest 登录则为1,否则为0,离散
(11)num_failed_logins. 登录尝试失败的次数,连续
(12)logged_in. 成功登录则为1,否则为0,离散 (13)num_compromised. compromised条件(**)出现的次数,连续 (14)root_shell. 若获得root shell 则为1,否则为0,离散,root_shell是指获得超级用户
Tool: existing tools Profile: Brute Force Attack,Heartbleed Attack,Botnet, DoS Attack,DDoS Attack,Web Attack, Infiltration Attack
Dataset
Canadian Institute for Cybersecurity
(29)same_srv_rate. 过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有相同服务的连接的 百分比,连续
(30)diff_srv_rate. 过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有不同服务的连接的百 分比,连续 (31)srv_diff_host_rate. 过去两秒内,在与当前连接具有相同服务的连接中,与当前连接具有不同目标主机的连接 的百分比,连续
KDDTrain+ KDDTest+ KDDTrain-21 KDDTest-21
3、CICIDS2017
Profiles
• Benign Profile
Tool: B-Profile system
Profile: behavior of normal user
• Attack Profiles
网络安全数据集介绍
盛川
IDS Dataset
1、KDD99 Dataset
• 模拟美国空军局域网的一个网络环境,收集了9周时间的网络连接和系统审计数 据,仿真各ห้องสมุดไป่ตู้用户类型、各种不同的网络流量和攻击手段。
类别 NORMAL PROBE DOS 含义 正常记录 监视与其他探测活动 拒绝服务攻击 具体分类标识 normal ipsweep,mscan,nmap,portsweep,saint,satan apache2,back,land,mailbomb,neptune,pod,processtable, smurf,teardrop,udpstorm
KDD99数据集中每个连接用41个特征来描述
例:0, tcp, smtp, SF, 787, 329, 0, 0, 0,0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal.
2、NSL_KDD
KDD99
——A new version of
• KDD99 数据集的一个主要缺陷是:存在大量冗余数据。
• 影响:
1)导致IDS算法更倾向于出现更频繁的记录; 2)大量冗余数据使IDS算法的测试结果普遍偏高,不能真实反映算法的有效性。
数据处理方法
• Randomly create three smaller subsets of the KDD train set each of which included fifty thousand records of information. • Employ 21 learned machines (7 learners, each trained 3 times) to label the records of the entire KDD train and test sets.
4、Other Datasets
• SEA Dataset——2001
User behavior logs
• HTTP Dataset CSIC 2010——2010
Web service requests
• CERT-IT Dataset——2013
Insider Threat Dataset
• ADFA Dataset ——2013 • WUIL Dataset——2014
Benign and malicious PE files
ADFA _LD and ADFA _WD Host-level intrusion detection system dataset Logs of Windows-users operating files
• Ember Malware Data Set——2018
U2R R2L
普通用户对本地超级用户 特权的非法访问
来自远程机器的非法访问
buffer_overflow,httptunnel,loadmodule,perl,ps,rootkit,s qlattack,xterm
ftp_write,guess_passwd, imap,multihop,named,phf, sendmail,snmpgetattack,snmpguess,spy,warezclient, warezmaster,worm,xlock,xsnoop
KDD99数据集中每个连接用41个特征来描述
例:0, tcp, smtp, SF, 787, 329, 0, 0, 0,0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal.
• 基于主机的网络流量统计特征 (共10种) (32)dst_host_count. 前100个连接中,与当前连接具有相同目标主机的连接数,连续
(33)dst_host_srv_count. 前100个连接中,与当前连接具有相同目标主机相同服务的连接数,连续
(34)dst_host_same_srv_rate. 前100个连接中,与当前连接具有相同目标主机相同服务的连接所占的百分比,连续 (35)dst_host_diff_srv_rate. 前100个连接中,与当前连接具有相同目标主机不同服务的连接所占的百分比,连续 (36)dst_host_same_src_port_rate. 前100个连接中,与当前连接具有相同目标主机相同源端口的连接所占的百分比,连续
4、Other Datasets
Honeypot Dataset
1、The Honeynet Project
数据集是由HoneyNet组织收集的黑客攻击数据集,能较好地反映黑客攻击模式,数据集包括 从2000年4月到2001年2月,累计11个月的Snort报警数据,每月大概60-3000多条Snort报警 记录,其网络由8个IP地址通过ISDN连接到ISP。 • Aug 4 23:32:00 lisa snort[17482]: SCAN-SYN FIN: 202.61.204.176:109 -> 216.80.71.99:109 • Aug 4 23:32:00 lisa snort[17482]: SCAN-SYN FIN: 202.61.204.176:109 -> 216.80.71.101:109 • Aug 4 23:32:00 lisa snort[17482]: SCAN-SYN FIN: 202.61.204.176:109 -> 216.80.71.102:109 • Aug 4 23:32:00 lisa snort[17482]: SCAN-SYN FIN: 202.61.204.176:109 -> 216.80.71.103:109
• 基于时间的网络流量统计特征 (共9种) (23)count. 过去两秒内,与当前连接具有相同的目标主机的连接数,连续
(24)srv_count. 过去两秒内,与当前连接具有相同服务的连接数,连续
(25)serror_rate. 过去两秒内,在与当前连接具有相同目标主机的连接中,出现“SYN” 错误的连接的百分比,连 续 (26)srv_serror_rate. 过去两秒内,在与当前连接具有相同服务的连接中,出现“SYN” 错误的连接的百分比,连 续 (27)rerror_rate. 过去两秒内,在与当前连接具有相同目标主机的连接中,出现“REJ” 错误的连接的百分比,连 续 (28)srv_rerror_rate. 过去两秒内,在与当前连接具有相同服务的连接中,出现“REJ” 错误的连接的百分比,连 续
KDD99数据集中每个连接用41个特征来描述
例:0, tcp, smtp, SF, 787, 329, 0, 0, 0,0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal.
KDD99将攻击类型分为4类,然后又细分为39小类,每一类代表一种攻击类型.
KDD99数据集中每个连接用41个特征来描述
例:0, tcp, smtp, SF, 787, 329, 0, 0, 0,0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal. • TCP连接基本特征(共9种 ) (1)duration. 连接持续时间,以秒为单位,连续 (2)protocol_type. 协议类型,离散,共有3种 (3)service. 目标主机的网络服务类型,离散,共有70种 (4)flag. 连接正常或错误的状态,离散,共11种 (5)src_bytes. 从源主机到目标主机的数据的字节数,连续 (6)dst_bytes. 从目标主机到源主机的数据的字节数,连续 (7)land. 若连接来自/送达同一个主机/端口则为1,否则为0,离 散 (8)wrong_fragment. 错误分段的数量,连续 (9)urgent. 加急包的个数,连续
(37)dst_host_srv_diff_host_rate. 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,与当前连接具有不同源主 机的连接所占的百分比,连续
(38)dst_host_serror_rate. 前100个连接中,与当前连接具有相同目标主机的连接中,出现SYN错误的连接所占的百分比,连续 (39)dst_host_srv_serror_rate. 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现SYN错误的连接所占的 百分比,连续 (40)dst_host_rerror_rate. 前100个连接中,与当前连接具有相同目标主机的连接中,出现REJ错误的连接所占的百分比,连续 (41)dst_host_srv_rerror_rate. 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现REJ错误的连接所占的百 分比,连续
权限
(15)su_attempted. 若出现”su root” 命令则为1,否则为0,离散 (16)num_root. root用户访问次数,连续 (17)num_file_creations. 文件创建操作的次数,连续 (18)num_shells. 使用shell命令的次数,连续,[0, 5]。 (19)num_access_files. 访问控制文件的次数,连续 (20)num_outbound_cmds. 一个FTP会话中出站连接的次数,连续 (21)is_hot_login.登录是否属于“hot”列表(***),是为1,否则为0,离散 (22)is_guest_login. 若是guest 登录则为1,否则为0,离散