KDD99数据集模拟美国空军局域网的一个网络环境,收集了9周时间的TCPdump(*)网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段。0,tcp,smtp,SF,787,329,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,76,117,0.49,0.08,0.01,0.02,0.00,0.00,0.00,0.00,normal.TCP连接基本特征(共9种)(1)duration.连接持续时间,以秒为单位,连续类型(2)protocol_type.协议类型,(3)service.目标主机的网络服务类型,(3)service.目标主机的网络服务类型,(5)src_bytes.从源主机到目标主机的数据的字节数,(6)dst_bytes.从目标主机到源主机的数据的字节数(7)land.若连接来自/送达同一个主机/端口则为1,否则为0(8)wrong_fragment.错误分段的数量(9)urgent.加急包的个数0,tcp,smtp,SF,787,329,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,76,117,0.49,0.08,0.01,0.02,0.00,0.00,0.00,0.00,normal.TCP连接的内容特征(10)hot.访问系统敏感文件和目录的次数,连续,范围是[0,101]。(11)num_failed_logins.登录尝试失败的次数。连续,[0,5]。(12)logged_in.成功登录则为1,否则为0,离散,0或1。(13)num_compromised.compromised条件(**)出现的次数,连续,[0,7479]。(14)root_shell.若获得rootshell则为1,否则为0,连续,0或1。root_shell是指获得超级用户权限。(15)su_attempted.若出现”suroot”命令则为1,否则为0,连续,0或1。(16)num_root.root用户访问次数,连续,[0,7468]。(17)num_file_creations.文件创建操作的次数,连续,[0,100]。(18)num_shells.使用shell命令的次数,连续,[0,5]。(19)num_access_files.访问控制文件的次数,连续,[0,9]。例如对/etc/passwd或.rhosts文件的访问。(20)num_outbound_cmds.一个FTP会话中出站连接的次数,连续,0。数据集中这一特征出现次数为0。(21)is_hot_login.登录是否属于“hot”列表(***),是为1,否则为0,离散,0或1。例如超级用户或管理员登录。(22)is_guest_login.若是guest登录则为1,否则为0,离散,0或1。0,tcp,smtp,SF,787,329,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,76,117,0.49,0.08,0.01,0.02,0.00,0.00,0.00,0.00,normal.基于时间的网络流量统计特征0,tcp,smtp,SF,787,329,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,76,117,0.49,0.08,0.01,0.02,0.00,0.00,0.00,0.00,normal.基于主机的网络流量统计特征Honeynet数据集数据集是由HoneyNet组织收集的黑客攻击数据集,能较好地反映黑客攻击模式,数据集包括从2000年4月到2011年2月,累计11个月的Snort报警数据,每月大概60-3000多条Snort报警记录,其网络由8个IP地址通过ISDN连接到ISPAug423:32:00lisasnort[17482]:SCAN-SYNFIN:202.61.204.176:109-216.80.71.99:109Aug423:32:00lisasnort[17482]:SCAN-SYNFIN:202.61.204.176:109-216.80.71.101:109Aug423:32:00lisasnort[17482]:SCAN-SYNFIN:202.61.204.176:109-216.80.71.102:109Aug423:32:00lisasnort[17482]:SCAN-SYNFIN:202.61.204.176:109-216.80.71.103:109HTTPDATASETCSIC2010包含大量标注过的针对Web服务的36000个正常请求以及25000个攻击请求,攻击类型包括sql注入、缓冲区溢出、信息泄露、文件包含、xss等,被广泛用于WAF类产品的功能评测。Challenge2013数据集关于网络安全数据可视分析的竞赛数据集,该数据集提供了某虚构的跨国公司内部网络两周的运行日志,日志类型有3种,分别是网络流量Netflow日志数据和BigBrother网络健康和状态数据,日志包括:第一、二周的Netflow和BigBrother日志,第二周的入侵预防系统日志数据,通过日志的分析可以找出网络中存在的异常,网络包含的主机和服务器约1100台,原始日志量接近10GB,记录数超过9000万行,下载要先输入邮箱地址。无法下载的数据集恶意软件数据集该数据集由WestVirginiaUniversity的YanfangYe提供。包括二个部分,其中第一个用于恶意软件检测,包含50000个实例,其中一半是恶意软件中提取的特征,另外一半是良性文件中提取的特征,通过该数据集,可以在数据挖掘和大数据建模技术的基础上,通过WinAPI调用提取特征集进行恶意软件检测DARPA2000数据集DARPA2000在DARPA1999基础上攻击数据中加入了DDoS(DistributedDenyofService)攻击,并增加了内部攻击、内部监听数据,以及WindowsNT流量和攻击SEA数据集SEA数据集涵盖70多个UNIX系统用户的行为日志,这些数据来自于UNIX系统acct机制记录的用户使用的命令。SEA数据集中每个用户都采集了15000条命令,从用户集合中随机抽取50个用户作为正常用户,剩余用户的命令块中随机插入模拟命令作为内部伪装者攻击数据WUIL数据集记录表征用户访问文件的行为。通过借助Windows的审计工具,他们实验记录20个用户的打开文件/目录的行为,每条记录包含事件ID、事件时间以及事件对象及其路径信息(如文件名与文件路径)。为了体现用户的计算机知识背景与技能对文件访问行为的影响,WUIL数据集来自于20个用户,这些用户背景各不相同,如职业,学生、行政人员等。与SEA数据集相比,WUIL数据集的优势在于恶意数据采集于实际用户操作,实验中系统登录后由攻击者操作,借此模拟内部攻击者伪装其他用户身份未授权进行恶意操作的攻击场景。为了进一步分析攻击者个人知识能力对攻击的影响,工作人员将模拟的攻击分成初级、中级、高级三个层次,每个层次对应着攻击者具备的不同的知识层次、掌握的攻击工具数量以及对计划准备程度,如初级层次的攻击者不仅缺乏相应的攻击工具与技术,也只是偶然使用其他用户的电脑;而高级层次的攻击者不仅携带了USB设备,还准备了自动化脚本搜索系统中的有价值文件,最终安全退出等。WUIL数据集从用户浏览文件系统角度刻画用户行为,以此作为验证用户身份的工具,该数据集不足之处是仅仅采集了用户操作文件系统的行为,维度单一,缺乏全面地反映。CERT-IT数据集该数据集模拟了恶意内部人实施的系统破坏、信息窃取与内部欺诈三类主要的攻击行为数据以及大量正常背景数据。CERT数据集中涉及多个维度的用户行为数据,如文件访问(创建、修改、删除以文件名称、类型等)、邮件收发、设备使用(移动存储设备、打印机等)、HTTP访问以及系统登录等行为,还包括了用户的工作岗位以及工作部门等信息。CERT数据集提供了用户全面的行为观测数据以刻画用户行为模型。CERT数据集考虑了内部人行为建模多个维度,如关系模型、资产模型、行为模型、心理学模型、以及攻击场景特征等来构造攻击数据,从而达到了内部攻击的全方位模拟,不足之处有两方面:(1)攻击数据来源于人工模拟,与真实攻击数据特征存在偏差;(2)仅仅采集了用户在信息系统中的操作行为,没有考虑用户个体特征的建模(如职位、技术能力、工作绩效等),因此无法避免实际检测中的误报。ADFA-LD数据集ADFA-LD数据集是澳大利亚国防学院对外发布的一套主机级入侵检测系统的数据集合,被广泛应用于入侵检测类产品的测试。该数据集包括Linux和Windows,记录了系统调用数据,GideonCreech是这个项目的负责人基于云计算入侵检测数据集的内网用户异常行为分类算法研究Greenberg数据集普渡大学数据集PURUU数据集CIDD数据集