基于大数据平台的攻击方式检测
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
攻击收益阶段
窃取内部敏感资料,传输到一个内部服务器并压 缩,为隐藏传输过程,采用SSL和TSL等安全传输协议。
传统攻击检测方式的面临困境
1.数据和业务更加集中、网络和应用边界模糊,基于单一边界的传统安全设备逐渐 2.传统安全监测方式面对越来越多的日志文件、数据包等海量数据力不从心。 3.传统攻击检测方式数据来源单一、大规模数据关联能效低无法满足新常态下情报
息
安全事件关联 分析
宽应用域数据关 联分析
大量网 络
入侵事 件
网络流量异常监 测
大量恶意 代码
恶意代码异常监 测
大量用户行 为安全事件
宽事件域数据关 联分析
社交网络安全事 件挖掘
海量网络 流量信息
海量程序 特征
海量社交网络 结构与内容属
性
原始数据获取
原始数据获取
研究现状:
网络流量异常检测技术现状
以网络流数据为输入、通过统计分析、数据挖掘、机器学习等方法, 发现异常的网络数据分组 与异常网络交互信息
使服务器认为 已建立的连接出现错误进而清除该连接,正常用户必须重新建立连接才可以访问。
初次入侵阶段
攻击者利用0day或其他漏洞实施入侵,执行恶意代码使感染机建立 起C&C连接,下载运行后续恶意代码
APT的攻击的实施过程:
保持访问阶段
窃取用户的合法访问证书与感染机建立C-S关系, 在目标网络中植入更多模块。
扩展行动阶段
根据收集到合法用户的行为来欺骗安全监测,搜 集网络的拓补结构和重要情报。
3、灵活多变
出不穷
目前被曝光的知名APT事件中,社交攻击、0day漏洞利用、 物理摆渡等方式层
4、“三年不开张,开张吃三年”
其他5.6% 数据来源:2016年中国高级持续性威胁APT研究报告
APT的攻击的实施过程:
侦查准备阶段
1.基于大数据分析的隐私挖掘
代码传入阶段
2.基于社会工程学的信息收集
1.直接传入(鱼叉式钓鱼攻击)2.间接传入(通过在目标用户常访 问的第三方网站中植入恶意代码)
基于大数据分析的网络攻击检测
目 CT录EONN
TS
常见的网站攻击方式
当今攻击方式的特点
基于大数据平台的攻击检测 方法
相对于传统检测方法的优势 之处
当今攻击方式的特点
1、目标明确
当今受到攻击最多的是高校、企业、科研机构、政府机构。
2、隐蔽性强、潜伏期长
NSA的shotgaint计划,入侵华为7年才被发现 美国针对伊朗核项目的震网(Stuxnet)病毒,使整个伊核进程拖延两年 丰收行动、摩柯草事件、曼灵花行动、MOONSOON事件
图 1 批量数据处理示意图
流数据处理
流式数据
提取数据 批量处理
图2 流处理数据示意图
交互式信息查询技术:
Hbase、 Hive、
MangoD B等
NoSQL 类型数 据库
典型的交互式系统有Apache Spark和Google Dremel,Spark的内存计算机制使其 的快速交互式查询处理能力
1.强调人作为安全分析的主题与需求主体 2.历史数据PB级数据量秒级检索
社交网络安全事件挖掘技术研究现状
数据来 源?
1.从社交网络信息内容和联系关系中挖掘用户的正常行为模式与信任关系,通过 在线监控将违背正常行为模式和信任关系的行为归纳为威胁事件
2.从社交网络数据中发现可以攻击者的社会属性信息,为攻击事件溯源和攻击意 图识别提供指导
因为社交网络上的攻击信息有限,该技术需要配合流量和恶意代码检测才能 检测识别出攻击
图计算处理技术:
什么是图 计算
很多大数据都是以大规模的图或者网络的形式呈现, 许多非图数据往往要转化成图结构之后再做处理
常用的图计算产品有Google Pregel,CMU GraphLab, Spark Graphx
基于大数据的网络安全分析的整体架构
数据展示层
安全分 析
可视化 引擎
检索
安全预 警
算法的检测准确性较低
算法的检测准确性较优
需要大量标记样本
在准确性与标记成本之间有较好 对非均匀非平衡的数据样本检测
的折中
结果较差
监测效率较高
充分利用流量的时间相关性和空 间相关性
无法检测分布式攻击 检测效率较低
恶意代码检测技术现状
1.静态特征提取法:使用文件结构分析、反编译、反汇编、数据流分析等技术在不运行程序的
各类网络流量检测方法的优缺点
数据属性提取方法
异常检测算法
优点
缺点
直接以网络流量数据分组头 的各维数值作为数据属性的
检测方法
以网络流量特征作为数据属性 的检测方法
基于无监督学习的异常监 测
基于监督学习的异常监测
基于半监督学习的异常监 测
基于单链路流量的异常监 测
基于全网络流量的异常监 测
可以自动提取异常模式
需要解决的问题
1.解决内部数据源与外部数据源大规模数据的采集、预处理和采集问题 2.解决流式数据的实时分析、大规模历史数据的离线分析 3.解决日志、网络流量、日志情报、用户行为等多源异构数据快速复杂关联
大数据平台天生的优势 1.批量数据处理技术
数据存储 数据存储
提取数据、批量处理
HDFS、Hbase、Hive等
条件下检测代码的特征。
2.动态特征提取法:使用Anubis、CWSandbox、Norman、Sandbox、Joebox等工具在真实或
虚拟条件下运行程序,进而提取出程序的API操作、文件系统操作、函数访问、函数调用等动态行为特征
目前工程上普遍采用的是基于特征码的异常检测,这种方法本身自带滞后性的缺点,无法应对爆发式增长的恶 意代码带来的威胁,所以目前该领域研究的热点在基于行为的恶意代码研究方面。
基于大数据入侵检测的优势:
1、检测大范围攻击行为 2、提高准确度 3、提高效率 4、协调相应措施
DoS攻击:
1) SYN Flood 伪造大量只有syn标志位的tcp连接请求,使服务器建立连接,
当连接数 超过服务器的最大连接数目时,合法用户的连接请求也无法被相应
2) IP欺骗DoS 攻击者伪造正常用户的IP地址向发送带有RST位的数据包,
关联规
数
则
据
分
析
层
MapReduc
e
机器学 习
流式计 算
来自百度文库
聚类分 析
图计算
特征提 取
查询引 擎
数
据
存
HDF
储 层
SHadoop
NoSQ L
sqo op
关系型
数据库
结构化数据
半结构化数据
非结构化数据
数
据
采
集
层
日志
用户 行为
身份 认证
SN MP
DN
S 流量
Web Servi
ce
系统安全监测分析框架
提取攻击的特征、 类型和强度等信
窃取内部敏感资料,传输到一个内部服务器并压 缩,为隐藏传输过程,采用SSL和TSL等安全传输协议。
传统攻击检测方式的面临困境
1.数据和业务更加集中、网络和应用边界模糊,基于单一边界的传统安全设备逐渐 2.传统安全监测方式面对越来越多的日志文件、数据包等海量数据力不从心。 3.传统攻击检测方式数据来源单一、大规模数据关联能效低无法满足新常态下情报
息
安全事件关联 分析
宽应用域数据关 联分析
大量网 络
入侵事 件
网络流量异常监 测
大量恶意 代码
恶意代码异常监 测
大量用户行 为安全事件
宽事件域数据关 联分析
社交网络安全事 件挖掘
海量网络 流量信息
海量程序 特征
海量社交网络 结构与内容属
性
原始数据获取
原始数据获取
研究现状:
网络流量异常检测技术现状
以网络流数据为输入、通过统计分析、数据挖掘、机器学习等方法, 发现异常的网络数据分组 与异常网络交互信息
使服务器认为 已建立的连接出现错误进而清除该连接,正常用户必须重新建立连接才可以访问。
初次入侵阶段
攻击者利用0day或其他漏洞实施入侵,执行恶意代码使感染机建立 起C&C连接,下载运行后续恶意代码
APT的攻击的实施过程:
保持访问阶段
窃取用户的合法访问证书与感染机建立C-S关系, 在目标网络中植入更多模块。
扩展行动阶段
根据收集到合法用户的行为来欺骗安全监测,搜 集网络的拓补结构和重要情报。
3、灵活多变
出不穷
目前被曝光的知名APT事件中,社交攻击、0day漏洞利用、 物理摆渡等方式层
4、“三年不开张,开张吃三年”
其他5.6% 数据来源:2016年中国高级持续性威胁APT研究报告
APT的攻击的实施过程:
侦查准备阶段
1.基于大数据分析的隐私挖掘
代码传入阶段
2.基于社会工程学的信息收集
1.直接传入(鱼叉式钓鱼攻击)2.间接传入(通过在目标用户常访 问的第三方网站中植入恶意代码)
基于大数据分析的网络攻击检测
目 CT录EONN
TS
常见的网站攻击方式
当今攻击方式的特点
基于大数据平台的攻击检测 方法
相对于传统检测方法的优势 之处
当今攻击方式的特点
1、目标明确
当今受到攻击最多的是高校、企业、科研机构、政府机构。
2、隐蔽性强、潜伏期长
NSA的shotgaint计划,入侵华为7年才被发现 美国针对伊朗核项目的震网(Stuxnet)病毒,使整个伊核进程拖延两年 丰收行动、摩柯草事件、曼灵花行动、MOONSOON事件
图 1 批量数据处理示意图
流数据处理
流式数据
提取数据 批量处理
图2 流处理数据示意图
交互式信息查询技术:
Hbase、 Hive、
MangoD B等
NoSQL 类型数 据库
典型的交互式系统有Apache Spark和Google Dremel,Spark的内存计算机制使其 的快速交互式查询处理能力
1.强调人作为安全分析的主题与需求主体 2.历史数据PB级数据量秒级检索
社交网络安全事件挖掘技术研究现状
数据来 源?
1.从社交网络信息内容和联系关系中挖掘用户的正常行为模式与信任关系,通过 在线监控将违背正常行为模式和信任关系的行为归纳为威胁事件
2.从社交网络数据中发现可以攻击者的社会属性信息,为攻击事件溯源和攻击意 图识别提供指导
因为社交网络上的攻击信息有限,该技术需要配合流量和恶意代码检测才能 检测识别出攻击
图计算处理技术:
什么是图 计算
很多大数据都是以大规模的图或者网络的形式呈现, 许多非图数据往往要转化成图结构之后再做处理
常用的图计算产品有Google Pregel,CMU GraphLab, Spark Graphx
基于大数据的网络安全分析的整体架构
数据展示层
安全分 析
可视化 引擎
检索
安全预 警
算法的检测准确性较低
算法的检测准确性较优
需要大量标记样本
在准确性与标记成本之间有较好 对非均匀非平衡的数据样本检测
的折中
结果较差
监测效率较高
充分利用流量的时间相关性和空 间相关性
无法检测分布式攻击 检测效率较低
恶意代码检测技术现状
1.静态特征提取法:使用文件结构分析、反编译、反汇编、数据流分析等技术在不运行程序的
各类网络流量检测方法的优缺点
数据属性提取方法
异常检测算法
优点
缺点
直接以网络流量数据分组头 的各维数值作为数据属性的
检测方法
以网络流量特征作为数据属性 的检测方法
基于无监督学习的异常监 测
基于监督学习的异常监测
基于半监督学习的异常监 测
基于单链路流量的异常监 测
基于全网络流量的异常监 测
可以自动提取异常模式
需要解决的问题
1.解决内部数据源与外部数据源大规模数据的采集、预处理和采集问题 2.解决流式数据的实时分析、大规模历史数据的离线分析 3.解决日志、网络流量、日志情报、用户行为等多源异构数据快速复杂关联
大数据平台天生的优势 1.批量数据处理技术
数据存储 数据存储
提取数据、批量处理
HDFS、Hbase、Hive等
条件下检测代码的特征。
2.动态特征提取法:使用Anubis、CWSandbox、Norman、Sandbox、Joebox等工具在真实或
虚拟条件下运行程序,进而提取出程序的API操作、文件系统操作、函数访问、函数调用等动态行为特征
目前工程上普遍采用的是基于特征码的异常检测,这种方法本身自带滞后性的缺点,无法应对爆发式增长的恶 意代码带来的威胁,所以目前该领域研究的热点在基于行为的恶意代码研究方面。
基于大数据入侵检测的优势:
1、检测大范围攻击行为 2、提高准确度 3、提高效率 4、协调相应措施
DoS攻击:
1) SYN Flood 伪造大量只有syn标志位的tcp连接请求,使服务器建立连接,
当连接数 超过服务器的最大连接数目时,合法用户的连接请求也无法被相应
2) IP欺骗DoS 攻击者伪造正常用户的IP地址向发送带有RST位的数据包,
关联规
数
则
据
分
析
层
MapReduc
e
机器学 习
流式计 算
来自百度文库
聚类分 析
图计算
特征提 取
查询引 擎
数
据
存
HDF
储 层
SHadoop
NoSQ L
sqo op
关系型
数据库
结构化数据
半结构化数据
非结构化数据
数
据
采
集
层
日志
用户 行为
身份 认证
SN MP
DN
S 流量
Web Servi
ce
系统安全监测分析框架
提取攻击的特征、 类型和强度等信