神经网络算法实现行为机器学习

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Known malware
Learning
Classification New malware
心领神会 “神经网络算法”和“行为机器学习”
神经网络算法实现行为机器学习
目录
1. 神经网络的发展历史 2. 安全沙箱产品和行为机器学习算法 3. 安全沙箱产品的效果 4. 总结和展望
神经网络名字的来源:生物神经元模型到M-P模型
神经元示意图
1943年,基于生物神经网络的M-P模型诞生:
1. 每个神经元都是一个多输入单输出的信息处理单元 2. 神经元输入分兴奋性输入和抑制性输入两种类型 3. 神经元具有阈值特性 4. 神经元输入与空间整合特性输出间有固定的时滞,
参数:window size
要思考问题: 1. 安全行业的数据是否适合机器学习? 2. 是否适合深度学习? 3. 适合哪种神经网络? 4. 为什么?
Actions Embedding Layer
Patterns Embedding Layer
参数: weights
Convolution Layer 卷积层
• 多层网络 • AutoEncoder • ReLU函数解决梯度消失 • 样本标定推动监督学习 • CUDA利用GPU运算能力 • 视觉场景适合卷积网络
常见的神经网络
• Biological Neural Networks • Artificial Neural Networks (ANN)
• Deep Neural Networks (DNN)
行为就是指API的名称和参数
CREATEPROCESS %SAMPLE%
LOADLIBRARY
ntdll.dll
REGQUERYVALUE HKLM[\\]*System[\\]*CurrentControlSet[\\]*Control[\\]*Session
FOPENDIR
C:[\\]*Windows[\\]*System32
CNN的前面卷积部分看局部特征;后面全连接部分就是MLP看整体 安全行业的卷积网络也类似,前面偏安全行业知识;后面偏数据处理。所以需要安全+AI二组专家
5
APT恶意文件分析的利器:安全沙箱产品介绍
方案:
用VM直接执行样本,不用再模拟Windows系统和API了, 更加真实
不再基于Pattern Match的静态特征,只看程序最终的物理 行为:文件系统修改;网络行为;注册表;进程行为等, 基于动态行为的序列来判断恶意,通过写行为规则,解决 特征数量和质量的问题
训练流程
Action和Pattern的 编码规则文件
DNN算法的训练流程
产生 YARA规则
样本执行一次,获取运行期
动态行为信息:
1. 文件的哈希SHA256 2. 样本是否是恶意,Ground Truth 3. 样本的Metadata,比如路径和名字
获取Action-Pattern对
动态行为的Normalization 行为过滤
主要取决于突触延搁 5. 忽略时间整合作用和不应期 6. 神经元本身是非时变的,即其突触时延和突触强度
均为常数
线性非时变->卷积运算->卷积神经网络
3
神经网络的发展三代历程
Biological Neural Networks
4
Artificial Neural Networks (ANN)
1. 神经元和M-P模型
输入
1. 云端训练好的恶意软件检测DNN模型 2. 待检测样本的真实行为数字编码序列
输出
1. 二分类:该样本到底是不是恶意的? 2. 多分类:到底是哪种?危害多大? 3. 可解释:威胁可视化,到底威胁在哪里?
9
核心卷积层设计(实际上有多层卷积)
Action/pattern 对的CSV文件
CSV Parser 输入数据解析
多个样本的报表
1. 文件哈希SHA256 2. 是否恶意,Ground Truth 3. Action-Pattern特征序列
DNN算法检测阶段流程
输入就是行为数字化编码
CREATEPROCESS %SAMPLE%
LOADLIBRARY
ntdll.dll
比如变成:
34_45, 65_32,… 送入DNN模型
regcreatekey
hklm\software\microsoft\windows\currentversion\runonce
Action ID 28
Pattern ID 165
Action-Pattern 特征就是: 28_165
那么,一个恶意软件的行为序列就是Action-Pattern的数字序列,比如:28_165, 32_34, 3_32, …
• Recurrent Neural Network (RNN) • Long Short-Term Memory (LSTM)
• Gated Recurrent Unit (GRU)
举例应用最广的卷积神经网络Convolutional Neural Network:LeNet-5,局部连接和权值共享
Output Layer 输出层
参数: window size, weights, dropout rate, etc. .
参数: weights
Prediction 预测结果
DNN一个设计例子和效果
华为第三代沙箱行为深度学习的神经网络设计
深度学习算法效果:指出威胁在哪里?
11
Class definition
REGQUERYVALUE HKLM[\\]*System[\\]*CurrentControlSet[\\]*Control[\\]*Nls
ቤተ መጻሕፍቲ ባይዱ
6
DNN算法前提:行为编码,Action-Pattern特征对
针对一个API调用,Action-Pattern Features consists out of two IDs: 1) Action ID,对应API的名字 2) Pattern ID,对应API具备安全价值最高的参数
2. 单层神经网络
• 就是感知器Perception • 可以做线性分类 • 可以做线性回归 • 不能处理非线性
3. 两层神经网络
• 就是多层感知器MLP • 层之间全连接网络FC • 引入Sigmoid解决非线性 • 通过BP提升性能 • Sigmoid导致梯度消失 • 卷积网络LeNet诞生
4. 深度学习和神经网络
相关文档
最新文档