一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术

合集下载

一种改进的基于粗糙集的启发式值约简算法

一种改进的基于粗糙集的启发式值约简算法

作者简 介: 金海波 (9 0一)男 , 18 , 硕士 , 助教 , 主要研究方 向是数据挖掘。
l2 8





Байду номын сангаас



21 00芷
且恢复了所有的标记“ ” ? 为原属性值 , 但该记录仍
值)则把记录 的决策类别修改为最大 所对应的 , c决策类别 , 并且将记录 中所有属性标记“ ” ? 改为
第3 卷 第 3 1 期
21 0 0年 6月



技 大



V 1 1 N ・ o 3 o3 .
J n 2 1 u.00
J U N L O A Y A N V R IY O .C E C N E H O O Y O R A FT I U N U I E ST F S I N E A D T C N L G
支持度统计度量 , 生成 了不同置信度 水平 下的决策规 则集 , 并设计 了基 于规 则集 的分类 算法。对 Mok n
数据集 的对 比实验表明 , 算法是有效的。 该 关键词 : 粗糙 集; 值约简 ; 决策规 则; 分类算法 中图分类号 :P 8 T 1 文献标志码 : A
粗糙 集理论 是波 兰 学 者 Pwa Z于 18 alk・ 92年 提 出 的一 种 处 理模 糊 性 和 不 确定 性 问题 的数 学 理 论… , 可用 于数据 分析 。约 简 是 粗糙 集 理 论 的研 究 内容 之一 , 它是在 保持 信 息 系统 分 类 能 力 不 变 的前 提下 , 除冗余 的 属 性 和 属 性 值 , 取 简 洁 的决 策 删 获
外一 条记 录 ; 则删 除本 记 录 。 否 对 上 述算法 进行 分 析 , 到 如下 的改进 思路 : 得

基于属性重要性的粗糙集属性约简方法

基于属性重要性的粗糙集属性约简方法

基于属性重要性的粗糙集属性约简方法廖启明;龙鹏飞【摘要】Attribute reduction in information system is an important step during knowledge acquisition using Rough set. This paper focuses on the research of feature selection, deleting superfluous attributes in an information system. The new algorithm begins with the attribute significance, adopting iterative feature selection standard, making the selected feature attribute set get smaller, thus it acquires the reduction of information system. The experiment demonstrates that this method is feasible and effective.% 信息系统中的属性约简是粗糙集知识发现的一个重要步骤。

致力于研究一个信息系统中的特征选择、删除冗余属性。

新的算法从属性重要性出发,采用迭代特征选择的标准,使得选择特征属性集不断缩小,获得信息系统的约简。

通过实验证明该方法可行,有效。

【期刊名称】《计算机工程与应用》【年(卷),期】2013(000)015【总页数】3页(P130-132)【关键词】信息系统;属性重要性;属性约简;核属性【作者】廖启明;龙鹏飞【作者单位】长沙理工大学计算机与通信工程学院,长沙 410114;长沙理工大学计算机与通信工程学院,长沙 410114【正文语种】中文【中图分类】TP311粗糙集理论[1]是由波兰数学家Z.Pawlak在1982年提出的,该理论是一种刻画不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。

基于基因表达式编程和粗糙集的属性约简分类方法

基于基因表达式编程和粗糙集的属性约简分类方法

基于基因表达式编程和粗糙集的属性约简分类方法
陈维岩;徐上
【期刊名称】《科技创新与生产力》
【年(卷),期】2009(180)001
【摘要】属性约简分类是粗糙集在数据挖掘中一个重要的研究方向.其大多数研究是基于小规模空间信息系统;基因表达式编程是一种新出现的进化算法,具有高度并行、极强的函数挖掘的特点.提出了将粗糙集中的充要强度作为GEP的适应度函数,创建一种新的属性约简分类算法,以减少粗糙集在大规模知识库中知识约简的复杂程度,加快收敛速度.
【总页数】2页(P49-50)
【作者】陈维岩;徐上
【作者单位】辽宁工业大学,辽宁,锦州,121001;辽宁工业大学,辽宁,锦州,121001【正文语种】中文
【中图分类】TP311
【相关文献】
1.变精度粗糙集与粗糙集属性约简特征比较 [J], 梁俊奇
2.基于基因表达式编程的遥感影像分类方法研究 [J], 刘萌伟;曾广鸿;袁国辉;裴亚波;杨子力
3.变精度粗糙集与粗糙集属性约简特征比较 [J], 梁俊奇
4.基于基因表达式编程的粗糙集属性约简研究 [J], 胡卉颖;钟智;元昌安;陆建波;袁

5.基于属性约简的自采样集成分类方法 [J], 李朋飞;于洪
因版权原因,仅展示原文概要,查看原文内容请购买。

基于粗糙集特征约减的网络异常检测方法_赵爱军

基于粗糙集特征约减的网络异常检测方法_赵爱军

摘要:讨论了基于粗糙集特征约简的SVM (支持向量机)异常检测方法,对源自KDD99的实验数据集分别采用SVM 和特征约减后SVM 进行仿真实验,依据实验结果的比较,说明在网络异常检测中基于特征约减后的SVM 和直接采用SVM 相比,在保持检测精度不显著降低的同时,前者能够有效的缩短训练时间.关键词:粗糙集;特征约减;支持向量机;异常检测中图分类号:TP311文献标志码:A文章编号:1671-6191(2010)01-0026-040引言如今,随着网络应用的增长,网络应用已经深入到千家万户,网络安全也受到巨大的威胁.入侵检测技术作为防火墙后的第二道安全闸门,在网络安全系统中发挥着巨大的作用.入侵检测可以分为误用检测和异常检测两种类型.误用检测可以检测出已知的攻击行为,但是对于新的攻击行为无能为力,而异常检测可以通过检测模型检测出新的攻击类型,因此在入侵检测中得到了高度的重视.常用的异常检测方法包括数据挖掘方法[1],人工神经网络方法[2]等.支持向量机[3](Support Vector Machine ,SVM ),作为一种特殊的神经网络分支,是一种全新的机器学习方法,是统计学习理论中最年轻、最实用的内容,目前已广泛应用于模式识别、回归估计、函数逼近和密度估计等方面.近年来基于SVM 的网络异常检测算法已屡见不鲜.异常检测系统从网络关键链路收集信息进行分析、判断和决策,其所得原始信息通常高达几十维甚至上百维,直接基于此原始信息的检测判别伴随的是可观的计算开销,因此能高效精简或提炼原始信息的方法就不可或缺了.粗糙集理论[4]的特征约减方法就是其中的一种.本文讨论粗糙集特征约减优化给SVM 异常检测算法带来的性能提升,仿真实验验证了本方法的有效性.1粗糙集与知识表达系统1.1知识表达系统定义1知识表达系统是一个四元组,可定义为S =<U ,RA ,V ,f >,其中U 是非空有限对象集,称为论域,R =C ∪D 属性的非空有限集合,子集C 和D 分别称为条件属性集和结果属性集;V =ni =1Σ坠V r 是属性r 的值域;f :U ×R →V 是一个信息函数,它为每一个对象的每个属性赋予一个信息值.决策表是一类特殊的知识表达系统S =<U ,R ,V ,f >.其中R =C ∪D 为非空属性集合,子集C 和D 分别称为条件属性集和结果属性集,具有条件属性和决策属性的知识表达系统称为决策表.1.2决策表离散化由于在处理决策表时,决策表中的数据值的表达必须为离散化的值,所以在处理决策表前必须对决基于粗糙集特征约减的网络异常检测方法赵爱军,谢林柏(江南大学通信与控制工程学院,无锡214122)收稿日期:2009-12-31作者简介:赵爱军(1975-),男,江苏扬州人,江南大学通信与控制工程学院硕士研究生,研究方向为控制工程与网络安全。

一种高效的粗糙集属性约简算法

一种高效的粗糙集属性约简算法

定义 3N对正区域【 设 U为一个论域 , 、 ( , P Q为定义在
u上 的两个等价关系簇 , Pi域记为 P S ( ) Q的 E O eQ , 并定义为 :
P S ( =u 0 e Q) ( ( 。 ) )
Se 2 C l递归函数 G t t oe U 1计算 C r; t :a p l e r r( , ) AtC oe
fc ( ∈C r) e tr oet nr un h e
e e
作者简介: 肖大伟 (9 4 9 ) 男, 18 . 一 , 硕士 , 0 主要研 究方向为数据挖掘。
s IN E& T c N。 。 YV s N 科技视界 l 1 cE c E H L G 。 1 2
()即 ID() { ,)xY ∈ x , (()6y)显然, B , N B = ( yl ,) U U v 6 = ()} (
不分 明关系是一种 等价关系 。
对于每个子集
cz ( ≤ ≤ 。设 R C ( ,D D) 1 ) () 1 ) = /c}P . ( ( ≤ ≤ 为子决策 s
F nt n e t oe (e O , t) u ci G t r r St Si k o AtC n
k lo s<1 t nrtr oe < rol ) e unC r。 I  ̄ h e
定义 4 必要属性Ⅲ 设 U为一个论域 , 、 ( ) 尸 Q为定义在 u 上的两个等价关 系簇 , 于 P中 的任一属 性 r若 P S ( ) 对 , O Q=
该算法在保证约简质量的情况下 , 大的提高属性约简的效率 , 较 实验仿真结果说 明 了该 算法的 高效性。
【 关键词 】 集; 粗糙 属性核 ; 属性约简 ; ; 递归 贪心算法

基于粗糙集的属性约简算法

基于粗糙集的属性约简算法
中 的对 象组 成 的集合 + X) = { ∈ UI ) ( B(
} 。


的上 近似 集 B ) 根据 知识 判定 可 能属 ( , 于 的 中的对象 组成 的集合 B X)= { ∈ Ul ( X B( " X ≠ } X)I 1 。
定义 3 正域
收 稿 日期 :0 l 3 1 2 1 - —l 0 基 金项 目 : 国家 自然 科 学 基 金 资 助 项 目( 07 0 9 6543 )
D c u D =Q, = ) ( Cn D 两个不同的集合。 概念 2 完备信息系统与不完备信息系统 在决 策信息系统 D S=< , uD, , UC VP>中, 中每个对
1 2 基本 定义 .
L )= { ( Y∈ UI( Y ,)∈ L , } L = { ∈ UI ( X L ) } , L = { ∈ UJ ( X )n ≠ } 。
() 2 () 3 () 4
定义 1 不可 分辨 关 系
限制容 差关 系具 有 自反 性 和对 称性 , 是不 具 但 有 传递 性 。
步骤 有的约简属性集都包含的不可省略属性 的集合 , 记 为 C R P)=n R D( O E( E P)。
步骤 7 将 R d e 集里的属性与 c集合里剩余的
属性 分别结 合 。 步骤 8 采 用组合 属性 , 复步骤 2 ~6 重 。 步骤 9 从 R d的尾部 开 始 , 后 往前 对 每 个 e 从
2 2 知 识约 简算法 .
q }I D B 是一个等价关系。 )。 ( ) N 由这种等价关 系导
出 的对 的划 分记 为 U ID( , 中包 含样本 的 /N B)其 等价类 记 为 [ ] 。

恶意代码防治

恶意代码防治
20
3.面向恶意代码检测的软件可信验证
思路: ISO/IEC15408标准和可信计算组织(Trusted
Computing Group)将可信定义为:一个可信的 组件、操作或过程的行为在任意操作条件下是可预 测的,并能很好地抵抗应用软件、病毒以及一定的 物理干扰造成的破坏。 从可信软件这样一个更宏观的角度探讨恶意代码的 防范问题。
特征可信验证
身份可信验证
Feature
Identity
软件可信验证
模型FICE
环境可信验证
能力可信验证
Environment
Capability
28
3.面向恶意代码检测的软件可信验证
代码签名技术可以用来进行代码来源(身份)可信 性的判断,即通过软件附带的数字证书进行合法性 、完整性的验证,以免受恶意软件的侵害。
绝服务攻击上,而木马更多体现在秘密窃取用户信息上。
1.恶意代码机理分析
(3)木马: 木马的基本结构及工作机制结构
• 用木马进行网络入侵大致可分为6个步骤:配置木 马、传播木马、运行木马、信息反馈、建立连接 和远程控制。
1.恶意代码机理分析
(4)后门: 后门(Backdoor)的概念
特征可信验证
身份可信验证
Feature
Identity
软件可信验证
模型FICE
环境可信验证
能力可信验证
Environment
Capability
27
3.面向恶意代码检测的软件可信验证
传统的基于身份的信任机制主要提供面向同一组织 或管理域的授权认证。如PKI和PMI等技术依赖于全 局命名体系和集中可信权威,对于解决单域环境的 安全可信问题具有良好效果。然而,随着软件应用 向开放和跨组织的方向发展,如何在不可确知系统 边界的前提下实现有效的身份认证,如何对跨组织 和管理域的协同提供身份可信保障已成为新的问题 。因此,代码签名技术应运而生。

一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术

一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术

一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术【摘要】针对定长的指令序列特征维数过高且存在分割特征的问题,本文提出了一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术,采用变长的指令序列可以有效解决特征分割的问题,同时为了有效降低特征规模,只考虑常用的13个指令所构成的指令序列,然后利用粗糙集理论进行冗余特征约简,实验最终获得特征维数非常低并且相对定长的指令序列而言,其分类精度更高,漏报率更低。

【关键词】变长指令序列;粗糙集属性约简;数据挖掘;恶意代码检测0 引言随着计算机的普及和Internet的发展,各种类型的恶意代码,如木马、蠕虫、病毒、僵尸程序等出现和传播的速度与周期也越来越快,根据国家互联网应急中心的7月底安全周报显示[1],国内感染恶意代码的主机数量达到了64.9万,被篡改的网站达到了5875,恶意代码的防范形式非常的严峻。

传统的恶意代码检测技术主要有基于特征码的检测方法与启发式的检测方法,基于特征码的检测方法过于依赖特征库,无法检测出未知恶意代码;启发的检测方法又过于依赖专家的经验,检测效率低且容易误报,因此亟需一种新的恶意代码检测技术,解决传统检测技术的缺陷,基于数据挖掘的检测技术属于其中之一,该技术相对传统的检测技术而言,具有快速、智能化的特点,无须依赖专家经验并且对未知恶意代码具有很好的检测能力。

本文在研究当前基于数据挖掘的恶意代码检测技术基础之上,提出了一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术。

1 相关工作首次将数据挖掘技术应用到恶意代码检测中的学者当属Schultz[2],他利用从PE文件中获得的字符串序列、字节序列、导入表中API调用函数作为特征,利用PIPPER、朴素贝叶斯、多重朴素贝叶斯算法进行分类学习,在实验数据集上取得了很高的检测精度,远高于当时的商业防病毒软件。

沿着Schultz的开拓性工作,基于数据挖掘的恶意代码检测技术成为恶意代码检测领域研究的热点,研究的重点主要集中在两个方面:(1)特征的表示与选择;(2)分类算法的选择。

基于粗糙集的属性约简方法在指标筛选中的应用

基于粗糙集的属性约简方法在指标筛选中的应用

基于粗糙集的属性约简方法在指标筛选中的应用张朝阳;赵涛;王春红【摘要】建立一套科学、系统的指标体系是进行综合评价的重要前提.从目前来看,指标体系的建立和筛选尚没有统一规范的标准和方法.传统评价方法主观性强,客观性差;统计方法需要大量的样本,而且很多时候大量的样本是不可获得的.文章提出基于粗糙集的指标约简方法,并以企业产品创新能力评价指标约简为例进行验证,得出该方法的应用特点和优势.【期刊名称】《科技管理研究》【年(卷),期】2009(029)001【总页数】3页(P78-79,85)【关键词】粗糙集;属性约简;指标筛选;产品创新【作者】张朝阳;赵涛;王春红【作者单位】天津大学,管理学院,天津,300072;天津大学,管理学院,天津,300072;天津大学,管理学院,天津,300072【正文语种】中文【中图分类】F272.5综合评价是管理学的热点、难点问题之一。

所谓综合评价(comprehensive evaluation),是指对以多属性体系结构描述的对象作出全局性、整体性的评价。

综合评价的前提是确定评价指标体系,即采用哪些指标进行综合评价。

由于影响评价有效性的因素很多,评价的对象系统也往往是社会、经济、科技、教育、环境和管理等一些复杂系统,但并非评价指标越多越好,关键在于所选评价指标是否恰当。

指标的遗漏会影响评价结果,指标间信息的重迭一般会夸大评价结果,这些都会导致人们对多指标综合评价的必要性、准确性产生怀疑。

问题是如何通过科学的指标筛选来保证综合评价结果的可靠性[1]。

从目前的情况来看,指标体系的建立和筛选尚没有统一规范的标准和方法,大多数学者根据自己的经验,按照一定原则确定指标体系,主观性强,容易出现偏差。

采用德尔菲法、层次分析法、模糊评价法等方法也同样很难避免主观性带来的弊端;应用主成分分析、后向回归分析等统计方法则需要大量的样本,而很多时候大量的样本是不可获得的。

本文提出基于粗糙集的指标约简方法,并以企业产品创新能力评价指标约简为例进行验证。

粗糙集属性约简在入侵检测系统中的应用

粗糙集属性约简在入侵检测系统中的应用
关 键词 : 粗糙 集 ; 据挖 掘 ; 性 约 简 ; 侵 检 测 数 属 入
中图分类号 :P 7 .2 T 2 1 8
文献标识码 : A
文章 编号 : 0 4 8 (0 0 0 0 4 0 1 8- 6 1 2 1 )2— 0 7— 3 0
近年来 , 算 机 和 网 络 基 础 设 施 , 别 是 各种 计 特 官方机 构 的 网站 , 断受 到 黑 客 的 攻 击 , 种 人 侵 不 各 事件层 出不穷. 一些传统 的网络安全技术 , 如访 问 控制 机制 、 密 、 火 墙 等 已不 能 满 足 网络 安 全 的 加 防 要求 , 逐 渐 成 熟 起 来 的入 侵 检 测 系 统 (nrs n 而 It i uo D t tnSs m, ee i yt 简称 为 IS 则 为 我们 提 供 了又 一 co e D) 重保 障. 数据 挖 掘 在 人 侵 检 测 中 的应 用 , 旨在 对 海 量 的安 全审计 数据进 行 智 能 化处 理 , 图从 大 量数 试 据 中提 取人们 感兴趣 的数 据 信 息 , 与安 全 相 关 的 及 系统特 征 属 性 , 立 基 于 数 据 挖 掘 的 入 侵 检 测 模 建 型 , 括数据 源选 择 、 据 预 处 理 、 法 选 择 、 建 包 数 算 创 数据 挖 掘 模 型、 掘 结 果 分 析 处 理 及 其 可 视 挖 化等 , . 由于入侵检 测 系统 采 集 的数 据 量 是 巨大 的 , 因 此对采集 的数 据 采 用 分 等 级 多 次 抽 样 的方 法 获取 信息 系统 表 . 粗糙 集 理 论作 为一 种 新 的数 据 挖 掘工 具, 在处理 不 确 定 性 知 识 方 面有 着 突 出 的 优 势 . 用 粗 集理论 的属 性 约 简 方 法 对 样 本 信 息 系 统 进 行 预 处 理 , 除冗 余 的属 性 , 而 得 到 入 侵 检 测 数 据 的 删 从 决 策规则 , 进而判 断流 经 网络 的数 据包 的安全 与否 .

一种基于粗糙集的属性值约简方法

一种基于粗糙集的属性值约简方法
( 兰州大学信息科学 与工程学 院 甘肃 兰州 7 0 0 ) 3 0 0 甘肃 兰州 7 0 5 ) 3 0 0 ( 兰州工业高等专科学校电子信息工程系


利用矩 阵的可操作性等优点 , 将决策表 中的知识通过 区分矩阵反映 出来 , 对决策表 的值 约简操作转换 为对 矩阵 的运算。
提 出基 于区分矩 阵的一些重要性质及在此基础上 的属性值约简方法 , 最后通过 实验和 实例验证 了该 算法是有 效可行 的。
关 键 词 粗 糙 集 区分 矩 阵 属 性 值 约 简 属 性 重 要 度
ATTRI BUTE VALUE REDUCTI oN ALGoRI THM BAS ED oN RoUGH SET TH Eo RY
Ch n Xio u e ay n La n h a , n Co g u
Ke wo d y rs
Ro g e D s e n b e marx A t b t au e u t n At iu e sg i c n e u h st ic r a l t t i u e v le r d ci i r o t b t inf a c r i
U 如果 Va∈P, , 都有 f , )=f Y a 。说 明仅 仅根据 条件 ( a (,)
0 引 言
粗糙集理论是一种新 型的处理不 确定 的 、 模糊 的和不完 整
属性子集 P提供的信息 , 无法将对 象 , Y区分开来 , 称对象 , Y 在条件属性子集 P上是不可 区分 的 , 记为 : D( I P):{ ,)∈ N ( Y U×UI Va∈ P , ) 厂 Y a }I D( 是 U上的等价关 系。 a :_ , ) , ( N P)
信息 的数学工具。在粗糙集 理论 中, 知识被 看作是关 于论域 的 划分 , 是一种对对象进行分类 的能力 , 理论是建立 在集 合的基 该

基于粗糙集与遗传算法的储层识别技术

基于粗糙集与遗传算法的储层识别技术

{ :
( 4 )
f , ( 一 F ) / ( P m 一 ) F ≥
P= { [ c 0 , c 1 ) , [ c l , c 2 ) , …, [ c , c + 1 】 j
对于任意的 P = U P 在原有决策系统的基础上 ,
可定 义一个新 的决策表 S e = ( ( , , A, ) 。 对 于 Vx∈U,
1 ) 利用式 ( 1 ) , 计 算 知 识 表 达 系 统 : ( , A, V 厂 ) 中, 条件 属性 C对 决策 属性 D 的 支持度 k , ? ( D) 。 2 ) 假设 c o r e ( C) = , 对 于每 一个 条件 属 性 C ∈C, 利用 式 ( 3 ) 计算 其 对 决 策属 性 D 的 重要 性 s } e ) 。
识 约 简 问 题 的实 际 要 求 , 定 义 个 体 的适 应 值 函数
F ( x ) 为
式中 : c为 条件 属 性集 C中 的一 个 元素 ; s 锄 1 c ) 为c 对决 策属 性集 D 的重 要性 。
1 . 2 基 于布 尔逻 辑 的属 性 离散 化算 法
) = ( 1 一 ] 针)
决 策属 性 D 的支持 度 k ( D) 定义 为
耻 ( 1 )
若s
1 ( c ) ≠0 , 则令 c o r e 。 ( C) = c o r e 。( c) U{ c} , 最终

得 到 C对 D 的相 对核 。 当k c o r e ( D) ( D) 时, c o r e 。 ( C) (  ̄) 即为最 小约 简 ; 否则 k c o r e ( z ) ) ( D) , 执 行步骤 3 ) 。 ( C)

北京大学学报(自然科学版)2021年第57卷总目次

北京大学学报(自然科学版)2021年第57卷总目次

北京大学学报( 自然科学版 )2021年第57卷总目次基于语义对齐的生成式文本摘要研究 ·········································································· 吴世鑫黄德根李玖一 (1)一种基于多任务学习的多模态情感识别方法 ···························································· 林子杰龙云飞杜嘉晨等 (7)中文机器阅读理解的鲁棒性研究 ············································································· 李烨秋唐竑轩钱锦等 (16)基于细粒度可解释矩阵的摘要生成模型 ···································································· 王浩男高扬冯俊兰等 (23)基于Masked-Pointer的多轮对话重写模型 ·································································· 杨双涛符博于晨晨等 (31)开放域对话系统的抗噪回复生成模型 ···················································································· 朱钦佩缪庆亮 (38)具有选择性局部注意力和前序信息解码器的代码生成模型 ············································ 梁婉莹朱佳吴志杰等 (45)基于分层序列标注的实体关系联合抽取方法 ··························································· 田佳来吕学强游新冬等 (53)基于Transformer局部信息及语法增强架构的中文拼写纠错方法 ············································· 段建勇袁阳王昊 (61) . All Rights Reserved.复述平行语料构建及其应用方法研究 ···································································· 王雅松刘明童张玉洁等 (68)融合物体空间关系机制的图像摘要生成方法 ······························································ 万璋张玉洁刘明童等 (75)无监督的句法可控复述模型用于对抗样本生成 ························································ 杨二光刘明童张玉洁等 (83)基于深度学习的实体链接研究综述 ······································································· 李天然刘明童张玉洁等 (91)海域天然气水合物开采的4C-OBC时移地震动态监测模拟 ················································ 朱贺何涛梁前勇等 (99)微观剩余油赋存状态的矿物学机制探讨——以鄂尔多斯盆地中部中‒低渗砂岩储层为例 ·················································· 王哲麟师永民潘懋等 (111) 不同分辨率下青藏高原对大西洋经向翻转流影响的耦合模式研究·····································邵星杨海军李洋等 (121)深圳河湾流域溢流污染规律及其对海湾水质的影响 ······················································ 程鹏李明远楼凯等 (132)中国东部水稻土壤丁酸互营降解微生物的地理分布格局 ·················································· 费媛媛焦硕陆雅海 (143)1982—2014 年华北及周边地区生长季NDVI变化及其与气候的关系 ······························· 张新悦冯禹昊曾辉等 (153)模型结构与参数化差异对蒸散发估算的影响 ························································· 赵文利熊育久邱国玉等 (162)基于需求的京津冀地区生态系统服务价值时空变化研究 ············································· 唐秀美刘玉任艳敏等 (173)2007—2016年中国省域碳排放效率评价及影响因素分析——基于超效率SBM-Tobit模型的两阶段分析 ························································ 宁论辰郑雯曾良恩 (181)I北京大学学报(自然科学版) 第 57 卷 第 6 期 2021 年 11 月II 环境规制对工业绿色全要素生产率的影响——短期偿债能力的中介效应 ·········································································· 刘锦慧 邹振东 邱国玉 (189) 胰岛炎症导致的2型糖尿病发病过程的动力学模型及治疗策略······································ 林智立 雷蕾 李长润 等 (199) 内部充放电监测器仿真及地面实验研究 ································································ 宋思宇 于向前 陈鸿飞 等 (209) 保定‒雄安地区近地面大气流动与轨迹输送特征 ························································· 栗涵舸 蔡旭晖 康凌 等 (215) 巢湖地区早三叠世晚斯密斯亚期含鱼化石碳酸盐岩结核的地球化学特征及其地质意义 ········ 于鑫 孙作玉 孟庆强 等 (225) 结合序贯平差方法监测地表形变的 InSAR 时序分析技术·················································王辉 曾琪明 焦健 等 (241) 北方农牧交错带草地土壤微生物量碳空间格局及驱动因素 ········································ 陈新月 姚晓东 曾文静 等 (250) 基于 GIS 的全球农业开发潜力和人口承载力分析 ······················································· 梁书民 刘岚 崔奇峰 等 (261) 短程硝化–厌氧氨氧化在实际垃圾渗滤液处理工程中的启动运行研究 ······························ 初永宝 赵少奇 刘生 等 (275) 唐河地下水有机氯农药(OCPs)的分布特征及风险评估 ······················································ 张敏 王婷 杨超 等 (283) 城市市政基础设施投资与经济发展的空间交互影响 ···················································· 储君 刘一鸣 林雄斌 等 (291) 碳纳米管对天然有机质氯化消毒副产物生成的影响 ················································· 李慧敏 陈学姣 尤明涛 等 (299) 利用简化空气质量模型快速构建臭氧生成等浓度曲线及其应用······································ 杜云松 黄冉 王馨陆 等 (311) 基于深度神经网络的城市典型乔木日内蒸腾特征模拟研究 ········································ 赵文利 邱国玉 熊育久 等 (322) 黄河上游重金属元素分布特征及生态风险评价 ·····························································张倩 刘湘伟 税勇 等 (333) 化工企业污染物影子价格的估计——基于参数化的方向性距离函数 ··················································································· 陈醒 徐晋涛 (341) 汉江流域河网分级特征研究 ··················································································· 黄子叶 王易初 倪晋仁 (351) 植物残体输入改变对樟子松人工林土壤呼吸及其温度敏感性的影响····························· 何可宜 沈亚文 冯继广 等 (361) 那仁郭勒河流域地表水与地下水储量变化响应研究 ························································ 王玥 王易初 倪晋仁 (371) 生境维持服务供给量与需求量研究——以京津冀地区为例 ······················································································ 王雅琳 牛明爽 宋波 (381) 寒武纪化石胚胎 Markuelia 的肌肉组织 ··································································· 刘腾 段佰川 刘建波 等 (390) 果子狸多态性微卫星位点的筛选及特性分析 ······························································· 王迪 张丹 熊梦吟 等 (395) 惠斯通电桥式磁阻传感器的零位温度漂移研究 ························································· 于向前 刘斯 肖池阶 等 (401) 碳离子注入辅助在 6H-SiC 表面制备石墨烯··························································· 陈钰焓 赵子强 赵云彪 等 (407) 石家庄市秋冬季大气环流型下的气象和PM 2.5污染特征 ·················································· 肖腾 林廷坤 严宇 等 (414) 基于大数据量的初至层析成像算法优化 ·································································· 吕雪梅 张献兵 康平 等 (425) 天然气水合物相关的 Slipstream 海底滑坡体速度结构模型反演············································ 蓝坤 朱贺 何涛 等 (435) . All Rights Reserved.第 57 卷(2021年)总目次III 矽卡岩中石榴子石的稀土配分特征及其成因指示 ···································································· 王一川 段登飞 (446) 鄂尔多斯盆地长 7 段页岩油优质储层特征分析 ·························································· 王晓雯 关平 梁晓伟 等 (459) 下刚果盆地中段挤压带盐底辟构造形成演化分析——基于物理及离散元模拟 ················································································ 程鹏 李江海 刘志强 (470) 滇池溶解氧浓度变化的氮磷循环响应模拟研究 ························································· 胡梦辰 朱滔 蒋青松 等 (481) 长江中下游武安段生态航道评价 ················································································ 刘念 李天宏 匡舒雅 (489) 冬奥会申办成功对北京旅游目的地感知形象的影响 ························································ 丛丽 徐琳琳 方小雨 (496) 沸石载体恢复受饥饿影响厌氧氨氧化菌的性能研究 ················································ 余道道 孙敬起 霍唐燃 等 (507)1.5ºC 和 2ºC 目标下中国交通部门2050年的节能减排协同效益 ······································· 陆潘涛 韩亚龙 戴瀚程 (517) 嗜热蓝细菌 PKUAC-E542 藻蓝蛋白耐热性以及不同光照条件对其含量影响研究 ············ 李俐珩 梁园梅 李玫锦 等 (529) 我国海岸带城市化系统耦合协调时空动态特征——以东海海岸带城市为例 ················································································ 徐煖银 李枝坚 曾辉 (536) 丙酸盐对厌氧氨氧化除氮性能及群落结构的影响 ··························································· 张立羽 乔雪姣 余珂 (545) 农户生计资本特征及对生活满意度的影响——基于中国 13 省 25 县抽样调查数据的分析······················································· 卢志强 曹广忠 李贵才 (556) 城市化对哺乳动物丰富度影响的研究——以长三角城市群为例 ··········································································································· 林萍 (565) 黄河下游花园口至艾山河段滩区洪水漫滩风险度评估研究 ·········································· 孙煜航 程舒鹏 张祺 等 (575) 磁性 CoFe 2O 4/g-C 3N 4 复合纳米材料对环丙沙星的光催化降解研究 ······························ 陶虎春 邓丽平 张丽娟 等 (587) 格密码关键运算模块的硬件实现优化与评估 ································································· 陈朝晖 马原 荆继武 (595) 基于时空建模的动态图卷积神经网络 ················································································ 李荆 刘钰 邹磊 (605) 核磁共振波谱法结合化学计量学判别油菜蜜的成熟蜜、非成熟蜜和加工蜜························· 陈辉 张佳琳 鞠晶 等 (614) 黄铁矿型 FeS 2 纳米微球的制备及其超级电容性能研究 ····························································· 李搛倬 传秀云 (623) 全球变暖背景下内蒙古地区沙尘暴频次变化的预估 ································································· 杨诗妤 闻新宇 (632) 利用人工智能神经网络预测广州市 PM 2.5日浓度 ········································································ 李泽群 韦骏 (645) 基于多方向识别的三维断层增强方法 ·································································· 安圣培 陈彦阳 罗红梅 等 (653) 尖峰岭次生林和原始林林下灌木叶氨基酸对氮添加的响应 ······································· 李修平 安丽华 倪晓凤 等 (660) 城市电动自行车违规充电隐患的空间分布及其影响因素 ··················································· 廖聪 邬伦 蔡恒 等 (671) 深圳近海环境重金属空间分布特征与风险评价 ······················································ 张海军 史本宁 焦学尧 等 (679) 生态系统文化服务供需关系量化方法研究——以平陆大天鹅景区为例 ············································································· 杨丽雯 王大勇 李双成 (691). All Rights Reserved.。

粗糙集约简方法

粗糙集约简方法

粗糙集约简方法简介粗糙集约简方法是数据挖掘领域中一种常用的特征选择方法。

在众多特征选择方法中,粗糙集约简方法以其简单快速、易于理解的特点而受到广泛关注。

它通过粗糙集理论的基本原理,对原始数据集进行约简,从而得到一个更精简的特征子集,提高数据挖掘效率。

粗糙集理论基础粗糙集理论是由波兰学者Pawlak于1982年提出的,是一种处理不确定性信息的方法。

它基于集合论和近似推理,并尝试解决数据集中存在的不确定性和模糊性问题。

在粗糙集理论中,将数据集划分为对象的集合和属性的集合,并使用近似关系来描述属性与对象之间的关系。

约简的概念与意义约简是指通过对原始数据集进行操作,得到一个特征子集,该子集包含了原始数据集中的重要、有用的特征信息,而丢弃了无关、冗余的特征信息。

约简的过程就是在保持数据集中信息完整性和准确性的基础上,减少特征的数量,提高数据挖掘的效率。

约简所起到的作用有以下几个方面: - 减少特征的数量,提高数据挖掘算法的效率和性能; - 去除冗余信息,减少数据挖掘模型的复杂度; - 提高数据可视化效果,减少特征数量可以降低维度,更方便数据的可视化和分析。

粗糙集约简方法的步骤粗糙集约简方法一般包括以下几个步骤:1.确定属性集合和决策集合:首先确定数据集中的属性集合和决策集合。

属性集合是指数据集中待选择的特征集合,决策集合是指用于分类或预测的结果集合。

2.计算属性间的依赖度:使用粗糙集理论中的依赖度指标,计算属性集合中各个属性之间的依赖程度。

具体来说,可以计算属性集合中每个属性与决策集合之间的依赖度,衡量该属性对于分类结果的贡献程度。

3.确定依赖度阈值:根据需求和实际情况,确定一个依赖度阈值。

该阈值可以根据经验选择,也可以通过交叉验证等方法进行确定。

4.生成约简的特征子集:根据依赖度阈值,从属性集合中选择具有较高依赖度的特征,构成约简的特征子集。

5.验证约简的质量:使用约简的特征子集,进行数据挖掘任务,比如分类、预测等。

基于深度置信网络的恶意代码检测方法研究

基于深度置信网络的恶意代码检测方法研究

收稿日期:2018-08-08 修回日期:2018-12-06 网络出版时间:2019-03-21基金项目:国家科技重点专项 核高基”(2013ZX 01029002-001)作者简介:强 晗(1994-),男,硕士研究生,研究方向为大数据㊁人工智能㊂网络出版地址:http :// /kcms /detail /61.1450.TP.20190321.0916.042.html基于深度置信网络的恶意代码检测方法研究强 晗,郭亚兰,田礼明(江南计算技术研究所,江苏无锡214000)摘 要:随着互联网的普及㊁信息技术的飞速发展,信息安全的问题也日益严重,恶意代码是其中主要威胁之一㊂当前恶意代码呈现出数量巨大,技术不断更新的现状,恶意代码检测技术面临严峻挑战㊂因此,文中提出了基于指令序列特征和深度置信网络的恶意代码检测方法,它包括三个部分:样本预处理模块㊁特征构造与约简模块以及深度置信网络分类模块㊂数据预处理模块使用PEID ㊁VMUNPACKER 对恶意代码样本进行查壳㊁脱壳处理并用IDA pro 对样本进行反汇编获取操作码;特征提取模块使用n -gram 窗口滑动获取特征并采用信息增益的方法对特征进行选择;深度置信网络模块使用深度置信网络(DBN )在训练集上进行训练生成深度学习网络,再使用训练好的网络对样本进行分类与检测㊂实验结果表明,该方法相较于传统的恶意代码检测方法,检测速度和效率有较大的提高㊂关键词:恶意代码检测;反汇编;n -gram ;信息增益;深度置信网络中图分类号:TP 302.1 文献标识码:A 文章编号:1673-629X (2019)07-0093-05doi :10.3969/j.issn.1673-629X.2019.07.019Research on Malicious Code Detection Based on Deep Belief NetworksQIANG Han ,GUO Ya -lan ,TIAN Li -ming(Institute of Jiangnan Computing Technology ,Wuxi 214000,China )Abstract :With the popularity of the Internet and the rapid development of information technology ,the information security is becoming more and more serious ,and malicious code is one of the main threats.At present ,due to a large amount of malicious code and its constantly updated technology ,malicious code detection technology is facing severe challenges.Therefore ,we propose a malicious code detection method based on deep belief network and instruction sequence features ,which consists of three modules :sample preprocessing module ,feature construction and reduction module and deep belief network classification module.The data preprocessing module uses PEID and VMUNPACKER to check shell and remove shell and disassemble the sample with IDA pro.The feature extraction module uses the n -gram window to get the feature and selects the feature by the method of information gain.The deep belief network module uses the deep belief network (DBN )to generate the deep learning network on the training set ,and then the trained network is used to classify and detect the samples.Experiment shows that compared with traditional malicious code detection methods ,the proposed method improves the detection speed and efficiency greatly.Key words :malicious code detection ;disassemble ;n -gram ;information gain ;deep belief network0 引 言随着信息化的迅猛发展,互联网与计算机得到广泛普及和应用,给人类的生活带来巨大便利,社会工作效率得到显著提高㊂但与此同时,信息安全问题也日益严峻,不仅威胁到个人隐私和利益,企业信息安全甚至国家信息安全都面临着严峻挑战㊂由于恶意代码的传播和扩散而引起的案件数量正与日俱增,每年增幅达到50%以上[1]㊂爆炸性增长的海量恶意代码不仅对社会与个人造成巨大损失,也对恶意代码检测技术提出了更高的要求㊂经典的恶意代码检测方法如基于特征库㊁基于逆向工程反汇编和基于启发式扫描的检测技术在性能和效率上已无法应对当前恶意代码的巨大挑战㊂近年来,随着人工智能与机器学习技术的发展,有学者将这些技术应用到恶意代码的检测中,并且取得了不错的效果㊂Masud M [2]以字节n -gram 序列㊁指令序列㊁系统调用函数组成多维特征,结合支持向量机算法,在检测准确率㊁错判率和漏报率上均有不错的表第29卷 第7期2019年7月 计算机技术与发展COMPUTER TECHNOLOGY AND DEVELOPMENT Vol.29 No.7July 2019现㊂Igor Santos[3]以操作码出现的频率和选择执行文件的踪迹作为特征,利用KNN[4]㊁决策树[5]㊁SVM[6]㊁贝叶斯算法[7]训练分类器,也取得了很好的检测效果㊂深度学习是近年来被广泛应用的一种机器学习技术㊂深度学习可以对多层深度结构实现非线性映射,将复杂函数用较少的参数来表示,具有从样本中学习到本质特征的强大能力,在图像识别㊁机器翻译等领域具有广泛的应用㊂文中基于恶意代码反汇编后指令序列的特征,利用深度置信网络实现恶意代码的检测㊂它的优点有两方面:其一,使用深度网络结构进行分类的结果比较准确;其二,深度置信网络是无监督学习,省去了大量对样本进行标注的时间,提高了效率㊂1 数据预处理模块1.1 查壳与脱壳大部分恶意代码为了提高隐蔽性以躲避杀毒软件的查杀以及压缩体积来便于广泛传播,都会采取加壳处理㊂常用的加壳工具如ASPACK㊁PECOMPACT等㊂为了避免壳对恶意代码检测的干扰,需要先进行查壳与脱壳㊂在查壳的技术思路上,主要有两个方向,一是根据壳的特征码,二是计算信息熵㊂常用的查壳工具有PEID㊁FILESCANNER㊂脱壳是加壳的逆过程㊂为了使对恶意代码的分析不受干扰,首先要脱去保护壳,找到原程序的真正入口点㊂脱壳主要有单步跟踪法㊁ESP定律法㊁两次内存镜像法㊁直达OEP法和模拟跟踪法㊂目前常用的脱壳软件有VMUNPACKER㊁WASPACK㊁UNDBPE㊁UNFSG㊁EUNPACJER等㊂1.2 反汇编通常,获取恶意代码源码是很困难的,多数情况下,分析者只能得到其PE文件㊂对于PE文件,无法对其直接进行分析,因此需要反汇编,通过分析恶意程序的汇编代码来理解恶意程序的原理和真实目的㊂目前,主流的反汇编工具有IDA Pro㊁W32Dasm㊁C32Asm等㊂图1为一个样本经过IDA pro反汇编后的效果图㊂2 特征提取模块2.1 特征提取n-gram技术最早应用在语音和模式识别中,后来在文本分类中也有应用,并且取得了很好的效果㊂文中方案采取n-gram[8]方法提取样本的操作码序列,其中滑动窗口的长度n的选择尤为重要,n取值过小则无法提取出较长㊁较复杂的汇编指令码序列的特征,n 取值过大则会受到冗余代码的干扰和影响㊂Moskovitch[9]的实验结果表明,使用n>4的滑动窗口构造特征序列时,模型的分类准确率并没有明显提升, n值取3或4时模型分类效果最佳㊂图1 IDA Pro反汇编效果2.2 特征选择方法2.2.1 信息增益信息增益(information gain,IG)为信息熵的差㊂信息熵[10]的概念由香农于1948年提出,借助了热力学的 熵”一词,是用来衡量信息量大小的物理量㊂其物理含义可以这样理解:如果小概率的事件发生了,则产生的信息量大;如果大概率的事件发生了,则产生的信息量小㊂熵的计算公式如下:H(x)=-∑x∈X p(x)log2p(x)(1)在随机变量Y发生的情况下,X的信息熵如下: H(X|Y)=-∑j p(y i)∑i p(x i|y i)log2p(x i|y i)(2)信息增益为两者之差:IG(X,Y)=H(X)-H(X|Y)(3)信息增益值越大的特征,对应的分类能力越强,越应该保留,而信息增益值小的特征,分类能力弱,可能会降低分类的效果㊂2.2.2 文档频率文档频率(TF-IDF)是文本挖掘中常见的特征选择方法㊂它的基本思想是如果某一特征在某一类中出现频率很高且在其他类中出现频率很低,则该特征的分类能力强,应当保留㊂具体的计算公式为:Wi,j=tfi,j*idf i,j=ni,j∑k n k,j*log N1+n i(4)它将某个特征在一个样本中出现的频率与这个特征在其他样本中出现频率的倒数相乘,乘积越大,则说明这个特征更能代表某一类样本㊂3 深度置信网络模块文中使用的分类算法是基于深度置信网络(deep㊃49㊃ 计算机技术与发展 第29卷belief network,DBN)实现的㊂它是由若干层由下往上的受限玻尔兹曼机(RBM)和一层逆向传播(back propagation,BP)神经网络构成的[11-13]㊂每层RBM的训练是非监督的,文中使用最上层RBM的输出向量作为BP神经网络的输入向量,随后对BP神经网络进行有监督的训练㊂DBN网络的每一层的单元从之前一层的隐藏层单元获得高相关性隐式关联㊂DBN网络中相邻的层可以被分解为一个单独的受限RBM㊂每个低层的RBM作为输入数据作为训练下一个RBM的输入数据来使用,通过贪婪学习算法得到一组RBM㊂深度置信网络的训练有以下三个步骤㊂第一步,用非监督的方法分别训练每层的受限玻尔兹曼机;第二步,对DBN网络进行无监督反馈调节,使整个网络的权值得到优化;第三步,对在深度置信网络最后一层的BP神经网络,使用最后一个RBM的输出向量作为BP神经网络的输入向量,然后使用监督学习的方法,训练实体关系分类器㊂DBN模型网络结构示意如图2所示㊂图2 DBN模型网络结构示意3.1 RBM预训练受限玻尔兹曼机(RBM)由Hinton等提出,是深度置信网络的主要组成部分㊂一个受限玻尔兹曼机由两层神经网络组成,可见层(对应可见变量,即数据样本)和隐藏层(对应隐藏变量)㊂可见层和隐藏层内部节点之间均不相连[14-15]㊂每层间的连接矩阵和偏差通过非监督的贪婪算法得出㊂具体到训练过程中来说,第一步,将可视层单元映射到隐藏层单元;第二步,反过来用隐藏层单元重构出可视层单元;第三步,重复前两步,并更新连接矩阵和偏差的值,计算重构数据与原始数据的误差值,对误差值设定一个阈值,若误差值大于阈值,则还要继续做前两步的工作,若误差值在阈值内,则训练完成㊂隐含层单元和可视层单元间的相关差别是形成每次权重更新的基础㊂RBM结构如图3所示㊂简言之,训练RBM的过程其实就是求一个最能产生输入数据的分布㊂通过不断计算重构数据与输入数据的误差,对权重和偏量进行调整,使误差降低到阈值之内㊂在误差的量化计算上,Hinton提出了对比散度(contrastive divergence,CD)的学习算法,基于KL(Kullback-Leibler)距离衡量两个概率分布之间的误差㊂KL距离是用来衡量两个概率分布差异的一种方法㊂KL距离的具体物理含义是:用P(x)表示某个事件的概率分布,当用概率分布Q(x)来编码时,计算平均编码长度改变了多少比特㊂这时的KL距离表示为D(P‖Q)㊂基于KL距离可以得出对比散度CD的计算公式:n=KL(p0∞n∞(5)i图3 RBM结构3.2 DBN无监督反馈调节过程通过将已经进行过逐层大量学习的多个RBM按自底向上的方法连接起来,这样构造得到了一个初始DBN㊂这时,每个RBM都实现了局部最优,但是对于整个DBN网络,并不是最优㊂为了进一步提高模型精度,对于初始的DBN,再通过无监督反馈微调,使用最顶层RBM的输出特征向量重构出原始输入特征向量,通过不断降低重构出的特征向量与原始输入特征向量之间的误差,调整RBM的连接权重㊂其中,误差的量化计算通过KL距离实现㊂这样迭代多次后,当模型能够重构出与原始输入特征向量误差很低的特征向量时,说明模型的输出特征向量更能反映样本的本质特征,有助于提高检测精度㊂具体过程如下:首先输入n-gram指令序列特征向量v;设置反馈调节参数,迭代次数为iteration;获取RBM预训练后的各权值W1W2 W N W N-1 W2N;计算最顶层RBM的输出h k;有最顶层输出重构输入特征向量v;计算误差: Error=KL(v‖v');根据误差Error采用共轭梯度算法调整权值W1~W2N㊂这样迭代iteration次后,DBN无监督反馈调节完成㊂3.3 BP反馈调节过程在深度置信网络模块的最后,通过类似经典BP 神经网络的方法从后往前微调整个深度置信网络,最终可以建立训练好的DBN模型㊂BP神经网络是有监督的学习,它使用的是标注好的训练集㊂对于输入数据x,设它的原始类标为y,令它的特征向量V0经过深度置信网络得到顶层输出向量h N,最后计算出输出类标y'㊂用KL距离计算y和y'的误差,将误差反向传播,以此来调整各层的权重W N W2W1㊂㊃59㊃ 第7期 强 晗等:基于深度置信网络的恶意代码检测方法研究4 恶意代码检测分类器评价方法恶意代码的检测在本质上属于一个二分类问题,因此,文中使用了一般分类算法的评价标准,主要有准确率㊁错判率FPR和漏报率FNR这三个量化指标㊂在一个二分类问题中,分类算法会将样本分为相应意义的正类和负类,这样便会产生四种情况:样本是正类并且被分类为正类;样本是正类但是被分类为负类;样本是负类但是被分类为正类;样本是负类并且被分类为负类㊂准确率㊁错判率及漏报率的计算公式如下: Accuracy=TP+TNTP+TN+FP+FN(6) FPR=FPFP+TN (7)FNR=FNTP+FN (8)评价一个恶意代码检测算法性能的好坏总的来说就是看其是否具有很高的检测精度与相对低的误报率与漏报率㊂为了验证文中方法的性能,在Windows764位平台下,基于Visual Studio2010和Matlab7.0使用C++语言和Matlab脚本实现了恶意代码检测模型系统㊂系统由三个模块组成,分别为样本预处理模块㊁特征构造与约简模块㊁深度置信网络分类模块㊂样本预处理模块在win平台进行,使用PEID㊁VMUNPACKER对样本进行查壳㊁脱壳处理㊂特征提取模块首先利用IDA Pro6.1反汇编生成后缀为.asm的文件,然后构造指令的n-gram序列,再使用信息增益提取特征㊂深度置信网络分类模块在win平台上使用Matlab实现,它由若干层RBM逐层堆叠再加上顶层的有监督的BP神经网络组成㊂整个恶意代码检测模型如图4所示㊂图4 恶意代码检测模型5 实验结果与分析文中的实验样本数据集包括3000个正常代码和3000个恶意代码㊂恶意样本来源于相关安全论坛以及恶意代码研究网站,如vx netlux㊁vx heavens㊁VirusTotal等,包括木马㊁病毒㊁蠕虫㊁后门等㊂正常样本来源于Windows的系统文件和其他一些正常文件㊂所有样本均为PE格式文件㊂样本集的划分采用3重交叉验证的方式㊂按照这种样本划分方式,文中实验的训练集由2000正常样本和2000恶意样本组成,测试集由1000正常样本和1000恶意样本组成㊂文中设计了两组实验,第一组实验控制其他变量统一,采用不同的隐藏层数和隐藏层节点数,从而得出最优的深度模型结构㊂第二组实验将文中方法与其他机器学习算法(支持向量机㊁K近邻㊁朴素贝叶斯)进行对比,验证文中方法相较于传统的机器学习方法具有更好的检测性能㊂第一组实验中,通过设计几组对比实验找出最优的深度模型结构,即最优的隐藏层数和隐藏层节点数㊂层数和节点数过少会导致学习能力不足造成欠拟合的情况,而层数和节点数过多则会导致学习到冗余特征,造成过拟合㊂实验使用4-gram算法构造指令序列特征并用信息增益法选择IG值前120个的特征㊂实验的DBN网络分别采用单隐藏层㊁双隐藏层㊁三隐藏层,隐藏层节点数分别为140,160,180㊂输入层节点数为120,输出层为2个节点,学习速率设置为0.05㊂实验的结果如表1所示㊂表1 不同DBN网络结构的检测结果层数隐藏层节点数Accuracy/%FP Rate/%FN Rate/% 114093.087.076.31 116094.836.695.73 118094.005.235.29 2140,14095.694.654.30 2160,16096.114.273.77 2180,18095.265.464.56 3140,140,14094.206.265.69 3160,160,16094.876.545.92 3180,180,18093.807.377.12 可以得出实验结论:当DBN网络采用双隐藏层,隐藏层节点数为160时,整个模型系统的分类准确率最高,达到96.11%,同时误判率与漏报率也较低,分别为4.27%㊁3.77%㊂第二组实验中,将文中方法与四种传统的机器学习模型进行了比较,包括K近邻㊁朴素贝叶斯算法㊁支持向量机㊁决策树算法㊂对于这四种学习算法,使用相同的测试集㊁相同的特征提取方法进行实验,检测结果如表2所示㊂㊃69㊃ 计算机技术与发展 第29卷表2 不同机器学习算法的检测结果 算法参数Accuracy/%FP Rate/%FN Rate/%K近邻(KNN)K=193.787.015.78朴素贝叶斯(Naive Bayes)无90.369.858.26支持向量机(SVM)径向基核函数86.2013.4412.10决策树(J48)无91.887.566.50 从表2可以看出,在测试条件相同的情况下,DBN 算法的准确率比K近邻算法高出2.33%,比朴素贝叶斯算法高出5.75%,比支持向量机算法高出9.89%,比决策树算法高出4.23%㊂可以得出结论,采用DBN 算法的模型的检测性能优于传统的机器学习模型的检测性能㊂6摇结束语通过提取恶意代码反汇编后得到的操作码序列特征,使用信息增益(IG)选择特征,再使用深度置信网络(DBN)对提取的特征进行分析识别,提出了基于深度学习算法的恶意代码检测方法㊂深度学习是目前机器学习领域研究的重点,相比于传统机器学习算法,深度学习通过神经网络可以学得输入数据更本质的特征,因此提高了分类性能㊂文中详细论述了深度置信网络算法的理论基础,并将算法应用到恶意代码检测中㊂实验结果表明,相较于传统的恶意代码检测方法,提出的恶意代码检测方法在检测精度和效率上有明显改进和提高㊂该方案也存在一些不足和需要改进的地方㊂比如可以从更多的角度提取恶意代码特征,对于一些加密与压缩的恶意代码,需要在运行时才能获得其特征,所以对动静态特征融合做进一步研究也是有意义的㊂此外,文中只是将待检样本分类为恶意和正常两类,下一步可以考虑对样本进行更加细致的分类,通过检测能够知道恶意代码的具体种类,这样对恶意代码检测也是有积极意义的㊂参考文献:[1] FU Leipeng,ZHANG Tao,ZHANG Han,et al.A fuzzy clas⁃sification method based on feature selection algorithm in ma⁃licious script code detection[C]//International conferenceon system science,engineering design and manufacturing in⁃formatization.Guiyang,China:IEEE,2011:218-221.[2] MASUD M M,KHAN L,THURAISINGHAM B.A scalablemulti-level feature extraction technique to detect malicious executables[J].Information System Frontiers,2008,10(1): 33-45.[3] SANTOS I,BREZO F,UGARTE-PEDRERO X,et al.Op⁃code sequences as representation of executables for data min⁃ing based unknown malware detection[J].Information Sci⁃ences,2013,231:64-82.[4] PETERSON L.K-nearest neighbor[J].Scholarpedia,2009,4(2):1883.[5] QUINLAN J R.Induction on decision tree[J].Machine Le⁃arning,1986,1(1):81-106.[6] UKIL A.Support vector machine[J].Computer Science,2002,1(4):1-28.[7] LOWD D,DOMINGOS P.Naive Bayes models for probabil⁃ity estimation[C]//Proceedings of the22nd international conference on machine learning.Bonn,Germany:ACM, 2005:529-536.[8] ABOU-ASSALEH T,CERCONE N,KESELJ V,et al.N-gram-based detection of new malicious code[C]//Proceed⁃ings of the28th annual international computer software and applications conference.Hong Kong,China:IEEE,2004:41-42.[9] MOSKOVITCH R,FEHER C,TZACHAR N,et al.Un⁃known malcode detection using OPCODE representation[C]//European conference on intelligence and security in⁃formatics.[s.l.]:[s.n.],2008:204-215. [10]SHANNON C E,WEAVER W.Mathematical theory of com⁃munication[M].Illinois:University of Illinois Press,1949: 623-656.[11]CARREIRA-PERPIGNAN M A.On contrastive divergencelearning[C]//Proceedings of artificial intelligence&statis⁃tics.[s.l.]:[s.n.],2008:1-8.[12]HINTON G E,OSINDERO S,TEH Y W.A fast learning al⁃gorithm for deep belief nets[J].Neural Computation,2006, 18(7):1527-1554.[13]DENG L,HINTON G,KINGSBURY B.New types of deepneural network learning for speech recognition and related applications:an overview[C]//IEEE international confer⁃ence on acoustics,speech and signal processing.Vancouver, BC,Canada:IEEE,2013:8599-8603.[14]HINTON G E.A practical guide to training restricted boltz⁃mann machines[J].Momentum,2010,9(1):599-619. [15]SALAKHUTDINOV R,HINTON G.Deep Boltzmann ma⁃chines[J].Journal of Machine Learning Research,2009,5(2):1967-2006.㊃79㊃ 第7期 强 晗等:基于深度置信网络的恶意代码检测方法研究。

数据挖掘技术在财务风险预警中的应用

数据挖掘技术在财务风险预警中的应用

数据挖掘技术在财务风险预警中的应用李成锋'黄康梅'贾男'(1.中海油能源发展股份有限公司湛江采油服务文昌分公司,广东湛江524000;2.广东医科大学附属医院;广东湛江524000;3.中海油能源发展股份有限公司采油服务分公司,天津300452)摘要:数据挖掘技术能够对财务指标进行准确、全面的分析,提供客观、详细、多方位的数据参考,对构建科学的财务风险控制系统具有重要的意义。

鉴于$匕,本文将对分别对数据挖拥技术应用场景、财务风险指标体系和数据挖振技术具体方法进行阐述,得到了数据挖掘技术主要以关联规则数据挖掘技术、时间序列数据挖掘技术等模式运用到财务风险预警中的结论,期望对构建科学的企业财务风险预警系统提供有价值的参考。

关键词:数据挖振技术;财务风险预警;应用中图分类号:F275文献识别码:A文章编号:2096-3157(2021)02-0084-03企业发展处于复杂的市场环境体系之下,导致企业发展面临很多不确定因素,这些不确定性会引发企业财务风险,如果缺乏科学的财务风险预警系统,不仅很难有效规避财务风险,还会对企业的生产经营造成损失。

而数据挖掘技术可以在广泛收集影响财务相关因素指标的基础上,通过数学方法对财务指标进行自动分析,这样既避免了传统财务风险数据计算、收集的弊端,又简化财务指标计算程序,提高数据处理效率,对形成科学的财务风险预警系统具有重要的意义。

一、数据挖掘技术的应用及企业财务风险概述1.数据挖掘技术的应用现状数据挖掘技术是一项综合的技术,是多项技术辅助而诞生的,思想理论的诞生源于统计学,数据挖掘技术指的是使用人工智能技术、数据库技术以及统计学原理等来完成的数据收集、收据分析的过程。

数据挖掘技术的主要目的是发现和目标群体切合的数据,找到这些数据之间存在的规律,然后将其运用到日常工作、生产等环节,以此减少风险的发生。

从数据挖掘技术的工作原理来看,可以将数据挖掘技术看作是一项数据处理技术,这种技术离不开计算机技术的辅助和应用。

基于粗糙集属性约简的数据挖掘技术

基于粗糙集属性约简的数据挖掘技术

维普资讯
蕉全融管堡干部学院学报
20 0 2年第 5期 ( 7 期 总 O
基于 粗糙 集属性 约简的 数据挖 掘技 术
叶 东毅
( 福州大学 计算机系 福建 福州 3 00 ) 5 0 2

要: 粗糙 集理论 ( o g e) R u hSt是波 兰学者 Z P WL K提 出的一种 新的软计 算方法 , .A A 它在处理 含噪 声 、 完整、 不 不精
了良好的社会和经 济效 益。数据 挖掘技术涉及多
个学科领 域 , 包含 了许 多 的核 心技 术 和方 法 , 其 识关 系 记 为 I D( ) 在 不 至 于 混 淆 情 况 下 , 以 N P. 可
中 , 糙 集 理论 是 一个 典 型 的 、 效 的方 法 。该 理 用 P代 替 I D( ) 粗 有 N P. 论 ( og e,S 是 波 兰 学者 Z P WL K 提 出 的 R uhStR ) .A A
L=( Q, , q , ∈Q U, F ) q
( )} P Y 。定义集合 y的 下 逼近 : y={ ∈UI ] y P [ }
上 逼 近 :y={ P ∈U1 ] ≠ } [ ny 下 逼 近P y定 义 了论 域 中一 定 属 于集 合 l ,
其中 是论域 , Q是属性集合 , 为属性取值
确 的信 息方 面具 有独特 的能 力, 已成为数据挖掘技 术 的一 个主要 方 法 , 在许 多科 学与 工程领 域 中得 到 了广泛 的应 用。本
文着重介 绍粗糙 集的基 本思想 , 以一 个具 体的属性 约简算 法和 实例 介 绍 它在 数 据挖掘 , 别是在 数据 浓 缩和规 则提 取 并 特 中的应用 。 关键字 : 糙集 粗 约简算法 数据挖掘

一种基于粗糙集属性约简的支持向量异常入侵检测方法

一种基于粗糙集属性约简的支持向量异常入侵检测方法

界达到最小 的一 种方法一 支持 向量机 ( VM) VM 和 核学习 S 。S 方法 的解 的稀疏性 、 对样 本维数 的不 敏感性 和 良好 的分类 精 度使得 S VM 在模 式识别 中得 到了广泛 的应用 , 手写识 别 、 如 人脸识别 、 文本分类 等。从统计 学习理论 的角度来 看 , 入侵检 测可被视 为一种模 式识别 中 的分类 问题 , 即根据 网络 流量特

要 实现 了 一种粗糙集属性约简和支持向量机分类相结合的异常入侵检测方法。针对网络连接记录特征属性高
ห้องสมุดไป่ตู้
维的特点 , 采用粗糙 集属性约 简的 方法压缩数据空 间, 然后采 用 s M 两分类方 法处理约 简和正规化后 的数据 。基 v
于 D RP 1 9 A A 9 8数据 源的实验表 明 , 与采 用全部属 性的 s vM 两分 类方法 相比 , 该方 法具有 与之相 当的分 类精度 ,
维普资讯
计算机科 学 20 V 13 №. 0 6 o. 3 6

种 基 于粗 糙 集属 性 约 简 的支 持 向量 异 常入 侵 检 测 方 法 )
张义荣 鲜 明 肖顺平 王国玉 ( 国防科技 大 学 电子 科学 与工 程 学院 长 沙 4 0 7) 10 3
ZHANG — n X1 Yi Ro g AN ig XI M n AO h nPig W ANG o Yu S u- n Gu -
( c o l fElcr ncS in ea d En i e ig, to a nv o fn eTe hn lg Ch n s a41 0 ) S h o e to i ce c n gne rn Na in l i. fDe e s c oo y, a g h 0 73 o U
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
项目 与课曩
S c 科 i e n c e & 技 T e c h 视 n o l o g y 界 V i s i o n
科技

探索・ 争鸣

种基于变长指令序列与粗糙集属性约简的 恶意代码检测技术
冯 本慧 ( 湖 南工 学院 , 湖南 衡 阳 4 2 1 0 0 2 )
【 摘 要】 针 对定长的指令序 列特征 维数过 高且存在分割特征 的问题 。 本文提 出了一种基于变长指令序 列与粗糙集属性约 简的恶意代码检 测技 术 , 采用变长的指令序 列可以有效 解决特征 分割 的问题 , 同时为了有效 降低特征规模 , 只考虑常用的 1 3 个指令所构成 的指令序列. 然后利 用粗糙 集理论进 行冗余 特征 约简, 实验 最终获得特征 维数非 常低并且相对定 长的指令序列而言 . 其分类精度 更高. 漏报 率更低 【 关键词 】 变长指令序 列; 粗糙 集属性 约简; 数据挖掘 ; 恶意代码检测
ቤተ መጻሕፍቲ ባይዱ
【 K e y w o r d s ] V a r i b l e - l e n g t h O p c o d e ; R o u g h s e t a t t r i b u t e r e d u c t i o n ; D a t a m i n i n g ; M a l w a r e d e t e c t i o n 0 引 言
随着 计算机 的普及和 I n t e r n e t 的发展 .各种类 型的恶意代码 . 如 木 马、 蠕虫 、 病毒 、 僵尸程 序等出现和传播 的速度与周期 也越来越快 , 根据国家互联 网应急 中心的 7 月底安全周 报显示[ 1 ] . 国内感染恶 意代 码 的主机数量达 到了 6 4 . 9 万. 被篡改 的网站达到 了 5 8 7 5 . 恶意代 码的 防范形式非常 的严峻 传统 的恶意代码检测技术 主要有基于 特征码 的检测 方法与启发 式 的检测方 法 . 基于特征码 的检测 方法过 于依 赖特征库 . 无法检测 出 未知 恶意代 码 : 启发 的检测方法 又过于依赖专 家的经验 . 检测效率低 且容 易误 报 . 因此亟需一种新 的恶意代码检测 技术 . 解决 传统检测技 术 的缺陷 . 基于数据挖掘 的检测 技术属于其 中之一 . 该技 术相对传统 的检测技术而言 , 具有快速 、 智能化的特点 , 无须依赖专家经验并且对 未知恶意代码具有很好 的检测能力 本文在研究 当前基 于数据挖掘 的 恶意代码检测技术基础之上 . 提出了一种基于变长指令序列与粗糙集 属性约简的恶意代码检测技术 法具有很好的检测迷 惑代码 的能力
Ma l wa r e De t e c t i o n Te c hn i q u e s Ba s e o n Va r i a bl e - - Le n g t h Op e o d e S e q u e n c s e a n d Ro u g h Se t At t r i b ut e Re d u c io t n
t e c h n i q ue s b a s e o n v a r i a b l e -l e n g t h Op e o d e s e q u e nc e s a n d r o u g h s e t a t t r i b u t e r e d u c t i o n t h e o r y , u s i n g v a i a b l e — l e n g t h Op c o d e s e q u e n c e s c a n e f f e c t i v e l y s o l v e t h e p r o b l e m o f s e p a r a t i o n f e a t u r e s ,a n d i n o r d e r t o e f f e c t i v e l y r e d u c e t h e s c a l e f o f e a t u r e s ,we o n l y c o n s i d e r t he Op c o d e s e q u e n c e s wh i c h c o mp o s e d o f t h e c o mmo n l y us e d 1 3 i n s t r uc t i o n ,a f t e r wa rd s we us e r o u g h s e t t h e o r y t o r e d u c t i t s ,a t l a s t we g e t t h e f e a t u r e s d i me n s i o n i s v e r y l o w a n d
FENG Be n - hu i
( Hu n a n I n s t i t u t e o f T e c h n o l o g y ,He n g y a n g Hu n a n 4 2 l 0 0 2 , C h i n a )
【 A b s t r a c t ] I n o r d e r t o s o l v e t h e p r o b l e m s o f i n c r e a s e a n d s e p a r a t i o n f e a t u r e s i n i f x e d — l e n g t h O p c o d e s e q u e n c e s , w e p r o p o s e a m a l w a r e d e t e c t i o n
c o n t r a s t t o ix f e d — l e n g t h s e q u e nc e o f i n s t uc r t i o n s ,we g e t t h hi g h e r c l a s s i ic f a t i o n a c c u r a c y ,a n d f a l s e n e g a t i v e r a t e i s l o we r f r o m e x p e r i me n t s u l t i ma te l y .
相关文档
最新文档