复杂数据的异常检测算法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

vector to
data and
convert
be directly applied
to
these complex data.This paper using the graph kernel method
one
these data and reduce the dimension of them,at last using the
这与图数据本身的特点相关,本文选取的则是上文 提到的图核方法。图2显示了在数据集上不同图核
实验
本实验采用的是Nino Shervashidze等人提出的
3.1数据集和实验设置
的运算速度,由图可以看出本文选取的图核在速度 上的优势非常明显。由于NCll09数据集较大,随 机路径核在此数据集上的运算速度非常慢,图2对 比速度实验中采用一部分数据计算运算速度。
运用到图数据中是现实可行的。

相关工作
20世纪80年代起,异常检测就受到了广大学
者的广泛关注。异常检测目前存在很多挑战,例如
给定数据集时,很难用一个紧密的边界将全部数据
图核的定义是:假设G是图数据集,函数k:G× G_R称为一个图核,通过映射p将原始数据映射 到高维数据空间中去,使得下式成立: .|}(Gl,Gz)=(9(G1),妒(G2)) 目前专家学者们提出了一些图核的方法,大致 分为以下三类:扩散核,卷积核,通路核。其中通路 核中又包含随机路径核,子树核等。 2.2复杂数据的异常检测算法 经过图核处理后的图数据更易用传统的数据分 析方法进行分析,图核通过非线性映射将原始空间 中不可分的问题变得在特征空间中线性可分,数据 被映射到高维空间后可以根据KPCA的思想对数据 进行降维处理,以防存在的冗余特征影响实验结果 或者造成“维数灾难”。针对降维后的数据再利用 单类支持向量机【81进行异常检测模型的建立从而
尤为重要。本文采用图核(graph kernel)的方式对
—◆~①:Q,≯℃ 由
图表不复杂数据
图数据之间的相似性进行定义。图核的本质实际上
就是将核方法运用到了图数据中,核方法在机器学
习与数据挖掘领域中得到了广泛的应用,基于它可 以用在高维特征空间中的优势,并且使得原来适用 于向量型数据的算法也适用于图数据中,因此将其
就是在已知常规数据集的基础上,判断未知样本是 否属于异常,以此检测出数据集中不符合期望行为 的数据…,有时候也被称为新颖性检测【2 J,外边界
展,数据的形式变得多种多样,很多的数据无法只
用向量的形式完全表达,其中的一些数据呈现出结
构化的特征,例如化学分子、社交网络关系、蛋白质 序列等,对这些数据而言图则是一种比向量更好的 表达方式,现实世界中的很多系统都可以用图来对
Weisfeiler—Lehman图核方法¨01,使用的数据集是 MUTAG和NCll09。MUTAG数据集包含188个化
100
150
200
Number of samples
图2不同图核下的运算速度
本文在实验过程中对数据降维到不同的维度下
检验其异常检测效果,图3显示了不同维度下的异
常检测效果。由图可以看出在不同数据集下异常检 测的效果是不同的,实验中抽取NCll09数据集中
Distance)是一种能够度量两图相似性
的方法,但是图编辑距离受代价函数的影响很大, 并且复杂度高,如何定义合理的代价函数以及寻找 代价函数的替代现今仍在继续研究中。本文利用 图核的方法来度量图数据之间的相似性,对数据进
万方数据
目标类样本的间隔最大,超平面(训.6)通过下式求
解获得:


学分子,按照其是否具有诱变性质分为正类和负类, 具有诱变性质的认为是正类,没有诱变性质的认为 是负类。数据集NCI由国际癌症协会(National
Cancer
min÷忪|I 2+c∑邑一b

£=l
Institute)公布,包含有60个数据集,按照其
S.t.们・戈i≥b—手i亭i≥0
是否对人类肿瘤细胞株具有抑制作用分为正类和负 类,有抑制作用的为正类,没有抑制作用的为负类, 本文采用NCll数据集中的500个数据进行实验,实 验过程中采用十倍交叉验证法。
行图核方法预处理后再采用KPCA对数据降维,最 后利用现有的机器学习方法单类支持向量机对数
据进行异常检测模型的建立提出了复杂数据的异
常检测算法。

2.1
复杂数据的异常检测算法
图核
、憎④p愈9z@
甲 9
④2
图I
传统的数据挖掘、机器学习中的大多数算法无 法直接运用于图数据中,主要原因是如何定义两个 图数据之间的相似性比较困难。因此如何建立现有 模式识别、数据挖掘与图数据分析之间的桥梁显得
YE
Qing.ZHANG
Li.1i 100,China)
are
(School of Computer and Information Engineering,Hohm University,Nanjing 21 1
Abstract:With the rapid development of information technology,more and more data
定义图数据之间的距离或者相似性显得比较困难, 因此传统的异常检测算法无法直接运用于这些复 杂的数据中。如何建立图数据与现有的模式识别 与机器学习算法的接口即图数据之间的相似性成 为图数据研究的热点‘7 J,图数据的相似性度量目前 通用的两种方法为图编辑距离和图核,图编辑距离
(Graph
Edit
Baidu Nhomakorabea
阵为K=(J|}(Gi,Gi))。。。,并由KPCA目标函数得出 下式并解特征方程得到降维矩阵。
1三


.,(y)==L∑
¨7

0矿。(妒(石i)一妒‘p))0
I=l
在异常检测领域中,异常数据的产生往往是偶 然的,有时异常情况很少发生,此时就会出现只有一 类样本的情况,原有的SVM这时就不再适用, Scholkopf[91提出了单类支持向量机用于异常检测 中,在训练过程中只用到了常规数据,其原理是假设 原点为唯一的异常点,寻求一个超平面使得原点与 一177—
如基于距离的异常检测算法,基于密度的异常检测 算法,基于深度的异常检测算法等M J,这些异常检 测算法大都是通过对已知的数据进行学习从而建立 相关模型,通过设定的模型及阈值判定样本是否异 常。这些已有的异常检测算法中大都涉及数据之间 距离或者相似性的相关概念,这些概念基本都是基
于向量型数据提出的,由于图数据的复杂性,如何
图3
不同维度下的异常检测效果
类分类器相近的效果,这对于在日常生活中只有一 类目标类样本的时候具有较强的优势。
MUlIAG
NCIl09
3 审《卜


图4实验结果对比

结束语
随着信息技术的飞速发展,复杂数据越来越多,本
and An Application
Pattern Recognition
to
Automatic ChromoSOME
收稿日期:2014—05—27 作者简介:叶青(1987一),女,硕士研究生,研究方向为数据挖掘。
检测口1等。 传统的模式识别、机器学习中的许多算法例如 一176一 万方数据
数据进行表示,图能够较好地显示数据之间内部的 结构关系,并且其表达形式灵活多样,如图1所示为 化学分子用图表示的例子。近年来,基于图数据的 分析得到了越来越多的关注Mj,本文即是针对这些 可以用图表达的复杂数据中的异常问题提出的复杂 数据的异常检测算法。
判定新样本是否属于异常。利用图核方法得到核矩
集包围,尤其对边界线上的数据更是如此,其次所谓 的异常数据和常规数据在某些情况下可能会相互转
化,另外有时候很难将异常与噪声点进行很好的区 分,并且不同领域中对于异常的理解和定义也是不 尽相同的"J。研究人员通过不断地扩充拓展异常 的定义,发展并提出了许多不同的异常检测方法,例
复杂的数据中,因此利用图核的方法先将这些数据进行转化接着降维,再利用单类支持向量机
训练模型提出了复杂数据的异常检测算法,在数据集上的实验结果验证了算法的有效性。 关键词:复杂数据;异常检测;图核;降维;单类支持向量机
中图分类号:TM561 文献标识码:A
Abnomal detection algorithm of complex data
的毒性检测,计算机图像领域的分析检测等。异常
数据的存在会对这些领域带来一定的危害与损失,
相似性或者距离可以利用欧氏距离等计算方法方便
地得出结果。然而随着计算机技术、网络的飞速发
例如在金融领域中异常数据往往会导致经济损失, 严重威胁着人们的财产安全,因此如何检测出数据 中的异常具有重要的意义。所谓异常检测,其目的
2015年摹置期
文章编号:1009—2552(2015)05—0176—04 DOI:10.13274/j.cnki.hdzj.2015.05.047
复杂数据的异常检测算法
叶 青,张丽丽
(河海大学计算机与信息学院,南京211100)
摘要:随着信息技术的快速发展,不同领域产生越来越多的数据,大量的数据形式多种多样, 其中有一些数据用图表示更合适,异常数据会对相关领域造成一定危害,如何检测复杂数据中 的异常有着重要的意义。传统的异常检测算法大都针对向量型数据提出,不能直接运用于这些
3.2实验结果及其分析
其中,埘为法向量,b指的是截距,C为正则化因子。 算法步骤如下所示。 ①利用图核将原始图数据转化为核矩阵的形
式,即得到K=(I|}(Gi,Gi))『v。『v。
②利用KPCA对图核处理后的数据进行降维。 ③利用单类支持向量机对数据进行模型训练,
训练过程中只用一类数据样本。 3
图核的选取原则上没有特殊要求,不同的图核 选取方法对最终的异常检测效果可能会有所差异,
many fields,a large amount of data have multiple forms,many of these data the existence of abnorm',d tend how
to to
can
generated in
be expressed by graph,
异常检测是数据挖掘中一个重要的分支,被广 泛应用于各种领域中,例如商业金融领域中的信用
卡欺诈检测,生物医药学中的疾病检测与化学物质
支持向量机一般只适用于由向量表示的数据,早期
的数据挖掘、模式识别领域中数据往往用特征向量 来表示,例如表示成戈=(X1 m,…,戈。)∈R“的形
式,这种表达形式具有一定的优势,例如数据之间的
Classification[J].
Letters,1997,18(6):525—539.
pattern
[4]Conte
D,Foggia P,et a1.Thirty years of graph matching in of
文利用图的方法对那些需要显示其内部结构关系的数
据进行表示,随后利用图核的方式将图数据转化为核
do some harm
to
their field,it has

great significance for human that
are
detect data anomalies.Many of traditional anomaly detection algorithms
cannot
proposed for
class SVM method
to
training
the data,and then it puts forward anomaly detection algorithm of complex data,the experimental results verify the effectiveness of the"algorithm. Key words:complex data;anomaly detection;graph kernel;dimension reduction;one class SVM
的500个,数据较为复杂,明显可见异常检测的效果
§
得 霉 目
也要明显低于MUTAG,在不同维度下的异常检测效 果也略有不同,总体上来说维度越大异常检测的效 果有一定降低的趋势,这表明降维是有一定的必
要性。
∞钙∞踮舳”加:8∞竹∞钙∞
图4则显示了单类支持向量机在最后的异常检 测效果与实验过程中用到两类数据的最后分类精度 对比,图中显示了在只使用一类训练样本进行异常 检测模型的建立虽然在总体上比使用了两类数据在 最终的结果上效果稍低,但是总体上也能达到与两 一】78一 万方数据
相关文档
最新文档