异常检测及应用案例

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（variable deviation index，VDI），用来衡量该属性到底作出了多大的贡献使得该样本成为了一个异常样本。然后对每个异常样本，将所有属性按照VDI的大小降序排序，VDI最大的那几个属性及其取值被认为是该样本成为异常样本的重要原因。
建模阶段
数据集的格式化缺失值的处理（可选步骤）创建“缺失值比例”变量（可选步骤）聚类划分（核心步骤，用Twostep聚类算法）生成并存储各种统计量
数据流
编辑数据源节点
异常挖掘的基本设置
异常挖掘的高级设置
模型详细信息
模型的汇总信息
设置模型以控制输出结果
异常检测结果
生成的选择节点
输出所有异常记录
谢谢
2014/2/19
异常数据的考量
位置关系
异常数据的考量
函数关系
异常数据的考量
规则关系
具有同一规则关系的正常数据一般会使该规则的
结论成立，而如果某个数据具有该规则关系但不能是规则的结论成立，那么它就是异常数据。规 A1 & A2 ... & An C 则的一般形式为：
序列关系
序列关系是指数据集中的某些数据满足某种序列
模式，而那些在相同条件下不满足序列模式的数据就是异常数据。
异常挖掘方法
基于统计的方法基于距离的方法基于密度的方法基于偏离的方法基于聚类的方法
异常检测算法
结合“基于距离”和“基于聚类”的方法
应用TwoStep聚类算法对数据集进行聚类分
析将数据集划分为若干个聚类（或称“对等组” 对每一个样本，计算与其最近的聚类的距离，并根据距离的大小计算出一个“异常指数”，来说明这个样本到底有多么“异常”。用户可以通过设定异常指数的阈值，将那些大于阈值的样本选择出来作为异常数据。
GDI s AnomalyIndex mean(GDI h )
指数值大于2 的观测值有可能是异常观测值，因为该偏差至少是平均值的两倍。
变量贡献率
变量贡献率用来衡量一个属性对于一个样本异常程度的影响程度。
一个属性的变量贡献率越大，表示该属性使得样
本趋于异常的影响力也越大。对于一个异常指数比较大的样本，我们可以通过变量贡献率，来分析到底是哪些属性的取值使得该样本成为了一个异常样本。
VDI k VCM k GDI s
推理阶段
确定异常样本
根据异常分割点Cutpointanomaly来将样本划分
为异常或者非异常的样本。
异常的原因分析
对每一个异常样本，将它的所有属性按照
VDIk的值降序排列。前kanomaly个属性的属性名、属性值等被列出，作为其异常的原因。这里，kanomaly的值由用户预先设定。
变量偏差指数VDIk的计算方法当属性变量Xk是一个连续属性时
1 2 2 ˆ hk ˆ d k (h, s) [ N h log( k ) log( k ) ( N h 1) log( k h , s k )] 2
当属性变量Xk是一个离散属性时
在Clementine中应用异常检测
识别申请农业发展财政补贴的欺诈行为。训练数据集存放在文件grantfraudN.db中。包括10个字段（样本ID、申请人姓名、地区、田地大小、降雨量、田地质量、田地收入、主要农作物、申请类型、申请金额），共300个样本。从中筛选出10个最异常的样本
GDI d (h, 源自文库)
其中， K
A
K A K B k 1
d
k
(h, s)
是样本的连续属性的个数，是样本的离散属性的个数。
K
B
计算异常指数和变量贡献
一个样本s的异常指数，用来衡量该样本与其所在聚类h（包含样本s）中的其它样本相比，到底有多么的异常。它是样本s的GDI除以聚类h中所有样本的平均 GDI所得的比值：
算法分为三个步骤
建模（modeling）
用聚类算法对样本进行划分；
打分（scoring）
对每一个样本，计算它与其所在聚类的距离，从而计算出它
的异常指数。然后将所有样本根据异常指数的大小降序排列。最后，异常指数最大的一部分样本被确定为异常样本。
推理（reasoning）
对每一个异常样本，计算它的每一个属性的“变量偏离指数”
异常检测及其应用案例
杨文川 2014.2
异常检测
异常数据挖掘，又称为离群点分析或者孤立点挖掘。在人们对数据进行分析处理的过程中，经常会遇到少量这样的数据，它们与数据的一般模式不一致，或者说与大多数样本相比有些异常。我们把这种数据称为异常数据（outlier data）。 Hawkins的定义是，“异常就是在数据采集中与众不同的数据，使人怀疑这些数据并非随机偏差，而是产生于完全不同的机制”。
打分阶段
组偏差指数GDI
给定一个样本s，以及与其最近的聚类h，样
本s的组偏差指数GDI其实就是s与h的对数似然距离d(h,s)，用来衡量样本s与聚类h的相似程度，距离越大，表示相似度越小，反之则相似度越大。 d(h,s)是由样本的每一个属性值Xk与聚类质心相应的属性值之间的距离分量dk(h,s)累加而成的。 dk(h,s)就称为变量Xk的变量偏差指数VDIk
ˆ ( N 1) E ˆ d k (h, s) N h E hk h h, s k
Lk
N h, s kl N h, s kl ˆ 其中，E log( )] h , s k [ Nh 1 l 1 N h 1
样本的组偏差指数GDI
计算了所有属性变量的偏差指数{VDIk, k = 1, …, K+1}之后，即可计算出样本的组偏差指数GDI：