异常检测及应用案例
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(variable deviation index,VDI),用来衡量该属性到底作出 了多大的贡献使得该样本成为了一个异常样本。然后对每个 异常样本,将所有属性按照VDI的大小降序排序,VDI最大的 那几个属性及其取值被认为是该样本成为异常样本的重要原 因。
建模阶段
数据集的格式化 缺失值的处理(可选步骤) 创建“缺失值比例”变量(可选步骤) 聚类划分(核心步骤,用Twostep聚类算 法) 生成并存储各种统计量
数据流
编辑数据源节点
异常挖掘的基本设置
异常挖掘的高级设置
模型 详细 信息
模型的汇总信息
设置模型以控制输出结果
异常检测结果
生成的选择节点
输出所有异常记录
谢 谢
2014/2/19
异常数据的考量
位置关系
异常数据的考量
函数关系
异常数据的考量
规则关系
具有同一规则关系的正常数据一般会使该规则的
结论成立,而如果某个数据具有该规则关系但不 能是规则的结论成立,那么它就是异常数据。规 A1 & A2 ... & An C 则的一般形式为:
序列关系
序列关系是指数据集中的某些数据满足某种序列
模式,而那些在相同条件下不满足序列模式的数 据就是异常数据。
异常挖掘方法
基于统计的方法 基于距离的方法 基于密度的方法 基于偏离的方法 基于聚类的方法
异常检测算法
结合“基于距离”和“基于聚类”的方 法
应用TwoStep聚类算法对数据集进行聚类分
析将数据集划分为若干个聚类(或称“对等 组” 对每一个样本,计算与其最近的聚类的距离, 并根据距离的大小计算出一个“异常指数”, 来说明这个样本到底有多么“异常”。 用户可以通过设定异常指数的阈值,将那些 大于阈值的样本选择出来作为异常数据。
GDI s AnomalyIndex mean(GDI h )
指数值大于2 的观测值有可能是异常观测值 ,因为该偏差至少是平均值的两倍。
变量贡献率
变量贡献率用来衡量一个属性对于一个样本 异常程度的影响程度。
一个属性的变量贡献率越大,表示该属性使得样
本趋于异常的影响力也越大。 对于一个异常指数比较大的样本,我们可以通过 变量贡献率,来分析到底是哪些属性的取值使得 该样本成为了一个异常样本。
VDI k VCM k GDI s
推理阶段
确定异常样本
根据异常分割点Cutpointanomaly来将样本划分
为异常或者非异常的样本。
异常的原因分析
对每一个异常样本,将它的所有属性按照
VDIk的值降序排列。前kanomaly个属性的属性 名、属性值等被列出,作为其异常的原因。 这里,kanomaly的值由用户预先设定。
变量偏差指数VDIk的计算方法 当属性变量Xk是一个连续属性时
1 2 2 ˆ hk ˆ d k (h, s) [ N h log( k ) log( k ) ( N h 1) log( k h , s k )] 2
当属性变量Xk是一个离散属性时
在Clementine中应用异常检测
识别申请农业发展财政补贴的欺诈行为。 训练数据集存放在文件grantfraudN.db中 。 包括10个字段(样本ID、申请人姓名、 地区、田地大小、降雨量、田地质量、 田地收入、主要农作物、申请类型、申 请金额),共300个样本。 从中筛选出10个最异常的样本
GDI d (h, 源自文库)
其中, K
A
K A K B k 1
d
k
(h, s)
是样本的连续属性的个数, 是样本的离散属性的个数。
K
B
计算异常指数和变量贡献
一个样本s的异常指数,用来衡量该样本 与其所在聚类h(包含样本s)中的其它 样本相比,到底有多么的异常。它是样 本s的GDI除以聚类h中所有样本的平均 GDI所得的比值:
算法分为三个步骤
建模(modeling)
用聚类算法对样本进行划分;
打分(scoring)
对每一个样本,计算它与其所在聚类的距离,从而计算出它
的异常指数。然后将所有样本根据异常指数的大小降序排列。 最后,异常指数最大的一部分样本被确定为异常样本。
推理(reasoning)
对每一个异常样本,计算它的每一个属性的“变量偏离指数”
异常检测及其应用案例
杨文川 2014.2
异常检测
异常数据挖掘,又称为离群点分析或者孤立点 挖掘。 在人们对数据进行分析处理的过程中,经常会 遇到少量这样的数据,它们与数据的一般模式 不一致,或者说与大多数样本相比有些异常。 我们把这种数据称为异常数据(outlier data)。 Hawkins的定义是,“异常就是在数据采集中与 众不同的数据,使人怀疑这些数据并非随机偏 差,而是产生于完全不同的机制”。
打分阶段
组偏差指数GDI
给定一个样本s,以及与其最近的聚类h,样
本s的组偏差指数GDI其实就是s与h的对数似 然距离d(h,s),用来衡量样本s与聚类h的相似 程度,距离越大,表示相似度越小,反之则 相似度越大。 d(h,s)是由样本的每一个属性值Xk与聚类质心 相应的属性值之间的距离分量dk(h,s)累加而成 的。 dk(h,s)就称为变量Xk的变量偏差指数VDIk
ˆ ( N 1) E ˆ d k (h, s) N h E hk h h, s k
Lk
N h, s kl N h, s kl ˆ 其中,E log( )] h , s k [ Nh 1 l 1 N h 1
样本的组偏差指数GDI
计算了所有属性变量的偏差指数{VDIk, k = 1, …, K+1}之后,即可计算出样本的组 偏差指数GDI: