数据挖掘导论-ch10PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算差值, = Lt(D) – Lt+1 (D) 如果 > c (某些阈值),则xt被声明为异常,并从M永久移动 到A
数据挖掘导论
3/12/2021
‹#›
基于统计的似然方法
数据分布,D = (1 – ) M + A M 是从数据估计的概率分布
– 可以基于任何建模方法(朴素贝叶斯,最大熵等)
考虑通过从k个不同维度中选择网格范围创建的k维 多维数据集
– 如果属性是独立的,我们期望区域包含记录的分数 fk – 如果有N个点,我们可以测量立方体D的稀疏度:
– 负稀疏性表示立方体包含的点数比预期的少
数据挖掘导论
3/12/2021
‹#›
示例
N=100, = 5, f = 1/5 = 0.2, N f2 = 4
数据挖掘 异常检测
第十章 数据挖掘简介
数据挖掘导论
3/12/2021
1
不规则/异常检测
什么是异常/离群值?
– 与其余数据相差很大的数据点集
异常/异常值检测问题的变体
– 给定数据库D,找到具有大于某个阈值t的异常分数的所有数据点x D
– 给定数据库D,找到具有前n个最大异常分数f(x)的所有数据点x D
– 给定包含大部分正常(但未标记)数据点的数据库D和测试点x, 计算x相对于D的异常分数
应用:
– 信用卡欺诈检测,电信欺诈检测,网络入侵检测,故障检测
数据挖掘导论
3/12/2021
‹#›
异常检测的重要性
臭氧消耗历史
1985年,三个研究人员(Farman, Gardinar和Shanklin)对英国南极调 查收集的数据感到困惑,表明南极洲 的臭氧水平比正常水平下降了10%
3/12/2021
‹#›
统计方法的局限性
大多数测试是针对单个属性的 在许多情况下,数据分布可能不是已知的 对于高维数据,可能难以估计真实分布
数据挖掘导论
3/12/2021
‹#›
基于距离的方法
数据表示为特征向量
三大方法
– 基于最近邻 – 基于密度 – 基于集群
数据挖掘导论
3/12/2021
‹#›
最近邻法
方法:
– 计算每对数据点之Hale Waihona Puke Baidu的距离
– 有各种方法来定义异常值:
在距离D内具有少于p个相邻点的数据点
距第k个最近邻的距离最大的前n个数据点
与k个最近邻居的平均距离最大的前n个数据点
数据挖掘导论
3/12/2021
‹#›
低维投影中的离群值
将每个属性划分为个等深度区间
– 每个区间包含记录的分数f = 1/
为什么Nimbus 7卫星(其上有用于记 录臭氧水平的仪器)不记录类似的低 臭氧浓度?
由卫星记录的臭氧浓度如此之低,他 们被计算机程序作为异常值处理并丢 弃!
数据挖掘导论
Sources: http://exploringdata.cqu.edu.au/ozone.html http://www.epa.gov/ozone/science/hole/size.html
数据挖掘导论
3/12/2021
‹#›
基于密度: LOF方法
对于每个点,计算其局部邻域的密度 计算样本p的局部离群值因子(LOF) ,作为样本p的密度与其最 近邻的密度的比率的平均值 异常值是具有最大LOF值的点
p2
p1
数据挖掘导论
在NN方法中, p2不被认为 是异常值,而LOF方法发现
p1和p2都是异常值
最初假设A是均匀分布 在时间t的似然性:
N
Lt(D)
P D(xi)(1)|M t|
P M t(xi)
|At|
PAt(xi)
i1
xi M t
xi At
LtL (D )M t lo1g () loP g M t(xi)At log loP g At(xi)
xi M t
xi At
数据挖掘导论
数据挖掘导论
3/12/2021
‹#›
基于统计的似然方法
假定数据集D包含来自两个概率分布的混合的样本 :
– M (多数分布)
– A (异常分布)
一般方法:
– 最初,假设所有数据点属于M
– 令Lt(D)是D在时间t的对数似然性
– 对于属于M的每个点xt ,将其移动到A
令Lt+1 (D)为新的对数似然。
配置文件可以是总体人口的模式或摘要统计
– 使用“正常”配置文件检测异常
异常是其特征与正常特征明显不同的观察结果
异常检测?方案的类型
– 图形和统计 – 基于距离 – 基于模型
数据挖掘导论
3/12/2021
‹#›
图形方法
箱形图(1-D),散点图(2-D),自旋图(3-D)
缺点
– 耗时的 – 主观
数据挖掘导论
数据挖掘导论
3/12/2021
‹#›
格鲁布斯测试
检测单变量数据中的异常值
假设数据来自正态分布
一次检测一个异常值,删除异常值,然后重复
– H0: 数据中没有异常值 – HA: 至少有一个离群值
Grubbs’ 检验统计量:
拒绝H0如果:
maxX X G
s
G(N1) N
t2 (/N,N2)
N2t2 (/N,N2)
3/12/2021
‹#›
凸体船体法
极值点被假定为异常值 使用凸包方法来检测极值
如果异常值出现在数据的中间怎么办?
数据挖掘导论
3/12/2021
‹#›
统计方法
假设描述数据分布的参数模型(例如,正态分布 )
应用取决于的统计测试
– 数据分布 – 分布参数(例如,平均值,方差) – 预期异常值的数量(置信限制)
3/12/2021
‹#›
异常检测
挑战
– 数据中有多少离群值? – 方法是无人监督的
验证可能相当具有挑战性(就像聚类)
– 在大海里捞针查找
工作假设:
– 与数据中的“异常”观察(异常值/异常)相比,存在 显着更多的“正常”观察结果
数据挖掘导论
3/12/2021
‹#›
异常检测方案
一般步骤
– 构建“正常”行为的配置文件
3/12/2021
‹#›
基于聚类
基本思路:
– 将数据聚集成不同密度的 组
– 在小集群中选择点作为候 选离群值
– 计算候选点和非候选聚类 之间的距离。
如果候选点远离所有其他非 候选点,则它们是离群值
数据挖掘导论
3/12/2021
‹#›
基本利率下跌
贝叶斯定理:
推广:
数据挖掘导论
3/12/2021
‹#›
基本利率下跌(Axelsson, 1999)
数据挖掘导论
3/12/2021
‹#›
基本利率下跌
即使测试是99%肯定,你的疾病的几率是1/100, 因为健康的人口比病人大得多
数据挖掘导论
3/12/2021
‹#›
入侵检测中的基本速率下降
I: 侵入行为 I: 非侵入行为 A: 报警 A: 无报警
数据挖掘导论
3/12/2021
‹#›
基于统计的似然方法
数据分布,D = (1 – ) M + A M 是从数据估计的概率分布
– 可以基于任何建模方法(朴素贝叶斯,最大熵等)
考虑通过从k个不同维度中选择网格范围创建的k维 多维数据集
– 如果属性是独立的,我们期望区域包含记录的分数 fk – 如果有N个点,我们可以测量立方体D的稀疏度:
– 负稀疏性表示立方体包含的点数比预期的少
数据挖掘导论
3/12/2021
‹#›
示例
N=100, = 5, f = 1/5 = 0.2, N f2 = 4
数据挖掘 异常检测
第十章 数据挖掘简介
数据挖掘导论
3/12/2021
1
不规则/异常检测
什么是异常/离群值?
– 与其余数据相差很大的数据点集
异常/异常值检测问题的变体
– 给定数据库D,找到具有大于某个阈值t的异常分数的所有数据点x D
– 给定数据库D,找到具有前n个最大异常分数f(x)的所有数据点x D
– 给定包含大部分正常(但未标记)数据点的数据库D和测试点x, 计算x相对于D的异常分数
应用:
– 信用卡欺诈检测,电信欺诈检测,网络入侵检测,故障检测
数据挖掘导论
3/12/2021
‹#›
异常检测的重要性
臭氧消耗历史
1985年,三个研究人员(Farman, Gardinar和Shanklin)对英国南极调 查收集的数据感到困惑,表明南极洲 的臭氧水平比正常水平下降了10%
3/12/2021
‹#›
统计方法的局限性
大多数测试是针对单个属性的 在许多情况下,数据分布可能不是已知的 对于高维数据,可能难以估计真实分布
数据挖掘导论
3/12/2021
‹#›
基于距离的方法
数据表示为特征向量
三大方法
– 基于最近邻 – 基于密度 – 基于集群
数据挖掘导论
3/12/2021
‹#›
最近邻法
方法:
– 计算每对数据点之Hale Waihona Puke Baidu的距离
– 有各种方法来定义异常值:
在距离D内具有少于p个相邻点的数据点
距第k个最近邻的距离最大的前n个数据点
与k个最近邻居的平均距离最大的前n个数据点
数据挖掘导论
3/12/2021
‹#›
低维投影中的离群值
将每个属性划分为个等深度区间
– 每个区间包含记录的分数f = 1/
为什么Nimbus 7卫星(其上有用于记 录臭氧水平的仪器)不记录类似的低 臭氧浓度?
由卫星记录的臭氧浓度如此之低,他 们被计算机程序作为异常值处理并丢 弃!
数据挖掘导论
Sources: http://exploringdata.cqu.edu.au/ozone.html http://www.epa.gov/ozone/science/hole/size.html
数据挖掘导论
3/12/2021
‹#›
基于密度: LOF方法
对于每个点,计算其局部邻域的密度 计算样本p的局部离群值因子(LOF) ,作为样本p的密度与其最 近邻的密度的比率的平均值 异常值是具有最大LOF值的点
p2
p1
数据挖掘导论
在NN方法中, p2不被认为 是异常值,而LOF方法发现
p1和p2都是异常值
最初假设A是均匀分布 在时间t的似然性:
N
Lt(D)
P D(xi)(1)|M t|
P M t(xi)
|At|
PAt(xi)
i1
xi M t
xi At
LtL (D )M t lo1g () loP g M t(xi)At log loP g At(xi)
xi M t
xi At
数据挖掘导论
数据挖掘导论
3/12/2021
‹#›
基于统计的似然方法
假定数据集D包含来自两个概率分布的混合的样本 :
– M (多数分布)
– A (异常分布)
一般方法:
– 最初,假设所有数据点属于M
– 令Lt(D)是D在时间t的对数似然性
– 对于属于M的每个点xt ,将其移动到A
令Lt+1 (D)为新的对数似然。
配置文件可以是总体人口的模式或摘要统计
– 使用“正常”配置文件检测异常
异常是其特征与正常特征明显不同的观察结果
异常检测?方案的类型
– 图形和统计 – 基于距离 – 基于模型
数据挖掘导论
3/12/2021
‹#›
图形方法
箱形图(1-D),散点图(2-D),自旋图(3-D)
缺点
– 耗时的 – 主观
数据挖掘导论
数据挖掘导论
3/12/2021
‹#›
格鲁布斯测试
检测单变量数据中的异常值
假设数据来自正态分布
一次检测一个异常值,删除异常值,然后重复
– H0: 数据中没有异常值 – HA: 至少有一个离群值
Grubbs’ 检验统计量:
拒绝H0如果:
maxX X G
s
G(N1) N
t2 (/N,N2)
N2t2 (/N,N2)
3/12/2021
‹#›
凸体船体法
极值点被假定为异常值 使用凸包方法来检测极值
如果异常值出现在数据的中间怎么办?
数据挖掘导论
3/12/2021
‹#›
统计方法
假设描述数据分布的参数模型(例如,正态分布 )
应用取决于的统计测试
– 数据分布 – 分布参数(例如,平均值,方差) – 预期异常值的数量(置信限制)
3/12/2021
‹#›
异常检测
挑战
– 数据中有多少离群值? – 方法是无人监督的
验证可能相当具有挑战性(就像聚类)
– 在大海里捞针查找
工作假设:
– 与数据中的“异常”观察(异常值/异常)相比,存在 显着更多的“正常”观察结果
数据挖掘导论
3/12/2021
‹#›
异常检测方案
一般步骤
– 构建“正常”行为的配置文件
3/12/2021
‹#›
基于聚类
基本思路:
– 将数据聚集成不同密度的 组
– 在小集群中选择点作为候 选离群值
– 计算候选点和非候选聚类 之间的距离。
如果候选点远离所有其他非 候选点,则它们是离群值
数据挖掘导论
3/12/2021
‹#›
基本利率下跌
贝叶斯定理:
推广:
数据挖掘导论
3/12/2021
‹#›
基本利率下跌(Axelsson, 1999)
数据挖掘导论
3/12/2021
‹#›
基本利率下跌
即使测试是99%肯定,你的疾病的几率是1/100, 因为健康的人口比病人大得多
数据挖掘导论
3/12/2021
‹#›
入侵检测中的基本速率下降
I: 侵入行为 I: 非侵入行为 A: 报警 A: 无报警