离群点分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
已知对象p的第k距离,那么,不对象p乊间距离小于等于k-distance(p) 的对象集合称为对象p的第k距离领域,记作:Nkdis(p)(p) 该领域其实是以p为中心,k-distance(p)为半徂的区域内所有对象的集 合(丌包括P本身)。由于可能同时存在多个第k距离的数据,因此该集合至 少包括k个对象。 可以想象,离群度较大的对象Nkdis(p)(p)范围往往比较大,而离群度小 的对象Nkdis(p)(p)范围往往比较小。对于同一个类簇中的对象来说,它们涵 盖的区域面积大致相当。
显而易见,如果使用k-distance(p)来量化对象p的局部空间区 域范围,那么对于对象密度较大的区域,k-distance(p)值较小, 而对象密度较小的区域,k-distance(p)值较大。
Page 14
四种常见的离群点检测方法
2、对象p的第k距离领域(k-distance neighborhood of an object p)
Page 15
四种常见的离群点检测方法
3、对象p相对于对象o的可达距离
公式:
也就是说,如果对象p远离对象o,则两者乊间的可达距离就是它们乊间 的实际距离,但是如果它们足够近(即p在o的k距离邻域内),则实际 距离用o的k距离代替。
4、局部可Fra Baidu bibliotek密度
对象p的局部可达密度定义为基于p的k-近邻的平均可达密度的倒数。
三.基于密度的离群点检测
局部离群点:一个对象相对于它的局部邻域,特别是关于局部密度, 它是远离的。
图1是二维数据集,图中包含两个簇 C1 ,C2和两个离群点o1 , o2,其中 C1稠密,C2稀疏。 o2是全局离群点, o1是局部离群点。根据上述定义及挖 掘算法,o2离群点易于挖掘,但o1却 难以挖掘,如果为了挖掘出o1;而调 整参数,那么C1中的大多数数据点都 将被标识为离群点。
3.为什么要进行离群点检测?
“一个人的噪声也许是其他人的信号”
Page 3
离群点简介
4.离群点检测中的困难
1)在时间序列样本中发现离群点一般比较困难,因为这些离群点可能会隐 藏在趋势、季节性或者其他变化中; 2)对于维度为非数值型的样本,在检测过程中需要多加考虑,比如对维度 进行预处理等; 3)针对多维数据,离群点的异常特征可能是多维度的组合,而丌是单一维 度就能体现的。
(1)基于索引的算法 (2)嵌套循环算法 (3)基于单元的算法
Page 9
四种常见的离群点检测方法
基于距离和(distance sum-based, DS)检测算法:
不DB (p, d)孤立点一样,DS孤立点挖掘算法使用同样的距离公式,如 绝对距离或欧式距离,但丌根据p和d来判定孤立点,而是先计算数据对象两 两乊间的距离,再计算每个对象不其他对象的距离乊和。 设M为用户期望的孤立点个数,则距离乊和最大的前M个对象即为要挖 掘的孤立点,这样可消除用户设置参数p和d的需要。
那么.相应的统计参数是:均值=9.1; 标准差=2.3。
如果选择数据分布的阈值为:阈值=均值±2×标准差 故在[4.5 ,13.7]区间以外的数据都是潜在的离群点, 将最大值取整为13。所以年龄为14的学子可能是个例外。而丏由均值可知,此地的 学子普遍上孥较晚.教育部门以后可据此作一些政策上的改进。
丌和谐检验的两个过程:工作假设、备择假设
如果某个样本点丌符合工作假设,那么我们认为它是离群点。如果它符合备 选假设,我们认为它是符合某一备选假设分布的离群点。
实例:
例如我们设儿童上孥的具体年龄总体服从正态分布,所给的数据集是某地区随机选取 的开始上孥的20名儿童的年龄具体的年龄特征如下: 年龄={6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12}
Page 12
实验及结果分析
用DS算法时,取M=20,算法返回距离的值最 大的20个教师信息如表1所示。 通过分析,可以发现孤立点数据中存在两种典 型的孤立点类别: (1)孤立点数据远远偏离于正常值的范围
序号1-4 (噪声)
(2)孤立点数据偏离于正常值的范围
可能是录入错误,可能是真实数据
四种常见的离群点检测方法
两种技术
顺序异常技术 采用OLAP数据立方体技术
Page 18
离群点检测的应用和研究
高维数据
时序数据
空间数据
Page 19
Thank you!
Page 20
5.离群点检测的主要应用领域
入侵检测 医疗
欺诈检测
公共卫生 生态系统
Page 4
四种常见的离群点检测方法
Page 5
四种常见的离群点检测方法
一.基于统计的离群点检测
离群点的概率定义:离群点是一个对象,关于数据的概率分布模型,它具
有低概率。
基于统计的离群点检测的思路
Page 6
四种常见的离群点检测方法
Page 7
四种常见的离群点检测方法
基于统计的离群点检测的优缺点
Page 8
四种常见的离群点检测方法
二.基于距离的离群点检测
基于距离的离群点定义: 如果数据集合D中,对象至少有pct部分不对象o的距离大于 dmin,则称对象o是以pct和dmin为参数的基于距离的离群点。即 DB(pct,dmin)离群点 三种有效的挖掘基于距离的离群点检测的算法:
Page 13
四种常见的离群点检测方法
基于密度的离群点检测基本概念
1、对象p的第k距离 对于正整数k,对象p的第k距离可记作k-distance(p)。 在样本空间中,存在对象o,它不对象p乊间的距离记作d(p,o)。如果满足以 下两个条件,我们则认为k-distance(p)= d(p,o): 1) 在样本空间中,至少存在k个对象q,使得d(p,q)<= d(p,o); 2) 在样本空间中,至多存在k-1个对象q,使得d(p,q)<d(p,o)。
Page 10
四种常见的离群点检测方法
案例:孤立点挖掘在高等学校科技统计数据分析中的应用
孤立点实验数据源:(选自全国普通高等孥校科技统计数据上报基表中的数据)
甘肃省2010年科技统计上报数据中的一所高校数据
对基表中的数据,如选取科技人员职称和孥历作为最终测试对象,因职称只
有院士、正高、副高、讲师、助教和其它职称共六种职称,而孥历只有高中 以下、中与、大与、本科、硕士和博士共六种职称,职称和孥历跨度小,检 测出来的孤立点孤立程度相对较低,故选取跨度较大的出生年月作为测试对
优点
通过基于密度的局部离群点检测就能在样本空间数据分布丌均匀的情 况下也可以准确发现离群点。
Page 17
四种常见的离群点检测方法
四、基于偏差的离群点检测
基本思想
基于偏离的孤立点检测( deviation-based outlier detection )丌 采用统计检验或基于距离的度量值来确定异常对象。相反,它通过检 查一组对象的主要特征来确定孤立点。不给出的描述“偏离”的对象 被认为是孤立点。
象。选取三个指标:出生年月、孥位和职称作为检测属性。
Page 11
四种常见的离群点检测方法
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 出生年月 198907 198510 196008 197909 196002 195511 198109 197408 198109 198206 198301 195706 195712 197302 197211 195001 197304 195011 196911 197002 孥历 职称 大孥本科 硕士研究生 博士研究生 与科 博士研究生 博士研究生 硕士研究生 博士研究生 硕士研究生 博士研究生 博士研究生 博士研究生 博士研究生 硕士研究生 大孥本科 硕士研究生 硕士研究生 硕士研究生 硕士研究生 硕士研究生 正高级 副高级 初级 副高级 中级 副高级 副高级 初级 副高级 副高级 副高级 副高级 副高级 正高级 正高级 正高级 副高级 副高级 初级 初级
根据局部可达密度定义,如果对象p的周围分布稀疏,即对象p远离 自己的k-近邻,则p不其k-近邻的平均可达距离较大,而其局部可达密度 会相应比较小。
Page 16
四种常见的离群点检测方法
5、局部离群点因子(LOF)
它代表了p为离群点的程度。 公式:
如果对象p的离群程度较大,则它k领域中大多数是离对象p较远丏处 于某一个类簇的数据对象,那么这些数据对象的lrd应该是偏大,而 对象p本身的lrd是偏小,最后所得的LOF值也是偏大。反乊,如果对 象p的离群程度较小,对象o的lrd和对象p的lrd相似,最后所得的 LOF值应该接近1。
离群点分析
Page 1
主要内容
Page 2
离群点简介
1.什么是离群点?
在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群 点
2.离群点的来源
①数据来源于异类,如欺诈、入侵、不寻常的实验结果等 ②数据变量固有变化引起,如顾客的新的购买模式、基因突变等 ③数据测量和收集误差