数据挖掘 第12章--离群点检测:离群点和离群点分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

可理解性
在许多应用中,用户可能不仅要检测离群点,而且要知道被检测到的点为何是离
群点。 7 8
离群点检测方法
监督方法 半监督方法 无监督方法 统计学方法
基于邻近性方法
基于聚类方法
8
8








示例:“今天的温度为280C。这是一个异常(离群点)吗?”如果是多伦多的
冬天,则这是一个离群点;如果是多伦多的夏天,则这是正常的 一般地,在情境离群点检测中,所考虑数据对象的属性划分为两组:
情境属性:数据对象的情境属性定义对象的情境
行为属性:定义对象的特征,并用来评估对象关于它所处的情境是否是离群点
离群点的类型
Leabharlann Baidu全局离群点(也称点异常)
定义:在给定的数据集中,显著地偏离数据集中的其余对象 为了检测它,关键问题是针对所考虑到应用,找到一个合适的偏离度量
在许多应用中,全局离群点检测都是重要的
全局离群点
4
8
离群点的类型
情境(或条件)离群点
定义:在给定的数据集中,关于对象的特定情境,它显著地偏离其他对象
数据挖掘与商务智能
范勤勤 物流研究中心
第十二章 离群点检测
1
离群点和离群点分析
什么是离群点?
什么是离群点?
假定使用一个给定的统计过程来产生数据对象集,离群点是一个数据对象,它显 著不同于其他数据对象,好像它是被不同的机制产生的一样。
离群点
离群点特点
离群点不同于噪声数据(噪声在数据分析中不是令人感兴趣的)。 离群点是有趣的,因为怀疑产生它们的机制不同于产生其他数据的机制 离群点检测还与演变数据集上的新颖性检测(novelty detection)相关 3 8
全局离群点检测可以看做情境离群点检测到特例,其中情境属性集为空
5
8
离群点的类型
集体离群点
定义:在给定的数据中,这些对象作为整体显著偏离整个数据集 与全局或情境离群点检测不同,在集体离群点检测中,不仅必须考虑个体对象的
行为,而且要考虑对象组群的行为,比如短期内,一小群当事人的股票交易。
集 体 离 群 点
6
8
离群点检测的挑战
正常对象和离群点的有效建模
离群点检测的质量高度依赖于正常(非离群点)对象和离群点的建模
正常数据与异常数据(离群点)之间的边界通常并不清晰
针对应用的离群点检测
离群点检测高度依赖于应用类型,使得不可能开发通用的离群点检测方法
在离群点检测中处理噪声
低质量的数据和噪声的存在给离群点检测带来了巨大的挑战
相关文档
最新文档