离群点挖掘复习过程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Porkess的定义:离群点是远离数据集中其余部分的 数据
离群点的特殊意义和实用价值
现有数据挖掘研究大多集中于发现适用于大部分数据的 常规模式,在许多应用领域中,离群点通常作为噪音而忽 略,许多数据挖掘算法试图降低或消除离群点的影响。而 在有些应用领域识别离群点是许多工作的基础和前提,离 群点会带给我们新的视角。
应用基于统计分布的离群点检测方法依赖于
数据分布 参数分布 (如均值或方差) 期望离群点的数目
(置信度区间)
离群点的概率定义
离群点的概率定义:
离群点是一个对象,关于数据的概率分布模型,它具有 低概率
概率分布模型通过估计用户指定的分布的参数, 由数据创建。
例:如果假定数据具有高斯分布,则基本分布的均值和 标准差可以通过计算数据的均值和标准差来估计,然后 可以估计每个对象在该分布下的概率。
基于统计的离群点检测
基于统计的离群点检测
这类方法大部分是从针对不同分布的离群点检验 方法发展起来的,通常用户使用分布来拟合数据 集。
假定所给定的数据集存在一个分布或概率模型(例如, 正态分布或泊松分布),然后将与模型不一致(即分布不 符合)的数据标识为离群数据。
基于统计的离群点检测
假定用一个参数模型来描述数据的分布 (如正态分 布)
离群点挖掘
什么是离群点(Outlier)?
Hawkins的定义:离群点是在数据集中偏离大部分数 据的数据,使人怀疑这些数据的偏离并非由随机因素 产生,而是产生于完全不同的机制。
Weisberg的定义:离群点是与数据集中其余部分不服 从相同统计模型的数据。
Samuels的定义:离群点是足够地不同于数据集中其 余部分的数据。
(2)全局观点和局部观点
一个对象可能相对于所有对象看上去离群,但它 相对于它的局部近邻不是离群的
例如:身高1.85m对于一般人群是不常见的,但对于职 业篮球运动员不算什么
(3)点的离群程度
某些技术方法是以二元方式来报告对象是否离 群点,即:离群点或正常点
但,这不能反映某些对象比其他对象更加极端偏离的基 本事实
一部住宅电话的话费由每月200元以内增加到数千元可能 就因为被盗打或其它特殊原因所致;
一张信用卡出现明显的高额消费也许是因为是盗用的卡。
离群点与众不同但具有 相对性:
高与矮,疯子与常人。
类似术语: Outlier mining, Exception mining:异常挖掘、 离群挖掘、例外挖掘和稀有 事件挖掘 。
如在欺诈检测中,离群点可能意味欺诈行为的发生,在入 侵检测中离群点可能意味入侵行为的发生。
离群点检测的应用领域
电信、保险、银行中的欺诈检测与风险分析 发现电子商务中的犯罪行为 灾害气象预报 税务局分析不同团体交所得税的记录,发现异常模型和趋
势 海关、民航等安检部门推断哪些人可能有嫌疑 海关报关中的价格隐瞒 营销定制:分析花费较小和较高顾客的消费行为 医学研究中发现医疗方案或药品所产生的异常反应 计算机中的入侵检测 应用异常检测到文本编辑器,可有效减少文字输入的错误 ……
离群点挖掘(Outlier mining)
离群点挖掘问题由两个子问题构成:。 (1)定义在一个数据集中什么数据是不一致或离群的数据; (2)找出所定义的离群点的有效挖掘方法。离群点挖掘问题
可以概括为如何度量数据偏离的程度和有效发现离群点的 问题。
为什么会出现离群点?
测量、输入错误或系统运行错误所致 数据内在特性所决定 客体的异常行为所致
离群点检测方法分类
从使用的主要技术路线角度分类
基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法 基于偏差的方法 基于深度的方法 基于小波变换的方法 基于神经网络的方法…
从类标号(正常或异常)利用的程度分类
无监督的离群点检测方法
在实际情况下,没有提供类标号
有监督的离群点检测方法
正常点的数量远远超过离群点的数量,离群点的数量在大 规模数据集中所占的比例较低,小于5%甚至1%
离群点实例
一个人的年龄为-999就可能是由于程序处理缺省数据设置 默认值所造成的 ;
一个公司的高层管理人员的工资明显高于普通员工的工资 可能成为离群点但却是合理的数据(如平安保险公司2007 年 5位高管税后收入超过了1000万元);
要求存在离群点类和正常类的训练集
半监督的离群点检测方法
训练数据包含被标记的正常数据,但是没有关于离 群点对象的信息
离群点检测中需要处理的问题
(1)用于定义离群点的属性个数
一个对象只有单个属性 一个对象具有多个属性:
可能某个属性异常,某个属性正常 如:对于男生而言,
身高1.6m,体重55kg,这个很正常; 身高1.6m,体重75kg,这个有点离群; 身高1.8m,体重75kg,基本正常。 若对于女生,则三组值可能都不太正常。 所以,定义离群点需要指明如何使用多个属性的值确定一 个对象是否离群?
通过定义对象的离群程度来给对象打分 ,如都为离群 点的情况下,也还有分高和分低的区别。——离群点得 Biblioteka Baidu(outlier score)或离群因子(Outlier Factor)
离群点检测的挑战和前提
挑战:
数据中有多少离群点? 方法应该是无监督的,就像在干草堆中寻找一根针
前提假设
假定数据集中被认为正常的点数远远超过被认为离群的 点数
离群点挖掘中需要处理的几个问题
(1) 全局观点和局部观点
离群点与众不同,但具有相对性。
(2) 点的离群程度
可以通过定义对象的偏离程度来给对象打分——离群因子 (Outlier Factor)或离群值得分(Outlier Score),即都为离群 点的情况下,也还有分高和分低的区别。
(3) 离群点的数量及时效性
由于离群点产生的机制是不确定的,离群点挖掘算法检测 出的“离群点”是否真正对应实际的异常行为,不是由离 群点挖掘算法来说明、解释的,只能由领域专家来解释, 离群点挖掘算法只能为用户提供可疑的数据,以便用户引 起特别的注意并最后确定是否真正的异常。对于异常数据 的处理方式也取决于应用,并由领域专家决策。
相关文档
最新文档