离群点挖掘复习过程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Porkess的定义:离群点是远离数据集中其余部分的 数据
离群点的特殊意义和实用价值
现有数据挖掘研究大多集中于发现适用于大部分数据的 常规模式,在许多应用领域中,离群点通常作为噪音而忽 略,许多数据挖掘算法试图降低或消除离群点的影响。而 在有些应用领域识别离群点是许多工作的基础和前提,离 群点会带给我们新的视角。
应用基于统计分布的离群点检测方法依赖于
数据分布 参数分布 (如均值或方差) 期望离群点的数目
(置信度区间)
离群点的概率定义
离群点的概率定义:
离群点是一个对象,关于数据的概率分布模型,它具有 低概率
概率分布模型通过估计用户指定的分布的参数, 由数据创建。
例:如果假定数据具有高斯分布,则基本分布的均值和 标准差可以通过计算数据的均值和标准差来估计,然后 可以估计每个对象在该分布下的概率。
基于统计的离群点检测
基于统计的离群点检测
这类方法大部分是从针对不同分布的离群点检验 方法发展起来的,通常用户使用分布来拟合数据 集。
假定所给定的数据集存在一个分布或概率模型(例如, 正态分布或泊松分布),然后将与模型不一致(即分布不 符合)的数据标识为离群数据。
基于统计的离群点检测
假定用一个参数模型来描述数据的分布 (如正态分 布)
离群点挖掘
什么是离群点(Outlier)?
Hawkins的定义:离群点是在数据集中偏离大部分数 据的数据,使人怀疑这些数据的偏离并非由随机因素 产生,而是产生于完全不同的机制。
Weisberg的定义:离群点是与数据集中其余部分不服 从相同统计模型的数据。
Samuels的定义:离群点是足够地不同于数据集中其 余部分的数据。
(2)全局观点和局部观点
一个对象可能相对于所有对象看上去离群,但它 相对于它的局部近邻不是离群的
例如:身高1.85m对于一般人群是不常见的,但对于职 业篮球运动员不算什么
(3)点的离群程度
某些技术方法是以二元方式来报告对象是否离 群点,即:离群点或正常点
但,这不能反映某些对象比其他对象更加极端偏离的基 本事实
一部住宅电话的话费由每月200元以内增加到数千元可能 就因为被盗打或其它特殊原因所致;
一张信用卡出现明显的高额消费也许是因为是盗用的卡。
离群点与众不同但具有 相对性:
高与矮,疯子与常人。
类似术语: Outlier mining, Exception mining:异常挖掘、 离群挖掘、例外挖掘和稀有 事件挖掘 。
如在欺诈检测中,离群点可能意味欺诈行为的发生,在入 侵检测中离群点可能意味入侵行为的发生。
离群点检测的应用领域
电信、保险、银行中的欺诈检测与风险分析 发现电子商务中的犯罪行为 灾害气象预报 税务局分析不同团体交所得税的记录,发现异常模型和趋
势 海关、民航等安检部门推断哪些人可能有嫌疑 海关报关中的价格隐瞒 营销定制:分析花费较小和较高顾客的消费行为 医学研究中发现医疗方案或药品所产生的异常反应 计算机中的入侵检测 应用异常检测到文本编辑器,可有效减少文字输入的错误 ……
离群点挖掘(Outlier mining)
离群点挖掘问题由两个子问题构成:。 (1)定义在一个数据集中什么数据是不一致或离群的数据; (2)找出所定义的离群点的有效挖掘方法。离群点挖掘问题
可以概括为如何度量数据偏离的程度和有效发现离群点的 问题。
为什么会出现离群点?
测量、输入错误或系统运行错误所致 数据内在特性所决定 客体的异常行为所致
离群点检测方法分类
从使用的主要技术路线角度分类
基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法 基于偏差的方法 基于深度的方法 基于小波变换的方法 基于神经网络的方法…
从类标号(正常或异常)利用的程度分类
无监督的离群点检测方法
在实际情况下,没有提供类标号
有监督的离群点检测方法
正常点的数量远远超过离群点的数量,离群点的数量在大 规模数据集中所占的比例较低,小于5%甚至1%
离群点实例
一个人的年龄为-999就可能是由于程序处理缺省数据设置 默认值所造成的 ;
一个公司的高层管理人员的工资明显高于普通员工的工资 可能成为离群点但却是合理的数据(如平安保险公司2007 年 5位高管税后收入超过了1000万元);
要求存在离群点类和正常类的训练集
半监督的离群点检测方法
训练数据包含被标记的正常数据,但是没有关于离 群点对象的信息
离群点检测中需要处理的问题
(1)用于定义离群点的属性个数
一个对象只有单个属性 一个对象具有多个属性:
可能某个属性异常,某个属性正常 如:对于男生而言,
身高1.6m,体重55kg,这个很正常; 身高1.6m,体重75kg,这个有点离群; 身高1.8m,体重75kg,基本正常。 若对于女生,则三组值可能都不太正常。 所以,定义离群点需要指明如何使用多个属性的值确定一 个对象是否离群?
通过定义对象的离群程度来给对象打分 ,如都为离群 点的情况下,也还有分高和分低的区别。——离群点得 Biblioteka Baidu(outlier score)或离群因子(Outlier Factor)
离群点检测的挑战和前提
挑战:
数据中有多少离群点? 方法应该是无监督的,就像在干草堆中寻找一根针
前提假设
假定数据集中被认为正常的点数远远超过被认为离群的 点数
离群点挖掘中需要处理的几个问题
(1) 全局观点和局部观点
离群点与众不同,但具有相对性。
(2) 点的离群程度
可以通过定义对象的偏离程度来给对象打分——离群因子 (Outlier Factor)或离群值得分(Outlier Score),即都为离群 点的情况下,也还有分高和分低的区别。
(3) 离群点的数量及时效性
由于离群点产生的机制是不确定的,离群点挖掘算法检测 出的“离群点”是否真正对应实际的异常行为,不是由离 群点挖掘算法来说明、解释的,只能由领域专家来解释, 离群点挖掘算法只能为用户提供可疑的数据,以便用户引 起特别的注意并最后确定是否真正的异常。对于异常数据 的处理方式也取决于应用,并由领域专家决策。
离群点的特殊意义和实用价值
现有数据挖掘研究大多集中于发现适用于大部分数据的 常规模式,在许多应用领域中,离群点通常作为噪音而忽 略,许多数据挖掘算法试图降低或消除离群点的影响。而 在有些应用领域识别离群点是许多工作的基础和前提,离 群点会带给我们新的视角。
应用基于统计分布的离群点检测方法依赖于
数据分布 参数分布 (如均值或方差) 期望离群点的数目
(置信度区间)
离群点的概率定义
离群点的概率定义:
离群点是一个对象,关于数据的概率分布模型,它具有 低概率
概率分布模型通过估计用户指定的分布的参数, 由数据创建。
例:如果假定数据具有高斯分布,则基本分布的均值和 标准差可以通过计算数据的均值和标准差来估计,然后 可以估计每个对象在该分布下的概率。
基于统计的离群点检测
基于统计的离群点检测
这类方法大部分是从针对不同分布的离群点检验 方法发展起来的,通常用户使用分布来拟合数据 集。
假定所给定的数据集存在一个分布或概率模型(例如, 正态分布或泊松分布),然后将与模型不一致(即分布不 符合)的数据标识为离群数据。
基于统计的离群点检测
假定用一个参数模型来描述数据的分布 (如正态分 布)
离群点挖掘
什么是离群点(Outlier)?
Hawkins的定义:离群点是在数据集中偏离大部分数 据的数据,使人怀疑这些数据的偏离并非由随机因素 产生,而是产生于完全不同的机制。
Weisberg的定义:离群点是与数据集中其余部分不服 从相同统计模型的数据。
Samuels的定义:离群点是足够地不同于数据集中其 余部分的数据。
(2)全局观点和局部观点
一个对象可能相对于所有对象看上去离群,但它 相对于它的局部近邻不是离群的
例如:身高1.85m对于一般人群是不常见的,但对于职 业篮球运动员不算什么
(3)点的离群程度
某些技术方法是以二元方式来报告对象是否离 群点,即:离群点或正常点
但,这不能反映某些对象比其他对象更加极端偏离的基 本事实
一部住宅电话的话费由每月200元以内增加到数千元可能 就因为被盗打或其它特殊原因所致;
一张信用卡出现明显的高额消费也许是因为是盗用的卡。
离群点与众不同但具有 相对性:
高与矮,疯子与常人。
类似术语: Outlier mining, Exception mining:异常挖掘、 离群挖掘、例外挖掘和稀有 事件挖掘 。
如在欺诈检测中,离群点可能意味欺诈行为的发生,在入 侵检测中离群点可能意味入侵行为的发生。
离群点检测的应用领域
电信、保险、银行中的欺诈检测与风险分析 发现电子商务中的犯罪行为 灾害气象预报 税务局分析不同团体交所得税的记录,发现异常模型和趋
势 海关、民航等安检部门推断哪些人可能有嫌疑 海关报关中的价格隐瞒 营销定制:分析花费较小和较高顾客的消费行为 医学研究中发现医疗方案或药品所产生的异常反应 计算机中的入侵检测 应用异常检测到文本编辑器,可有效减少文字输入的错误 ……
离群点挖掘(Outlier mining)
离群点挖掘问题由两个子问题构成:。 (1)定义在一个数据集中什么数据是不一致或离群的数据; (2)找出所定义的离群点的有效挖掘方法。离群点挖掘问题
可以概括为如何度量数据偏离的程度和有效发现离群点的 问题。
为什么会出现离群点?
测量、输入错误或系统运行错误所致 数据内在特性所决定 客体的异常行为所致
离群点检测方法分类
从使用的主要技术路线角度分类
基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法 基于偏差的方法 基于深度的方法 基于小波变换的方法 基于神经网络的方法…
从类标号(正常或异常)利用的程度分类
无监督的离群点检测方法
在实际情况下,没有提供类标号
有监督的离群点检测方法
正常点的数量远远超过离群点的数量,离群点的数量在大 规模数据集中所占的比例较低,小于5%甚至1%
离群点实例
一个人的年龄为-999就可能是由于程序处理缺省数据设置 默认值所造成的 ;
一个公司的高层管理人员的工资明显高于普通员工的工资 可能成为离群点但却是合理的数据(如平安保险公司2007 年 5位高管税后收入超过了1000万元);
要求存在离群点类和正常类的训练集
半监督的离群点检测方法
训练数据包含被标记的正常数据,但是没有关于离 群点对象的信息
离群点检测中需要处理的问题
(1)用于定义离群点的属性个数
一个对象只有单个属性 一个对象具有多个属性:
可能某个属性异常,某个属性正常 如:对于男生而言,
身高1.6m,体重55kg,这个很正常; 身高1.6m,体重75kg,这个有点离群; 身高1.8m,体重75kg,基本正常。 若对于女生,则三组值可能都不太正常。 所以,定义离群点需要指明如何使用多个属性的值确定一 个对象是否离群?
通过定义对象的离群程度来给对象打分 ,如都为离群 点的情况下,也还有分高和分低的区别。——离群点得 Biblioteka Baidu(outlier score)或离群因子(Outlier Factor)
离群点检测的挑战和前提
挑战:
数据中有多少离群点? 方法应该是无监督的,就像在干草堆中寻找一根针
前提假设
假定数据集中被认为正常的点数远远超过被认为离群的 点数
离群点挖掘中需要处理的几个问题
(1) 全局观点和局部观点
离群点与众不同,但具有相对性。
(2) 点的离群程度
可以通过定义对象的偏离程度来给对象打分——离群因子 (Outlier Factor)或离群值得分(Outlier Score),即都为离群 点的情况下,也还有分高和分低的区别。
(3) 离群点的数量及时效性
由于离群点产生的机制是不确定的,离群点挖掘算法检测 出的“离群点”是否真正对应实际的异常行为,不是由离 群点挖掘算法来说明、解释的,只能由领域专家来解释, 离群点挖掘算法只能为用户提供可疑的数据,以便用户引 起特别的注意并最后确定是否真正的异常。对于异常数据 的处理方式也取决于应用,并由领域专家决策。