异常值处理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
所以,定义异常需要指明如何使用多个属性的 值确定一个对象是否异常?
(2)全局观点和局部观点
一个对象可能相对于所有对象看上去异常,但 它相对于它的局部近邻不是异常的
例如:身高1.85m对于一般人群是不常见的,但对 于职业篮球运动员不算什么
(3)点的异常程度
某些技术方法是以二元方式来报告对象是否异 常的,即:异常或正常
如果不能使用类标号,则评估是困难的。
(5)有效性
各种异常检测方案的计算开销是显著不同的 例如:
基于分类的方案需要相当多的资源(训练数据和测 试数据)来创建分类模型,但是这个模型一旦建立 好了,使用时的开销通常很小 而基于邻近度的方法,其时间复杂度通常为O(n2)
异常检测的挑战和前提
但,这不能反映某些对象比其他对象更加极端异常 的基本事实 所以:可以通过定义对象的异常程度来给对象打 分 ,如都为异常的情况下,也还有分高和分低的 区别。——异常点得分(outlier score)
(4)评估
如果可以使用类标号来识别异常和正常数据:
可以利用分类性能度量来评估异常检测方案的有效 性。 也可以使用如精度、召回率等度量方法来度量
异常数据实例
一个人的年龄为-999就可能是由于程序处理缺省数据设置 默认值所造成的 ; 一个公司的高层管理人员的工资明显高于普通员工的工资 可能成为异常数据但却是合理的数据(如平安保险公司 2007年 5位高管税后收入超过了1000万元); 一部住宅电话的话费由每月200元以内增加到数千元可能 就因为被盗打或其它特殊原因所致; 一张信用卡出现明显的高额消费也许是因为是盗用的卡。
sj
③ 极大值标准化,即
xij xij max{xij }
i
(i 1,2, , m; j 1,2,, n)
经过这种标准化所得的新数据,各要素的极大值为1,其余各
数值小于1。
④ 极差的标准化,即
xij maxxij minxij
i i
xij minxij
2.2 缺失数据预处理思想
1)直接丢弃含缺失数据的记录 2)补缺 A. 用平均值来代替所有缺失数据 B. K -最近距离邻居法:先根据欧式距离或相关分 析来确定距离具有缺失数据样本最近的K个样本,将 这K个值加权平均来估计该样本的缺失数据。 C.用预测模型来预测每一个缺失数据:该方法最 大限度地利用已知的相关数据,是比较流行的缺失数 据处理技术。
从类标号(正常或异常)可以利用的程 度分类
无监督的异常检测方法
在实际情况下,没有提供类标号 要求存在异常类和正常类的训练集 训练数据包含被标记的正常数据,但是没有关于异常对 象的信息
有监督的异常检测方法
半监督的异常检测方法
从面向对象的特殊性角度分类
面向高维数据的方法 面向时间序列的方法 面向数据流的方法 面向空间数据的方法 面向Web 数据的方法……
均值为0,标准差为1的高斯分布的概率密度函数
概率密度
-6
-4
-2
0 x
2
4
6
实例:检测一元正态分布中的异常点
(四)回归替换法(Regression Imputation)
回归替换法首先需要选择若干个预测缺失值的 自变量,然后建立回归方程估计缺失值,即用 缺失数据的条件期望值对缺失值进行替换。 该方法也有诸多弊端,第一,容易忽视随机误 差,低估标准差和其他未知性质的测量值,而 且这一问题会随着缺失信息的增多而变得更加 严重。第二,研究者必须假设存在缺失值所在 的变量与其他变量存在线性关系,很多时候这 种关系是不存在的。
异常数据具有特殊的意义和很高 的实用价值
现有数据挖掘研究大多集中于发现适用于大部分 数据的常规模式,在许多应用领域中,异常数据通 常作为噪音而忽略,许多数据挖掘算法试图降低 或消除异常数据的影响。而在有些应用领域识别 异常数据是许多工作的基础和前提,异常数据会 带给我们新的视角。 如在欺诈检测中,异常数据可能意味欺诈行为的 发生,在入侵检测中异常数据可能意味入侵行为 的发生。
(二)均值替换法(Mean Imputation)
缺失值是数值型的:平均值来填充该缺失的变 量值 缺失值是非数值型的,众数来补齐该缺失的变 量值。 均值替换法也是一种简便、快速的缺失数据处 理方法。使用均值替换法插补缺失数据,对该 变量的均值估计不会产生影响。但这种方法是 建立在完全随机缺失(MCAR)的假设之上的, 而且会造成变量的方差和标准差变小。
i 1
这种标准化方法所得到的新数据满足
x
i 1
m
ij
1
( j 1,2, , n)
② 标准差标准化,即
xij
xij x j sj
(i 1,2,, m; j 1,2,, n)
由这种标准化方法所得到的新数据,各要素的平均值 为0,标准差为1,即有
1 m xj xij 0 m i 1 1 m ( xij x ) 2 1 j m i 1
异常值处理
1.数据的标准化概述
数据的标准化(normalization)是将数据按比例 缩放,使之落入一个小的特定区间。在一些比较 和评价的指标处理中经常会用到,去除数据的单 位限制,将其转化为无量纲的纯数值,便于不同 单位或量级的指标能够进行比较和加权。
数据的标准化方法
① 总和标准化。分别求出各要素所对应的数据的总 和,以各要素的数据除以该要素的数据的总和, 即 xij xij m (i 1,2,, m; j 1,2,, n) xij
什么是异常挖掘? (Outlier mining,Exception mining)
异常挖掘可以描述为:给定N个数据对象和所 期望的异常数据个数,发现明显不同、意外, 或与其它数据不一致的前k个对象。 异常挖掘问题由两个子问题构成:
(1)如何度量异常; (2)如何有效发现异常。
为什么会出现异常数据?
异常检测中需要处理的几个问题
(1)用于定义异常的属性个数
一个对象只有单个属性 一个对象具有多个属性:
可能某个属性异常,某个属性正常 如:对于男生而言, 身高1.6m,体重55kg,这个很正常; 身高1.6m,体重75kg,这个有点异常; 身高1.8m,体重75kg,基本正常。 若对于女生,则三组值可能都不太正常。
i
(i 1,2,, m; j 1,2,, n)
经过这种标准化所得的新数据,各要素的极大值为1,极小值为 0,其余的数值均在0与1之间。
2. 缺失数据的处理
2.1 数据缺失的机制:
将数据集中不含缺失值的变量(属性)称为完全变量, 数据集中含有缺失值的变量称为不完全变量,Little 和 Rubin定义了以下三种不同的数据缺失机制: 1)完全随机缺失:数据的缺失与不完全变量以及 完全变量都是无关的。 2)随机缺失:数据的缺失仅仅依赖于完全变量。 3)非随机、不可忽略缺失:不完全变量中数据的 缺失依赖于不完全变量本身,这种缺失是不可忽略的。
例:如果假定数据具有高斯分布,则基本分布的均 值和标准差可以通过计算数据的均值和标准差来估 计,然后可以估计每个对象在该分布下的概率。
实例:检测一元正态分布中的异常点
下面利用统计学中最常使用的分布之一:高斯(正态) 分布,来介绍一种简单的统计学异常点检测方法。
பைடு நூலகம்
正态分布用记号:N (μ,σ)表示,μ表示均值,σ表示方 差。
异常数据与众不同但具 有相对性: 高与矮,疯子与常人。 类似术语: Outlier mining,Exception mining:异常挖掘、离群 挖掘、例外挖掘和稀有 事件挖掘 。
异常检测方法分类
从使用的主要技术路线角度分类
基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法 基于偏差的方法 基于深度的方法 基于小波变换的方法 基于神经网络的方法…
(一)个案剔除法(Listwise Deletion)
最常见、最简单的处理缺失数据的方法,也是很多统 计软件(如SPSS)默认的缺失值处理方法。 如果缺失值所占比例比较小,这一方法十分有效。至 于具体多大的缺失比例算是“小”比例,专家们意见 也存在较大的差距。有学者认为应在5%以下,也有 学者认为20%以下即可。 这种方法却有很大的局限性。它是以减少样本量来换 取信息的完备,会造成资源的大量浪费,丢弃了大量 隐藏在这些对象中的信息。当缺失数据所占比例较大, 特别是当缺数据非随机分布时,这种方法可能导致数 据发生偏离,从而得出错误的结论。
(三)热卡填充法(Hotdecking)
在数据库中找到一个与最相似的对象,然后用这个相 似对象的值来进行填充。 不同的问题可能会选用不同的标准来对相似进行判定。 变量Y与变量X相似,把所有个案按Y的取值大小进行 排序。那么变量X的缺失值就可以用排在缺失值前的 那个个案的数据来代替了。 与均值替换法相比,利用热卡填充法插补数据后,其 变量的标准差与插补前比较接近。但在回归方程中, 使用热卡填充法容易使得回归方程的误差增大,参数 估计变得不稳定,而且这种方法使用不便,比较耗时。
挑战:
数据中有多少异常点? 方法应该是无监督的,就像在干草堆中寻找一根针
前提假设:
假定数据集中被认为正常的点数远远超过被认为异 常的点数
基于统计的异常检测
基于统计的异常检测
这类方法大部分是从针对不同分布的异常检验方 法发展起来的,通常用户使用分布来拟合数据集。
假定所给定的数据集存在一个分布或概率模型(例如, 正态分布或泊松分布),然后将与模型不一致(即分布不 符合)的数据标识为异常数据。
测量、输入错误或系统运行错误所致 数据内在特性所决定 客体的异常行为所致
由于异常产生的机制是不确定的,异常挖掘算法检测出 的“异常数据”是否真正对应实际的异常行为,不是 由异常挖掘算法来说明、解释的,只能由领域专家来 解释,异常挖掘算法只能为用户提供可疑的数据,以 便用户引起特别的注意并最后确定是否真正的异常。 对于异常数据的处理方式也取决于应用,并由领域专 家决策。
异常检测的应用领域
电信、保险、银行中的欺诈检测与风险分析 发现电子商务中的犯罪行为 灾害气象预报 税务局分析不同团体交所得税的记录,发现异常模型和趋势 海关、民航等安检部门推断哪些人可能有嫌疑 海关报关中的价格隐瞒 营销定制:分析花费较小和较高顾客的消费行为 医学研究中发现医疗方案或药品所产生的异常反应 计算机中的入侵检测 运动员的成绩分析 应用异常检测到文本编辑器,可有效减少文字输入的错误 ……
异常数据处理
异常挖掘及其应用 异常数据挖掘方法简介
基于统计的方法 基于距离的方法 基于密度的方法 基于聚类的方法
未来研究展望
什么是异常(Outlier)?
Hawkins的定义:异常是在数据集中偏离大部分数据 的数据,使人怀疑这些数据的偏离并非由随机因素产 生,而是产生于完全不同的机制。 Weisberg的定义:异常是与数据集中其余部分不服从 相同统计模型的数据。 Samuels的定义:异常是足够地不同于数据集中其余 部分的数据。 Porkess的定义:异常是远离数据集中其余部分的数 据
(五)多重替代法(Multiple Imputation)
由Rubin等人于1987年建立起来的作为简单估 算的改进产物。 首先,用一系列可能的值来替换每一个缺失值, 以反映被替换的缺失数据的不确定性。 然后,用标准的统计分析过程对多次替换后产 生的若干个数据集进行分析。 最后,把来自于各个数据集的统计结果进行综 合,得到总体参数的估计值。
基于统计的异常检测
假定用一个参数模型来描述数据的分布 (如正 态分布) 应用基于统计分布的异常点检测方法依赖于
数据分布 参数分布 (如均值或方差) 期望异常点的数目 (置信度区间)
异常点的概率定义
异常点的概率定义:
异常点是一个对象,关于数据的概率分布模型,它 具有低概率
概率分布模型通过估计用户指定的分布的参数, 由数据创建。