异常值处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
异常值处理
1.数据的标准化概述
数据的标准化(normalization)是将数据按比例 缩放,使之落入一个小的特定区间。在一些比较 和评价的指标处理中经常会用到,去除数据的单 位限制,将其转化为无量纲的纯数值,便于不同 单位或量级的指标能够进行比较和加权。
数据的标准化方法
ቤተ መጻሕፍቲ ባይዱ
① 总和标准化。分别求出各要素所对应的数据的总
数值小于1。
④ 极差的标准化,即
xij
xij
min i
xij
max i
xij
min i
xij
(i 1,2, , m; j 1,2, , n)
经过这种标准化所得的新数据,各要素的极大值为1,极小值为
0,其余的数值均在0与1之间。
2. 缺失数据的处理
2.1 数据缺失的机制:
将数据集中不含缺失值的变量(属性)称为完全变量, 数据集中含有缺失值的变量称为不完全变量,Little 和 Rubin定义了以下三种不同的数据缺失机制:
如果缺失值所占比例比较小,这一方法十分有效。至 于具体多大的缺失比例算是“小”比例,专家们意见 也存在较大的差距。有学者认为应在5%以下,也有 学者认为20%以下即可。
这种方法却有很大的局限性。它是以减少样本量来换 取信息的完备,会造成资源的大量浪费,丢弃了大量 隐藏在这些对象中的信息。当缺失数据所占比例较大, 特别是当缺数据非随机分布时,这种方法可能导致数 据发生偏离,从而得出错误的结论。
(三)热卡填充法(Hotdecking)
在数据库中找到一个与最相似的对象,然后用这个相 似对象的值来进行填充。
不同的问题可能会选用不同的标准来对相似进行判定。 变量Y与变量X相似,把所有个案按Y的取值大小进行
排序。那么变量X的缺失值就可以用排在缺失值前的 那个个案的数据来代替了。 与均值替换法相比,利用热卡填充法插补数据后,其 变量的标准差与插补前比较接近。但在回归方程中, 使用热卡填充法容易使得回归方程的误差增大,参数 估计变得不稳定,而且这种方法使用不便,比较耗时。
和,以各要素的数据除以该要素的数据的总和,
即
xij
xij
m
(i 1,2, , m; j 1,2, , n)
xij
i1
这种标准化方法所得到的新数据满足
m
xij 1
i 1
( j 1,2, , n)
② 标准差标准化,即
xij
xij x j sj
(i 1,2, , m; j 1,2, , n)
析来确定距离具有缺失数据样本最近的K个样本,将 这K个值加权平均来估计该样本的缺失数据。 C.用预测模型来预测每一个缺失数据:该方法最 大限度地利用已知的相关数据,是比较流行的缺失数 据处理技术。
(一)个案剔除法(Listwise Deletion)
最常见、最简单的处理缺失数据的方法,也是很多统 计软件(如SPSS)默认的缺失值处理方法。
1)完全随机缺失:数据的缺失与不完全变量以及 完全变量都是无关的。
2)随机缺失:数据的缺失仅仅依赖于完全变量。 3)非随机、不可忽略缺失:不完全变量中数据的
缺失依赖于不完全变量本身,这种缺失是不可忽略的。
2.2 缺失数据预处理思想
1)直接丢弃含缺失数据的记录 2)补缺 A. 用平均值来代替所有缺失数据 B. K -最近距离邻居法:先根据欧式距离或相关分
异常数据处理
异常挖掘及其应用 异常数据挖掘方法简介
✓ 基于统计的方法 ✓ 基于距离的方法 ✓ 基于密度的方法 ✓ 基于聚类的方法
未来研究展望
什么是异常(Outlier)?
Hawkins的定义:异常是在数据集中偏离大部分数据 的数据,使人怀疑这些数据的偏离并非由随机因素产 生,而是产生于完全不同的机制。
Weisberg的定义:异常是与数据集中其余部分不服从 相同统计模型的数据。
Samuels的定义:异常是足够地不同于数据集中其余 部分的数据。
Porkess的定义:异常是远离数据集中其余部分的数 据
异常数据具有特殊的意义和很高 的实用价值
现有数据挖掘研究大多集中于发现适用于大部分 数据的常规模式,在许多应用领域中,异常数据通 常作为噪音而忽略,许多数据挖掘算法试图降低 或消除异常数据的影响。而在有些应用领域识别 异常数据是许多工作的基础和前提,异常数据会 带给我们新的视角。
(五)多重替代法(Multiple Imputation)
由Rubin等人于1987年建立起来的作为简单估 算的改进产物。
首先,用一系列可能的值来替换每一个缺失值, 以反映被替换的缺失数据的不确定性。
然后,用标准的统计分析过程对多次替换后产 生的若干个数据集进行分析。
最后,把来自于各个数据集的统计结果进行综 合,得到总体参数的估计值。
(四)回归替换法(Regression Imputation)
回归替换法首先需要选择若干个预测缺失值的 自变量,然后建立回归方程估计缺失值,即用 缺失数据的条件期望值对缺失值进行替换。
该方法也有诸多弊端,第一,容易忽视随机误 差,低估标准差和其他未知性质的测量值,而 且这一问题会随着缺失信息的增多而变得更加 严重。第二,研究者必须假设存在缺失值所在 的变量与其他变量存在线性关系,很多时候这 种关系是不存在的。
由这种标准化方法所得到的新数据,各要素的平均值 为0,标准差为1,即有
x j
1 m
m
xij
i 1
0
s j
1 m
m
( xij
i 1
x j ) 2
1
③ 极大值标准化,即
xij
xij miax{xij }
(i 1,2, , m; j 1,2, , n)
经过这种标准化所得的新数据,各要素的极大值为1,其余各
(二)均值替换法(Mean Imputation)
缺失值是数值型的:平均值来填充该缺失的变 量值
缺失值是非数值型的,众数来补齐该缺失的变 量值。
均值替换法也是一种简便、快速的缺失数据处 理方法。使用均值替换法插补缺失数据,对该 变量的均值估计不会产生影响。但这种方法是 建立在完全随机缺失(MCAR)的假设之上的, 而且会造成变量的方差和标准差变小。
如在欺诈检测中,异常数据可能意味欺诈行为的 发生,在入侵检测中异常数据可能意味入侵行为
的发生。
1.数据的标准化概述
数据的标准化(normalization)是将数据按比例 缩放,使之落入一个小的特定区间。在一些比较 和评价的指标处理中经常会用到,去除数据的单 位限制,将其转化为无量纲的纯数值,便于不同 单位或量级的指标能够进行比较和加权。
数据的标准化方法
ቤተ መጻሕፍቲ ባይዱ
① 总和标准化。分别求出各要素所对应的数据的总
数值小于1。
④ 极差的标准化,即
xij
xij
min i
xij
max i
xij
min i
xij
(i 1,2, , m; j 1,2, , n)
经过这种标准化所得的新数据,各要素的极大值为1,极小值为
0,其余的数值均在0与1之间。
2. 缺失数据的处理
2.1 数据缺失的机制:
将数据集中不含缺失值的变量(属性)称为完全变量, 数据集中含有缺失值的变量称为不完全变量,Little 和 Rubin定义了以下三种不同的数据缺失机制:
如果缺失值所占比例比较小,这一方法十分有效。至 于具体多大的缺失比例算是“小”比例,专家们意见 也存在较大的差距。有学者认为应在5%以下,也有 学者认为20%以下即可。
这种方法却有很大的局限性。它是以减少样本量来换 取信息的完备,会造成资源的大量浪费,丢弃了大量 隐藏在这些对象中的信息。当缺失数据所占比例较大, 特别是当缺数据非随机分布时,这种方法可能导致数 据发生偏离,从而得出错误的结论。
(三)热卡填充法(Hotdecking)
在数据库中找到一个与最相似的对象,然后用这个相 似对象的值来进行填充。
不同的问题可能会选用不同的标准来对相似进行判定。 变量Y与变量X相似,把所有个案按Y的取值大小进行
排序。那么变量X的缺失值就可以用排在缺失值前的 那个个案的数据来代替了。 与均值替换法相比,利用热卡填充法插补数据后,其 变量的标准差与插补前比较接近。但在回归方程中, 使用热卡填充法容易使得回归方程的误差增大,参数 估计变得不稳定,而且这种方法使用不便,比较耗时。
和,以各要素的数据除以该要素的数据的总和,
即
xij
xij
m
(i 1,2, , m; j 1,2, , n)
xij
i1
这种标准化方法所得到的新数据满足
m
xij 1
i 1
( j 1,2, , n)
② 标准差标准化,即
xij
xij x j sj
(i 1,2, , m; j 1,2, , n)
析来确定距离具有缺失数据样本最近的K个样本,将 这K个值加权平均来估计该样本的缺失数据。 C.用预测模型来预测每一个缺失数据:该方法最 大限度地利用已知的相关数据,是比较流行的缺失数 据处理技术。
(一)个案剔除法(Listwise Deletion)
最常见、最简单的处理缺失数据的方法,也是很多统 计软件(如SPSS)默认的缺失值处理方法。
1)完全随机缺失:数据的缺失与不完全变量以及 完全变量都是无关的。
2)随机缺失:数据的缺失仅仅依赖于完全变量。 3)非随机、不可忽略缺失:不完全变量中数据的
缺失依赖于不完全变量本身,这种缺失是不可忽略的。
2.2 缺失数据预处理思想
1)直接丢弃含缺失数据的记录 2)补缺 A. 用平均值来代替所有缺失数据 B. K -最近距离邻居法:先根据欧式距离或相关分
异常数据处理
异常挖掘及其应用 异常数据挖掘方法简介
✓ 基于统计的方法 ✓ 基于距离的方法 ✓ 基于密度的方法 ✓ 基于聚类的方法
未来研究展望
什么是异常(Outlier)?
Hawkins的定义:异常是在数据集中偏离大部分数据 的数据,使人怀疑这些数据的偏离并非由随机因素产 生,而是产生于完全不同的机制。
Weisberg的定义:异常是与数据集中其余部分不服从 相同统计模型的数据。
Samuels的定义:异常是足够地不同于数据集中其余 部分的数据。
Porkess的定义:异常是远离数据集中其余部分的数 据
异常数据具有特殊的意义和很高 的实用价值
现有数据挖掘研究大多集中于发现适用于大部分 数据的常规模式,在许多应用领域中,异常数据通 常作为噪音而忽略,许多数据挖掘算法试图降低 或消除异常数据的影响。而在有些应用领域识别 异常数据是许多工作的基础和前提,异常数据会 带给我们新的视角。
(五)多重替代法(Multiple Imputation)
由Rubin等人于1987年建立起来的作为简单估 算的改进产物。
首先,用一系列可能的值来替换每一个缺失值, 以反映被替换的缺失数据的不确定性。
然后,用标准的统计分析过程对多次替换后产 生的若干个数据集进行分析。
最后,把来自于各个数据集的统计结果进行综 合,得到总体参数的估计值。
(四)回归替换法(Regression Imputation)
回归替换法首先需要选择若干个预测缺失值的 自变量,然后建立回归方程估计缺失值,即用 缺失数据的条件期望值对缺失值进行替换。
该方法也有诸多弊端,第一,容易忽视随机误 差,低估标准差和其他未知性质的测量值,而 且这一问题会随着缺失信息的增多而变得更加 严重。第二,研究者必须假设存在缺失值所在 的变量与其他变量存在线性关系,很多时候这 种关系是不存在的。
由这种标准化方法所得到的新数据,各要素的平均值 为0,标准差为1,即有
x j
1 m
m
xij
i 1
0
s j
1 m
m
( xij
i 1
x j ) 2
1
③ 极大值标准化,即
xij
xij miax{xij }
(i 1,2, , m; j 1,2, , n)
经过这种标准化所得的新数据,各要素的极大值为1,其余各
(二)均值替换法(Mean Imputation)
缺失值是数值型的:平均值来填充该缺失的变 量值
缺失值是非数值型的,众数来补齐该缺失的变 量值。
均值替换法也是一种简便、快速的缺失数据处 理方法。使用均值替换法插补缺失数据,对该 变量的均值估计不会产生影响。但这种方法是 建立在完全随机缺失(MCAR)的假设之上的, 而且会造成变量的方差和标准差变小。
如在欺诈检测中,异常数据可能意味欺诈行为的 发生,在入侵检测中异常数据可能意味入侵行为
的发生。