如何用SPSS探测及检验异常值.docx

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

如何用SPSS探测及检验异常值
一、采用数据探索过程探测异常值
SPSS菜单实现程序为: 主菜单–>“Analyze”–>“Descriptive Statistics”–>“Explore……”选项–>“Statistics”按钮–>选中“Outliers”复选框。

输出结果中将列出5个最大值和5个最小值作为异常的嫌疑值。

二、采用箱线图（boxplot）探测异常值
箱线图比较直观、形象，易于理解，因此它在统计分析中占有非常重要的地位。

1. 利用上述的数据探测过程，在“Explore”对话框中单击“Plots”，出现如图2所示的对话框，通过“Boxplots”方框可以确定箱线图的生成方式。

“Factor levels together”复选框表示将要为每个因变量创建一个箱线图，“Dependent together”复选框表示将为每个分组变量水平创建箱线图，“None”复选框表示不创建箱线图。

2. 直接利用SPSS中的画图功能实现箱线图，SPSS给出了两种箱线图，一种是基本箱线图，另一种是交互式箱线图。

基本箱线图的SPSS菜单实现为:点击主菜单中的“Graphs”选项，在弹出的一级菜单中选择“Boxplot……”选项。

交互式箱形图的SPSS菜单实现为:点击主菜单中的“Graphs”选项，在弹出的一级菜单中点击“Interactive”选项，在弹出的二级菜单中选择“Boxplot……”选项。

下面仍以A公司雇员分工种的开始工资为例构造基本箱线图(如图3)。

箱线图中的“○”表示可疑的异常值，此处异常值的确定采用的是“五数概括法”，即:变量值超过第75百分位点和25百分位点上变量值之差的1.5倍(箱体上方)或变量值小于第75百分位点和25百分位点上变量值之差的1.5倍(箱体下方)的点对应的值。

三、SPSS 14 后的新功能Data –> Validation：？？？如何设置。

四、Z分标准化法（3δ法）：±3δ 以外的数据为高度异常值，应予剔除。

五、数据异常值的检验
SPSS中没有提供直接检验异常数据的工具，但是使用SPSS能使异常值的检验工作变得非常方便。

通过SPSS中的Frequencies等过程，可以对指定变量的数据同时得到均值、方差等统计量，代入上述的公式，结合查表，很快就能得出检验结果。

在多个异常数据下，使用SPSS更显方便，因为剔除前一个异常数据后，需要对剩余的数据重新计算均值和方差，如果数据很多，用手工计算将是很烦琐的事情，而且准确度不高。

而通过SPSS，只需要重新选择数据以后，重复一次Frequencies过程的操作就可以了。

分别对含异常值和删去异常值两种情况下的数据进行分析，并比较后才能增加可信度，避免误删。

六、SPSS中异常值的剔除
发现异常值后，把大于等于最小异常值或小于等于最大异常值的值用Data主菜单里的Cases Select子菜单里的条件设置按钮，就可以自动剔除异常值。

承接心得1，数据预处理第二点异常值的处理。

我大概学了两门统计软件SPSS和Stata，SPSS用的时间久些，熟悉一下，Stata最近才学，不是太熟。

关于这点我结合着来说。

关于异常值的处理可分为两点，一是怎么判定一个值是异常值，二是怎么去处理。

判定异常值的方法我个人认为常用的有两点：1是描述性统计分析，看均值、标准差和最大最小值。

一般情况下，若标准差远远大于均值，可粗略判定数据存在异常值。

2是通过做指标的箱图判定，箱图上加“*”的个案即为异常个案。

发现了异常值，接下来说怎么处理的问题。

大概有三种方法：一是正偏态分布数据取对数处理。

我做农户微观实证研究，很多时候得到的数据（如收入）都有很大的异常值，数据呈正偏态分布，这种我一般是取对数处理数据。

若原始数据中还有0，取对数ln(0)没意义，我就取ln(x+1)处理；二是样本量足够大删除异常值样本；三是从stata里学到的，对数据做结尾或者缩尾处理。

这里的结尾处理其实就是同第二个方法，在样本量足够大的情况下删除首尾1%-5%的样本。

缩尾指的是人为改变异常值大
小。

如有一组数据，均值为50，存在几个异常值，都是500多（我这么说有点夸张，大概是这个意思），缩尾处理就是将这几个500多的数据人为改为均值+3标准差左右数据大小，如改为100。

总结而言，我个人认为做数据变换的方式比较好，数据变换后再做图或描述性统计看数据分布情况，再剔除个别极端异常值
异常值的识别与处理
2016-04-26 data567 精鼎统计
在处理实验数据的时候，我们常常会遇到个别数据值偏离预期或大量统计数据值结果的情况，如果我们把这些数据值和正常数据值放在一起进行计，可能会影响实验结果的正确性，如果把这些数据值简单地剔除，又可能忽略了重要的实验信息。

这里重要的问题是如何判断异常值，然后将其剔除。

判断和剔除异常值是数据处理中的一项重要任务，目前的一些方法还不是十分完善，有待进一步研究和探索。

异常值outlier：指样本中的个别值，其数值明显偏离它（或他们）所属样本的其余观测值,也称异常数据，离群值。

目前人们对异常值的判别与剔除主要采用物理判别法和统计判别法两种方法。

所谓物理判别法就是根据人们对客观事物已有的认识，判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果，在实验过程中随时判断，随时剔除。

统计判别法是给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常值剔除。

当物理识别不易判断时，一般采用统计识别法。

对于多次重复测定的数据值，异常值常用的统计识别与剔除法有：
（1）拉依达准则法（3δ）：简单，无需查表。

测量次数较多或要求不高时用。

是最常用的异常值判定与剔除准则。

但当测量次数《=10次时，该准则失效。

如果实验数据值的总体x是服从正态分布的，则
式中，μ与σ分别表示正态总体的数学期望和标准差。

此时，在实验数据值中出现大于μ＋3σ或小于μ—3σ数据值的概率是很小的。

因此，根据上式对于大于μ＋3σ或小于μ—3σ的实验数据值作为异常值，予以剔除。

在这种情况下，异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。

与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。

在处理数据时，应剔除高度异常的异常值。

异常值是否剔除，视具体情况而定。

在统计检验时，指定为检出异常值的显著性水平α=0.05，称为检出水平；指定为检出高度异常的异常值的显著性水平α=0.01，称为舍弃水平，又称剔除水平(reject level)。

（2)标准化数值（Z-score）可用来帮助识别异常值。

Z分数标准化后的数据服从正态分布。

因此，应用Z分数可识别异常值。

我们建议将Z分数低于-3或高于3的数据看成是异常值。

这些数据的准确性要复查，以决定它是否属于该数据集。

(3)肖维勒准则法（Chauvenet）：经典方法，改善了拉依达准则，过去应用较多，但它没有固定的概率意义，特别是当测量数据值n无穷大时失效。

(4)狄克逊准则法（Dixon）：对数据值中只存在一个异常值时，效果良好。

担当异常值不止一个且出现在同侧时，检验效果不好。

尤其同侧的异常值较接近时效果更差，易遭受到屏蔽效应。

(5)罗马诺夫斯基（t检验）准则法：计算较为复杂。

(6)格拉布斯准则法（Grubbs）：和狄克逊法均给出了严格的结果，但存在狄克逊法同样的缺陷。

朱宏等人采用数据值的中位数取代平均值，改进得到了更为稳健的处理方法。

有效消除了同侧异常值的屏蔽效应。

国际上常推荐采用格拉布斯准则法。