异常值的识别与处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
异常值的识别与处理
箱式图
亦称盒形图(box plot),统计图表一章中已讨论。利用中位数、上下四分位数来描述数据分布的倾斜性。
•如果分布是对称的,上下四分位数与中位数的距离(空间)应相等;
•如果上四分位数比下四分位数离中位数更远,则此分布是正偏;反之,负偏。
异常值(outlying value)
•定义:一个观察值x 如属于下面情形之一,则为异常值。
•若一个观察值x 属于下面情形之一,则称为极端异常值(extreme outlying value)。
[][]
7525x>P +1.5QR x<P 1.5QR 或-[][]
7525x>P +3QR x<P 3QR 或-
对于箱式图
•在样本中从上四分位数到最大的非异常值之间画一垂直的条形;
•在样本中从下四分位数到最小的非异常值之间画一垂直的条形;
•在样本中识别异常值和极端异常值,并分别用“0”及“*”表示。
抽样误差
•用上述方法识别异常值是描述性的,它对样本大小很敏感,即大样本时可能有更多的“异常值”被检查出来;
•因此,识别异常值的方法应建立在假设检验的基础上。
异常值的认识
•前面定性描述了可能存在异常值,实际上某些异常值有时会对研究结论产生重要影响。
•识别异常值并将其排除在外,或至少作有无异常值的统计结论。
•常用方法是以远离均数的标准差倍数的多少倍来描述。在一个样本中把这个统计量应用于最极端的观察值时称为极端学生化偏差(extreme studentized deviate, ESD)。
i max ESD=X x /s
-
•EDS应取多大才能列为异常值?回答是与样本含量n有关。
•对于样本含量为n的正态分布,建立在ESD统计量上的抽样分布的临界值由B. Rosner(1983)给出,列于表10。
•记住:此界值依赖于n及你定义的第p个百分位点,因此该统计量的分界点记为ESD
n,p。
•单个异常值的判断:若ESD>该界值,则认为该观察值是异常值;反之不认为存在异常值。
多个异常值的判断
•设x
1,…,x n中大多数数据呈正态分布,但我们怀
疑有k个异常点,此处k=min([n/10],5)
其中[n/10]是一个不超过n/10的最大整数。•H
:没有异常值;H1:至少有1个但不超过k个异常值。•用下面的法则去识别异常值:
识别多个异常值的法则
•记X(n)点上达到ESD,其值为ESD(n);
•移去X(n),再重新计算均数、标准差、ESD等,在样本点X(n-1)达到ESD,其值为ESD(n-1);•类推,直到有k个ESD值: ESD(n), ESD(n-1),…,ESD(n-k+1)。与其对应的原始数据为X(n), X(n-1),…, X(n-k+1)。
从附表10找出每一个ESD对应的界值,分别判断之。
•除非我们很有把握知道只可能有一个异常值,一般情况下应按多个异常值来处理。
•若发现有异常值,又该怎么办?
异常值的处理
•方法一,将有异常值与删去异常值情形下去分析数据以便比较;
•也可以不删去异常值,但将它们在数据分析中的作用尽量减少:①秩转换非参数统计分析;②稳健估计。
注意:没有一种方法可以适用于所有数据,对于一个研究,如果几种方法所得结论一致,则自然可以增加结果的可信度。
谢谢!