找到数据中的异常值

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

找到数据中的异常值
偏离了原来数据的变化轨迹,就可以视为异常值。

判断业务异常值的标准大致有以下几个。

(1)特别大(小)
如果在业务值中出现了特别大或特别小的值,那么就可以认为是异常值。

什么叫特别大或者特别小呢?一般以数据的平均值作为比较的标准,如果超出平均值的50%以上或者小于平均值50%以上,就可以视为平均值了。

(2)脱离箱体
“箱体”本来是一个金融术语,特指股票价格在一个近似矩形的范围内波动,股价运行到箱体的上沿,基本上就会下跌,股票运行到箱体的下沿,基本上就会反弹上涨。

(3)趋势改变
如果本来一个值是上升的,现在下降了,或者反过来,本来是下降的,现在不降反升了,那么这就代表趋势发生了改变。

(4)变化率的变化
从严格意义上讲,变化率的变化也属于趋势变化的范畴,也就是说原来增长得很快,现在增长率下降了,这就属于变化率的变化,实际上也算是趋势变化的一个变种吧。

用绘图技巧找到异常值
绘图法在数据分析中扮演着重要的作用,不仅直观,而且简单。

散点图
下图是针对B列冰箱和C列彩电绘制的散点图。

1)这两个系列的数据,大部分在10万~80万;
2)蓝色的冰箱系列的数据要大于红色的彩电系列;
3)80万以上的数据可以视为异常值。

面板图
通过散点图可以比较有效地观察数据的情况,在散点图的基础上发展起来的面板图则功能更加强大。

在SPSS中绘制面板图
进入“散点/点状”界面后,选择简单分布,如图所示。

然后会弹出图所示的界面。

上图是实现SPSS面板图的主界面,相对于普通的EXCEL绘图,SPSS绘图提供了更多的选项,可在“设置标记”中填入性别,在“面板依据”中的“行”中填入“推荐”这个字段,“列”中填入“教育程度”这个字段。

看看下图所示的效果吧!
上图就是典型的面板图,实际上就是用“性别”、“教育程度”、“推荐”来做成一个个像小格子一样的散点图,这样就可以一目了然地观察数据啦!例如从“推荐”的角度看,1和2的数据是比较密集的,因此要重点关注数据密集的区域的数据的分布规律。

三倍标准差法
现在来系统地看看“三倍标准差法”,先来看数据的移动平均,对于下面的数组序列:
3,4,4.2,5,5.6,6,6.1,7,7.5,6.4
如果计算其移动平均,按照周期为3计算,那么第一个移动平均值的计算方法如下:
(3+4+4.2)/3=3.73
按此方法,可类推计算出后续的移动平均值。

从统计的角度看,这一连串计算得到的移动平均值反映了数据“应该是什么”,也就是说数据变化的中轴是什么。

在EXCEL中计算移动平均很简单,就是average函数。

再来看数据的波动情况,通常用标准差来反映数据的波动情况,EXCEL中的函数是STDEV,那么三倍标准差的含义是:
1)如果数据在平均值的正负一倍标准差范围之内波动,则视为正常波动;
2)如果数据在平均值的正负一倍标准差范围之外,并且在两倍标准差的范围内波动,则视为普通告警;
3)如果数据在平均值的正负二倍标准差范围之外,并且在三倍标准差的范围内波动,则视为较严重告警;
4)如果数据在平均值的正负三倍标准差范围之外,则视为严重告警。

下图可以更加清晰地看到数据的波动和告警情况。

另外一个重要的规则是:数据波动超过三倍标准差的概率不超过5%。

相关文档
最新文档