简谈几种“箱线图绘制”的描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

简谈几种“箱线图绘制”的描述

摘要:本文从四种不同版本的统计教材对“箱线图绘制”的描述中加以比较,得出优劣,最后用例子来进行说明比较。

关键词:箱线图异常值由于我们常用箱线图、标准分数(z分数)来识别异常值,当然,也可用散点图、残差图来识别,对于同一个问题,假如我们用来识别异常值的工具—“箱线图”不统一,那么,识别出来异常值也就会不同,接下来的处理方法也会不同:若异常值是记录错误,在做统计分析之前应将其改正过来;若异常值不属于这个数据集,将其去掉即可;异常值还可能确实是非正常的数据值,记录也正确,也属于这个数据集,这时就该保留这个异常值。由此可见,正确识别异常值,对正确进行数据分析得出科学合理的结论非常重要。

但在教学中,在上统计学的“箱线图绘制”时,笔者查阅了一些资料,发现几本书上对“箱线图绘制”的描述有些差异,下面我们一一来看。

第一种描述:由高等教育出版社出版、吴志高主编的《统计与概率》第32~33页:“例2.6.1有一个样本容量为50的样本如下:……,用所给的样本数据作箱线图。第一步,……;第二步,在数轴下方作一平行于数轴的矩形,其长为2倍四分位差2Q(该书定义四分位差见第31页Q=0.5*(Q3-Q1),和其他统计书上定义的四分位差不同,如由复旦大学出版社出版、李洁明、祁新娥编著的《统计学原理》第127页:四分位差=Q3-Q1),两条端线分别位于两个折点的位置,即Q1与Q3处,适当选取矩形的宽度,……第三步从矩形两端向外作平行于数轴的直线,在作出的直线上,由矩形两端向外各一步长H=2Q=1倍(Q3-Q1)处作两条端线,……”。由此,我们不难得出如下的箱线图:

第一种描述下的箱线图

但值得一提的是,该书中第33页倒数第三行提到;“有人建议将步长值取为H=3Q=1.5*(Q3-Q1)……”,我们看完后面会明白,这种取法才是大多数书上采用的方法。

第二种描述:再看由西南财经大学出版社出版、肖战峰主编的《统计学基础》第68~69页:“简单箱线图,其绘制方法是:“首先,找出数据的5个特征值……,然后连接两个四分位数(Q1、Q3)画出箱子,再将两个极值点与箱子相连接。”按照这一叙述,画出的箱线图如下:

第二种、第三种描述下的箱线图

第三种描述:由中国人民大学出版社出版、贾俊平等编著的《统计学》(第四版)第67页:“箱线图的绘制方法是:……”描述方法及结果几乎与第二种一样。

第四种描述:由清华大学出版社出版、(美)David R.Anderson 等编著、张慧卉等译《现代商务统计Excel版》(第二版)第107页:“绘制箱形图的步骤如下:1.画一只箱子,箱子的两端分别位于Q1(第一个四分位数)与Q3(第三个四分位数);2.在箱子的中间处画一条垂线,表示中位数;3.利用四分位数间距IQR=Q3-Q1确定上下限。箱形图的上下限分别比Q1低1.5倍IQR和比Q3高1.5倍IQR的位置上,上下限以外的数据认为是异常值;4.箱形图中的虚线称为胡须线。胡须线从箱子两端开始分别延伸至第3步中计算的上下限内的最大值与最小值;5.最后,用星号(*)把每个异常值的位置标出来。”根据这样的描述,得到的箱形图如下图:

第四种描述下的箱线图

下面是21家药物公司的年度销售数据(单位:百万美元):

现假设上述141.38亿美元被输成411.38亿美元,用箱线图能否识别出该异常值并纠正数据的输入错误吗?

第一步,把上述数据按升序排序:

所以,Xmin=608,Xmax=14138(由于输入错误,Xmax=41138),Q1=1861,Q3=8357,Me=4019

第二步,画箱线图:

第三步,从第一种、第四种描述下的箱线图中我们可以看出:数据41138应该是异常值(与实际情况相吻合),应该检查并更正数据,再进行数据的统计分析。而从第二种、第三种描述下的箱线图中,41138不是异常值(与实际情况不吻合),这时,还不可慌忙进行数据的统计分析,应该把该数据集转化为标准分数(z分数),41138的标准分数为4,把标准分数大于3而小于-3的也归为异常值,这时应该检查并更正数据,再进行数据的统计分析。

从上面例子中我们不难发现,第四种描述下的箱线图才是最完美的。但实际情况是,很多老师发现两本教材对同一事物的描述几乎完全一样(认为不可能错成一样的),毫无疑问都会选择第二种、第三种描述来进行教学。要想避免这样的情况,只有博览群书,取其精华,不断地提高我们的教学质量。

参考文献:

[1]吴志高.统计与概率[M].高等教育出版社.

[2]肖战峰.统计学基础[M].西南财经大学出版社.

[3]贾俊平.统计学(第四版)[M].中国人民大学出版社.

[4](美)David R.Anderson 等编著,张慧卉等译现代商务统计Excel版(第二版)[M]. 清华大学出版社.

[5]李洁明,祁新娥.统计学原理[M].复旦大学出版社.

相关文档
最新文档