数据离散程度
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据离散程度
离散程度指标的种类很多,下面介绍的是常用的几种。
全距(Range)又称极差,是指数据中最大值和最小值的差值。
如果用R表示全距,用Xmax,Xmin,分别表示数据的最大值、最小值,则全距公式为:R = Xmax- Xmin。
例如,前面提到的两组数据中,第一组数据的全距R = 21 – 19 = 2,第二组数据的全距R = 25 – 15 = 10。
通过全距的数值我们可以确定第二组数据的离散程度更大。
由此,我们可以记住一个一般性结论:离散指标的数据越小,说明数据的变异程度就越小;数值越大,则说明数据的变异程度越大。
当然,这个结论只有在同类离散指标相比较时才会有意义。
全距指标的应用问题
全距指标的含义容易理解,计算也很简便。
因此,在某些场合具有特殊的用途。
例如,要说明一个地区的温度情况,没有比用温差说明更好的指标了。
在描述一种股票的波动情况时,最高价和最低价的差是常使用的特征值。
另外,在成品质量控制方法中,R控制图也是全距的一种应用。
但是,全距在计算上只与两个极端值有关,因此它不能反应其他数据的分散情况,就这一点来说,全距只是一个比较粗糙的测度指标。
如果需要全面、精确地说明数据离散程度时,就不宜使用全距。
平均差(Mean Absolute Deviation)就是各项数值与其均值之差绝对值之和的平均数。
用MAD表示平均差,其公式为:
所谓离散,是个相对概念,需要用一个标准来衡量。
因为均值是最重要也是最常用的指标,所以就成为衡量离散程度的一个常用标准。
方法就
是用各项数据与与均值相减,通常将这个差值称为离差(Deviation)。
离
差数值的大小就可以说明数据的偏离程度。
但是,可以证明。
因为相对于均值的正、负偏差之和是相等的。
为了解决离差正、负值
抵消的问题,统计学家使用了绝对值的方法,如平均差,更多使用的是平
方的方法,如方差,然后再用平均的方法,消除掉由于数据项数多少给离
差值带来的`影响,即从指标的含义来看,平均差的数值代表了所有数据
离均值的平均距离,使用该数据说明数据的离散程度,比较容易理解。
平均差的应用问题
虽然平均差简单易懂,但因为使用了绝对值,不便于进一步计算,所
以在实际应用中不如其他离散指标应用那样广泛。
但在预测领域,还常常
使用该指标用于误差的说明。
方差(Variance)就是全部数据离差平方的平均数。
总体方差表示,计
算公式为:
方差克服了平均差绝对值的问题,成为描述离散程度的一个重要指标。
但是,在方差数值含义的解释上却遇到困难。
因为方差的单位是数据单位
的平方,夸大了数据的离散程度,使人不易直观理解数值意义。
因此,通
常取方差的算数平方根作为描述离散程度的指标,即标准差(StandardDeviation)。
总体标准差的公式表示如下:
如果用上面的数据计算,对于这个数据,我们就很容易理解它的含义了。
=方差、标准差的应用问题总体方差表示,总体标准差用
表示,而样本方差用S2表示,样本标准差用S表示,不能混淆。
样
本方差与标准差的计算公式如下:
可以看到,样本方差及标准差与总体方差和标准差的计算公式略有不同。
样本方差和标准差的分母是n-1而不是n。
因为样本的方差和标准差
在使用中,经常作为总体方差和标准差的估计量,分母除以n-1而不是n,可以得到总体方差和标准差的较好的估计量。
离散系数(Coefficient Of Variation)就是标准差与均值的比值。
一
般用V表示。
总体的离散系数表示:
样本的离散系数表示为:
离散系数的应用问题
离散系数实质上是标准差相对于均值的大小。
因此,如果比较均值不
相同的两组数据相对离散程度时,使用离散系数,要比使用标准差更准确。
例如,假定有甲、乙两个工人,甲平均每小时生产40个零件,标准差是
5件。
乙平均每小时生产80个零件,标准差为6件。
那么那个工人的稳
定性比较好呢?根据标准差的定义,标准差越小,离散性就越小,所以甲
生产要比乙稳定。
但是,我们看到乙的标准差虽然比甲略高,但其生产的
能力确实甲的2倍(80/40)。
也就是说,6相对于80的变化要小于5相对
于40的变化,这个含义就是离散系数。
计算过程如下:
由此可见,乙的离散系数小于甲,所以乙的生产要比甲相对稳定。
离
散系数是个无名数,这是它与其他离散指标的最大区别。
全距、平均差还
有标准差,它们都是有名数,其单位与原始数据的单位一致。
离散系数的
这一特点使其不仅可以说明同类事物的相对离散程度,还可以说明不同类
事物的相对离散程度。
例如,当我们有兴趣比较一群人的身高离散程度大,还是体重离散程度大时,其他离散指标都不能用于比较,因为身高与体重
的单位不一致。
而离散系数就可以比较,因为它完全消除了单位的影响。