第五章 离中趋势的量度:变异指标
第五章离散趋势的测量
• QU=(1500+1630)÷2=1565(元) QU=(1500+1630) 1565(元) • QL和QU之间包含了50%的数据,因此,我 QL和QU之间包含了50%的数据,因此,我
们可以说有一半的家庭人均月收入在815~ 们可以说有一半的家庭人均月收入在815~ 1565元之间。 1565元之间。 • 根据例3.2资料计算上下四分位数,那么家 根据例3.2资料计算上下四分位数,那么家 庭人均月收入的四分位差为: • QU—QL=? QU—
• 三、变异指标的作用 • 变异指标是描述数据分布的一个很重要的
特征值,因此,它在统计分析、统计推断 特征值,因此,它在统计分析、 中具有很重要的作用。 中具有很重要的作用。具体可以概括为以 下几点: 下几点:
• 1.反映总体各单位变量值分布的均衡性 1.反映总体各单位变量值分布的均衡性 • 一般来说,标志变异指标数值越大,总体 一般来说,标志变异指标数值越大,
• 2. 加权平均法 • 在资料分组的情况下,应采用加权平均式: 在资料分组的情况下,应采用加权平均式:
• 平均差计算简便,意义明确,而且平均差 平均差计算简便,意义明确,
是根据所有变量值计算的,每个数据均参 是根据所有变量值计算的, 与了计算,因此它能够准确地、 与了计算,因此它能够准确地、全面地反 映一组数值的变异程度。但是, 映一组数值的变异程度。但是,由于平均 差是用绝对值进行运算的, 差是用绝对值进行运算的,它不适宜于代 数形式处理, 数形式处理,所以在实际应用上受到很大 的限制。 的限制。
• [例3.13] 某厂甲、乙两组工人生产某种产
品的产量资料如表3.8所示。 品的产量资料如表3.8所示。
• 从计算结果看,甲、乙两组平均生产件数 从计算结果看,
标志变异指标
(四)是非标志的标准差 1.定义: 是非标志又称交替标志,它实际上就是品质标志。
标志表现 是 非 合计
X
标志值X 1 0 -
单位数f N1 N0 N
所占比重 p q 1
xf f
f x (1 p ) (0 q ) p f
(x X )2 f
2
n
x x f
2
f
3.评价方法: 均方差愈大,标志变动程度愈大,均方差愈小,标 志变动程度愈小。
4.应用: (1)包括总体中各单位标志值全部的差异程度。 (2)有利于数学计算。 (3)离差平方和为最小值,符合标准差计算原则 。 例1:现以甲乙两组工人日产量标准差资料为例,计算分 析如下:
109100
xf x f
29300 293 100
x x f
2
f
109100 33.03(件) 100
甲 x x n228 2 (件) 7
乙
x x
n
2
290 6.44 (件) 7
这就是说,在甲乙两组工人平均产量相等的条 件下,每个工人的产量与其平均产量的标准离差, 甲组为2件,乙组为6.44件。甲组的标准差小,即 标志变动度小,因而其平均数的代表性大;乙组的 标准差比甲组大,因而其平均数的代表性比甲组小。
9 4 1 0 1 4 9 28
100 36 9 0 9 36 100 290
例2:某村劳动力全年劳动情况
全年劳动 天数(天) 240以下 240-260 260-280 280-300 300-320 320-340 340以上
组中值 劳力数(人)
离中趋势的分析指标
离中趋势的分析指标
离中趋势的分析指标是用来衡量数据离开其平均值或中心点的程度,以便判断数据的分布情况和波动程度。
常用的离中趋势分析指标包括:
1. 平均绝对偏差(Mean Absolute Deviation,MAD):计算每个数据点与平均值的差异,然后取其绝对值求平均。
2. 方差(Variance):计算每个数据点与平均值的差异的平方,然后求平均。
3. 标准差(Standard Deviation):方差的平方根。
它衡量数据点相对于平均值的平均偏离程度。
4. 历史波动率(Historical Volatility):衡量资产价格的变动范围,是收益率方差的平方根。
用于分析股票市场的风险程度。
5. 变异系数(Coefficient of Variation):标准差与平均值之比,衡量数据的相对变异程度。
6. 百分位数(Percentile):将数据点从小到大排序,找出某个百分比位置的值,用于衡量数据分布的位置。
7. 四分位数(Quartiles):将数据点从小到大排序,分为四个部分,分别为上下四分位数、中位数,用于衡量数据分布的形状。
8. 离群值检测(Outlier Detection):用于发现与其他数据点偏离较远的异常值,常用的方法有Z-Score、Grubbs' Test和箱线图等。
以上指标都能够帮助分析数据的离中趋势,但具体选择哪个指标需根据数据类型、分布形态及研究目的等因素综合考虑。
第五章 离中趋势测量法
Σ( x − x ) f σ= Σf
2
…………(5.6) ( )
例4,仍以例 的资料为例说明加权标 ,仍以例2的资料为例说明加权标 准差的计算,见表5- 。 准差的计算,见表 -4。(FJ5-5)
在实际应用中, 在实际应用中,标准差和方差的计算 可采用下列简单公式计算。 可采用下列简单公式计算。 在资料未分组时,简单公式为: 在资料未分组时,简单公式为:
Z分数的数学性质: 分数的数学性质: 分数的数学性质
分数之和等于零, ⑴Z分数之和等于零,因为: 分数之和等于零 因为: (x − x ) 1 ΣZ = Σ = Σ( x − x ) = 0LLL (5.13) σ σ 分数的算术平均数等于零, ⑵Z分数的算术平均数等于零,因为: 分数的算术平均数等于零 因为: ΣZ Z= = 0LLL (5.14) n 分数的标准差等于1, 分数的方差也等于 分数的方差也等于1,因为: ⑶Z分数的标准差等于 ,Z分数的方差也等于 ,因为: 分数的标准差等于
Σ( Z − Z ) 2 ΣZ 2 1 x−x 2 Z 分数的标准差 = = = Σ( ) n n n σ 1 Σ( x − x ) 2 = = 1LLL (5.15a) 2 σ n
Z分数的方差=1 分数的方差= 分数的方差
……………(5.15b) ( )
(五)是非标志与成数 是非标志是指能将统计总体的全部 单位划分为具有某种属性和不具有 某种属性的两组的分组标志。 某种属性的两组的分组标志。 成数就是总体中具有某种属性的 单位数占全部单位数的比重, 单位数占全部单位数的比重,一 般用英文字母p或 表示 表示。 般用英文字母 或q表示。
(总标准差)σ = 209.98 = 14.49(分)
(四)标准分 标准分是离差与标准差的比值, 标准分是离差与标准差的比值,即:
第五讲 集中趋势和离中趋势的度量 PPT课件
xH 1
1 1
x1 m1 x2 m2
m1 m2 mn
m
1 xn mn
1
1
1
1
x1 m1 x2 m2 xn mn
m x
m1 m2 mn
第二节 数值平均数
调和平均数
上述公式是加权调和平均数的公式。若各变量值 的权数都相等时,加权调和平均数简化为简单调和 平均数。即:
xG
f
x f1 1
x2 f2
xn fn f
xf
第二节 数值平均数
本节小结
本节主要讨论了算术平均数、调和平 均数、几何平均数三种数值平均数的应用条 件和计算方法,其中最常用的是算术平均数。
第三节 位置平均数
本节重点 众数、中位数的概念与计算方法
本节难点 众数、中位数的的定义
x
100%
第四节 离中趋势的度量
本节小结
标志变异指标的意义与测定既是本 章的重点,也是整个统计学中的重要问 题。特别要弄清楚标准差的计算原理、 计算方法和离散系数的应用条件。
(x x) 0或(x x) f 0
第二节 数值平均数
(五)算术平均数的数学性质 ⒉各变量值与算术平均数的离差平方和
为最小。
(x x)2 min 或(x x)2 f min
第二节 数值平均数
二、调和平均数
又叫倒数平均数,即各变量值的倒数的算术平均 数的倒数。调和平均数用 xH 表示。
第一节 集中趋势指标概述
集中趋势是指一组数据向某一中心值靠拢 的倾向,测度集中趋势即要寻找数据一般水平 的代表值或中心值。
集中趋势指标即统计平均数,是反 映若干统计数据一般水平或集中趋势的 综合指标。它可能表现为总体内各单位 某一数量标志的一般水平,也可能表现 为总体在某一段时期内的数量一般水平。
第五章-离中趋势测量法
⑴简单标准差 对于未分组资料计算标准差时可 采用简单法,其计算公式为:
(x x ) n
2
例,求26,45,88,62,74这些数字的标准差
⑵加权标准差 按照分组资料(变量数列)计算标准差时可采 用加权法。由组距数列计算标准差时,还应先 求出组中值(开口组的组中值以邻近组的组距 确定),再按加权法计算。其计算公式为:
AD x x n
…………(5.1)
例1,有两个参赛篮球队队员身高(单位:cm)如下: 甲队:185 191 195 202 217 乙队:190 197 199 200 204 以上述资料为例,计算简单平均差。
⑵加权平均差 在资料已经分组时,平均差采用加 权平均法计算,其计算公式为:
AD
第五章 离中趋势测量法 离中趋势测量法
离中趋势是指变量数列中变量值 之间的差异程度或离散程度。
本章重点: 1、平均差 2、方差与标准差 3、离散系数 本章难点: 1、方差与标准差 2、是非标志的方差
变异指标的概念和作用
一、变异指标的概念 变异指标又称标志变动度,是反映总体各单位标志值之间差异程度的 综合指标。 二、变异指标的作用 1、是衡量平均指标代表性的尺度 2、可用来研究现象的稳定性和均衡性 3、在抽样调查和相关分析中有着重要作用 变异指标用以反映总体各单位标志值的变动范围或参差程度,与平 均指标相对应,从另一个侧面反映了总体的特征。变异指标不仅可以 综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
(1)当 x M
e
M 0时 , 对 称 分 布 ;
,右偏分布; <Me < Mo时,左偏分布。
(三) 偏态系数
我们在前面讨论统计图时已经对频数分布的正态和 偏态有所认识。我们又看到了算术平均数与中位数、众 数之间存在的关系:当总体呈对称分布时,X 、 M 、 M 三者完全相等;当总体呈不对称的偏态分布时,它们之 间存在着数量(位置)的差异。因此,偏态可由 X 与 M o 的差来表示,即
统计学第五章(变异指标)
值或组中值 出现的次数
数
整理ppt
19
【例B】计算下表中某公司职工月工资的标准差。
月工资(元) 组中值(元)X 职工人数(人)f
300以下
250
208
300~400
350
314
400~500
450
382
500~600
550
456
600~700
650
305
700~800
750
237
800~900
850
78
900以上
950
20
合计
—
整理ppt
2000
20
解:
x 2 5 20 0 8 9 5 2 0 0 104 55 .9 29 元 5 2 0
2000 2000
25052.925220895052.925220
2000
56386.0519156.97元
2000
即该公司职工月工资的标准差为167.9元。
本节基本结构
变异指标
极差
平均差
标准差 变异系数
整理ppt
1
第五节 变异指标的计算与应用
某班三名同学三门课程的成绩如下: 单位:分
课 程
语文 数学 英语 总成绩 平均成绩
学生
甲 60 65 70 195
65
乙 65 65 65 195
65
丙 55 65 75 195
65
请比较三名同学学习整理成ppt 绩的差异。
5
5
n
AD i1 xi x 440558750558
n
5
46893.6元
5
即该售货小组5个人销售额的平均差为93.6元。
离中趋势的量度:变异指标
第五章离中趋势测量法平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。
但是总体作为统计对象,还有其变异性的一面。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
变异指标的种类较多,如按计算的基准来分有以下两类:(1)以两数之差来表达的有全距和四分位差等。
(2)以对平均数偏差来表达的有平均差、标准差等。
变异指标如按数量关系来分有以下两类;(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。
(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差1.全距全矩是最大变量值与最小变量值之差,用R来表示。
对未分组资料,计算全距用原始式。
由于全距是一组数据中两个极端值之差,所以它又称极差。
全距的最大优点是:计算简单,便于直观。
缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。
一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。
2.四分位差四分位是用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,它可以避免全距测量离中趋势受极端值影响大这个缺点。
但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。
第二节平均差要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。
但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。
第五章 离中趋势的量度:变异指标
第五章离中趋势测量法平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。
但是总体作为统计对象,还有其变异性的一面。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
变异指标的种类较多,如按计算的基准来分有以下两类:(1)以两数之差来表达的有全距和四分位差等。
(2)以对平均数偏差来表达的有平均差、标准差等。
变异指标如按数量关系来分有以下两类;(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。
(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差1.全距全矩是最大变量值与最小变量值之差,用R来表示。
对未分组资料,计算全距用原始式。
由于全距是一组数据中两个极端值之差,所以它又称极差。
全距的最大优点是:计算简单,便于直观。
缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。
一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。
2.四分位差四分位是用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,它可以避免全距测量离中趋势受极端值影响大这个缺点。
但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。
第二节平均差要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。
但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。
集中趋势和离中趋势的度量
第五章数据分布特征的描述第一节集中趋势指标概述一、集中趋势指标及其特点集中趋势(Central tendency),是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是要寻找数据一般水平的代表值或是心值。
在现象的同质总体中,各个单位的标志值是不尽相同的。
如果我们的目的是要对总体的数量水平有一个概括地、一般地认识,显然不能用某一单位的标志值表示。
统计平均数就是用来反映总体的一般水平和集中趋势的指标。
通俗的理解就是,在不变更总体总量的情况下,对总体内的全部标志值进行“截长补短”,使得总体各单位拥有同一水平的数量表现,这个同一水平的数量表现就是平均数,即集中趋势指标。
统计平均数有两个重要的特点:第一,平均数是一个代表值,表示被研究总体的一般水平。
例如,某企业职工的工资水平有高有低,有的职工月工资1680元,有的职工月工资1900元,有的职工月工资1870元,有的职工月工资2200元,等等。
若根据该企业各个职工月工资额综合计算出职工月平均工资为1860元,那么,1860元就是一个代表值。
它反映了该企业职工月工资的—般水平。
第二,平均数把被研究总体各单位的标志值的数量差异抽象化了。
例如,某企业职工的月平均工资为1860元,但是各个职工的工资水平有高有低,高于1860元的工资和低于1860元的工资互相抵消了,从而得出平均工资1860元。
由此可见,平均工资(1860元)已把各职工月工资水平的差别抽象化了。
二、集中趋势指标的作用集中趋势指标——统计平均数,在统计研究中被广泛应用,平均数的作用可以归纳为以下几点:1.利用平均数对比不同总体的一般水平。
平均数可以用来对同类现象在各单位、各部门、各地区之间进行比较,以说明生产水平的高低或经济效果的好坏。
例如,要比较不同的生产企业生产水平的好坏,仅对比企业的产品总产量是不足以说明问题的,因为产品总产量受到企业规模大小的影响。
要比较,需要计算各企业生产人员的平均产品产量,即劳动生产率,并分析不同的生产条件,才能做出正确的判断。
第五章 离中趋势测量法_社会统计学
2014-6-16
10
求72、81、86、69、57这些数字的标准差。
X
72 81 86 69 57 365
(X X )
( X X )2
1 64 169 16 256 506
X2
5184 6561 7395 4761 3249 27151
-1 8 13 -4 -16 0
2014-6-16
11
8
2014-6-16
[例1] 试分别以算术平均数为基准,求85,69, 69,74,87,91,74这些数字的平均差。 [例2] 试以算术平均数为基准,求下表所示数据 的平均差。
计算左 边数列的 平均差
2014-6-16
9
第三节 标准差(standard deviation)
各变量值对其算术平均数的离差平方 的算术平均数的平方根,均方差,又称 用S表示。 即克服平均差带有绝对值的缺点, 又保留其综合平均的优点。 1. 对于未分组资科
2014-6-16 19
2.
异众比率
所谓异众比率,是指非众数的频数与总体单位数 的比值,用V· R来表示
其中:
为众数的频数;
是总体单位数
异众比率能表明众数所不能代表的那 一部分变量值在总体中的比重。
2014-6-16
20
例1:某项调查发现,现今三口之家的家庭最多 (32%),求异众比率。某开发商根据这一报导,将房 屋的户型大部分都设计为适合三口之家居住的样式和面 积,你认为如何呢? 例2:设为测体重,得到成人组和婴儿组各100人的 两个抽样总体。成人组平均体重为65千克,全距为10千 克;婴儿组平均体重为4千克,全距为2.5千克。能否认 为成人组体重的离势比婴儿组体重的离势大?
变 异 指 标
甲组 乙组
2 =
( X X )2 1 000
200
= ( X X )2 1 000 14.1
N
5
N
5
2 =
(X X )2 250 50
N
5
= ( X X )2 250 7.1
N
5
(一)简单法
任务
16
变异指标
四、方差与标准差
如果掌握的是经过加工整理的分组资料,则需要采用加权法,其计算公式为
14
任务
变异指标
四、方差与标准差
如果掌握的是未分组的原始资料,计算时用简单法,其计算公式为:
方差 标准差
(X X )2
2=
N
(X X )2
N
(3-32) (3-33)
(一)简单法
任务
15
变异指标
四、方差与标准差
【例3-29】
现仍以例3-23中所举的甲、乙两组工资资料为例,计算方差和标准差。 解:计算甲、乙两组工人工资的离差和离差平方,如表3-15(P114)。
解:计算50名学生学习成绩的平均指标:
X
Xf f
3 900 50
78(分)
这50名学生按学习成绩分组情况及相关资料填入表3-14中。(表在113页 见教材)
(二)加权平均法
12
任务
变异指标
三、平均差
平均差的优点
平均差的缺点
•
综合反映了总体各单位标志
值变动程度,能够全面、准确地
反映数据的离散情况。
(3-30)
(一)简单平均法
9
任务
变异指标
三、平均差
【例3-27】
以例3-23中所举的甲、乙两组工人工资为例,计算平均差。 解:计算甲、乙两组工人工资的离差和离差绝对值,如表3-13所示(略)。
离中趋势的具体指标
离中趋势的具体指标离中趋势的具体指标可以根据数据的分布情况来选择。
常用的离中趋势指标包括平均数、中位数、众数、四分位数、标准差和离差等。
下面将从这些指标的定义、计算和应用方面进行详细的说明。
平均数是最常见的离中趋势指标,它是一组数据的总和除以数据的总数。
平均数能够很好地反映数据的集中程度,但对于极端值的敏感度较高。
计算平均数的公式如下:平均数= 数据的总和/ 数据的总数中位数是将一组数据按照大小排列后,处于中间位置的数值。
中位数不受极端值的影响,适合用来表示数据的中间值。
计算中位数的方法有两种:奇数个数据,中位数为排序后的中间值,偶数个数据,中位数为排序后中间两个值的平均数。
众数是一组数据中出现次数最多的数值,可以用来反映数据的主要特征。
众数可以有一个或多个,也可以没有。
众数的计算比较简单,只需统计每个数值出现的频数,然后找出频数最大的数即可。
四分位数是将一组数据按照大小排列后,将数据分为四等份,四分位数是将数据分割点。
其中,第一四分位数是指将数据分割为四部分,第一部分包含25%的数据,第二四分位数是指将数据分割为四部分,第二部分包含50%的数据,第三四分位数是指将数据分割为四部分,第三部分包含75%的数据。
四分位数可以用来描述数据的分散程度和集中程度。
标准差是一组数据离平均数的平均距离,它衡量了数据的波动性或分散程度。
标准差越大,表示数据的离散程度越大;标准差越小,表示数据的离散程度越小。
标准差的计算公式如下:标准差= sqrt(每个数据与平均数的差的平方的和/ 数据的总数)离差是指一组数据中,各个数据与平均数的差值。
离差可以通过平均离差或标准离差来衡量。
平均离差是所有离差的平均值,标准离差是所有离差的平方和的平均值的平方根。
这些指标在实际应用中具有不同的作用。
平均数适用于对数据整体的描述,中位数适用于有极端值存在的情况下对数据的描述,众数适用于描述数据的最常出现的值,四分位数适用于描述数据的分布情况,标准差适用于衡量数据的波动情况,离差可以用于度量各个数据与平均数的离散程度。
离中趋势指标
离中趋势指标
离中趋势指标(Deviation from the Mean)是一种用来衡量数
据点或数据集离平均值的程度的指标。
离中趋势指标常用于统计学和金融领域,可以帮助人们理解数据的分布情况和稳定性。
离中趋势指标的计算方法较简单,通常通过求数据点与平均值之间的差值的绝对值或平方来衡量。
常见的离中趋势指标有标准差(Standard Deviation)、平均偏差(Mean Absolute Deviation)、方差(Variance)等。
其中,标准差是离中趋势指标中最常用的一种。
标准差可以通过先计算每个数据点与平均值的差值,然后计算差值的平方和,最后求平方和的均值的平方根得到。
标准差越大,表明数据点的离散程度越大,反之亦然。
平均偏差是另一种常见的离中趋势指标。
平均偏差的计算方法是先计算每个数据点与平均值的差值的绝对值,然后求差值的平均值。
平均偏差的结果越大,表明数据点的离散程度越大。
在金融领域中,离中趋势指标可以帮助投资者衡量投资组合或证券的风险。
例如,一个投资组合的离中趋势指标较大,表示投资组合中的证券价格波动较大,相应的风险也会增加。
投资者可以根据离中趋势指标的大小调整自己的投资策略,以更好地应对市场风险。
此外,离中趋势指标还可以用于判断数据集是否存在异常值。
如果数据点与平均值的差值较大,很可能是异常值的存在。
通
过识别和排除异常值,可以更准确地分析数据和进行决策。
要注意的是,离中趋势指标只能提供数据集离中趋势的一个度量,不能完全代表数据的分布情况。
在实际应用中,还需要结合其他统计指标和图表等来综合分析数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章离中趋势测量法
平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。
但是总体作为统计对象,还有其变异性的一面。
变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。
变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。
离势小,平均数的代表性高;离势大,平均数代表性低。
变异指标的种类较多,如按计算的基准来分有以下两类:
(1)以两数之差来表达的有全距和四分位差等。
(2)以对平均数偏差来表达的有平均差、标准差等。
变异指标如按数量关系来分有以下两类;
(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。
(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节全距与四分位差
1.全距
全矩是最大变量值与最小变量值之差,用R来表示。
对未分组资料,计算全距用原始式。
由于全距是一组数据中两个极端值之差,所以它又称极差。
全距的最大优点是:计算简单,便于直观。
缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。
一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。
2.四分位差
四分位是用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,它可以避免全距测量离中趋势受极端值影响大这个缺点。
但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。
第二节平均差
要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。
但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。
为此,我们采取处理离差绝对值的办法,如此构造出来的变异指标,称为平均差
1.对于未分组资料A·D的计算
平均差被定义为各变量值对其算术平均数(或中位数)离差绝对值的算术平均数,用A·D 表示。
对于未分组资料,求平均差用原始式。
2.对于分组资料A·D的计算
对于分组资料,计算平均差需用加权式。
3.平均差的性质
平均差以及接下来要讨论的标准差,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。
所以,平均差在受抽样变动影响、受极端值影响和处理不确定组距这三方面,它的性质均同于算术平均数。
与此同时,平均差由于计算时采用了取绝对值来消除正负号的影响的方法,它不便于代数运算,而且平均差的意义在理论上也不容易作出阐述。
所以,平均差作为变异指标,其运用比下面的标准差要少得多。
另外,根据中位数的性质可知,各变量值对中位数之差的绝对值总和为最小。
因而,有时以中位数为基准来计算平均差反倒比以算术平均数为基准来计算平均差更合理。
第三节标准差
为了克服平均差带有绝对值计算的缺点,同时保留平均差的优点(即它已将总体中各个单位标志值的差异全部包括在内),故将各离差平方后求算术平均,再求平方根,来构造变异指标,这样就得到一个常用的而且也是最重要的变异指标——标准差,用S表示。
1.对于未分组资科S的计算
标准差被定义为各变量值对其算术平均数的离差平方的算术平均数的平方根,又称均方差。
对于未分组资料,求标准差用原始式。
2.对于分组资料S的计算
对分组资料,计算标准差要用加权式。
3. 标准差的性质
标准差是测定总体各单位标志值的离散状况和差异程度的最佳指标,这是因为它在数学上便于代数运算,并且具有许多特有的性质:
(1)以算术平均数为基准计算的标准差,较之以任何其他数值为基准计算的标准差要小,这是因为算术平均数的“最小平方”性质。
(2) 标准差同平均差一样,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。
因为它已将总体中各单位标志值的差异全部包括在内了,所以它受抽样变动的影响小。
但是,标准差在受极端值影响和处理不确定组距这两方面,缺点均与算术平均数相同。
值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价值的概念。
所谓方差,即标准差的平方,它直接写成S2。
4.标准分
运用标准差.还可将原来不能直接比较的离差标准化,使之可以相加、相减、平均或者相互比较。
为此我们引入一个新的变量,用符号Z表示。
由公式可以看到,Z分数是以离差与标准差的比值来测定变量X与X的相对位置的。
第四节相对离势
上述各种反映离中趋势的变异指标,都具有和原资料相同的计算单位,称绝对离势。
但欲比较具有不同单位的资料的参差程度,或比较单位虽相同而均值不相同的资料的参差程度,离势的绝对指标则很可能导致某些错误结论。
所以,我们还得了解和学习相对离势。
1.变异系数
用离势的绝对指标除以其平均指标来求离势的相对指标,就可以在计量单位不同或平均水平不一的对象之间进行直接比较。
这种由绝对离势转化而来的相对离势称为变异系数,用符号V表示。
变异系数指绝对离势统计量与其算术平均数(或其他适当数值)的比值,变异系数是最具有代表性的相对离势。
(1)全距系数,是众数据的全距与其算术平均数之比。
(2)平均差系数,是众数据的平均差与其算术平均数之比。
(3) 标准差系数,是众数据的标准差与其算术平均数之比。
用绝对数表示离中趋势,对于描述数列的频数分布状况来说,其意义明显而易于理解。
但是,绝对离势只有在研究性质相同的总体且其平均水平也大体一致的情况下,才能用来在不同总体间进行比较。
我们知道,实际上,不同总体不但在水平上往往相差很大,而且它们的性质也往往互不相同。
在这种情况下,我们便要用离势的相对指标作为比较的依据了。
2.异众比率
所谓异众比率,是指非众数的频数与总体单位数的比值,用V·R来表示。
异众比率的意义在于能够表明众数不能代表的那一部分变量值在总体中的比重。
异众比率越大,各变量值相对于众数越离散;异众比率越小,各变量值相对于众数越集中。
异众比率计算简单,只要知道众数的频数和总体单位数就可以了。
因而,这种相对离势的测定不但适用于定距资料,也适用于定比、定类资料。
3.偏态系数
偏态系数是以标准差为单位的算术平均数与众数的离差,其取值一般在0与土3之间。
偏态系数为0表示对称分布,偏态系数为3
-则表示极右或极左偏态。
+或3。