第四章集中趋势测量法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 集中趋势测量法
统计资料经分类整理后,已经使杂乱无章的资料成为有系统有条理的资料。
为从中获取有用信息,寻求一简单数值以代表总体(或样本)是最起码的,这就提出了平均指标的计算问题。
平均指标的功用是表明现象总体在一定条件下某一数量标志所达到的一般水平。
第一节 算术平均数
在社会统计学中.算术平均数是反映集中趋势最常用、最基本的平均指标。
由于统计总体的标志总量通常都是各总体单位标志值之和,而且是与其总体单位数相对应的,因此用总体标志总量除以总体单位数即得算术平均数。
算术平均数一般用X 表示,它在推论统计中被称为均值。
算术平均数表示某一总体之总体单位平均所得的标志值的水平。
在实际工作中,由于统计资料整理的情况不尽相同,我们在运用定义计算算术平均数时,要视资料有没有分组加以区别对待。
在形式上,分组资料的计算式与未分组资料的计算式是有区别的,尽管它们在本质上并没有什么不同。
以后我们将看到,其他平均和变异指标的计算也同样如此。
1.对于未分组资料
对于未分组资料,计算算术平均数要用原始式。
2.对于分组资料
对于分组资料,计算算术平均数要用加权式。
对于单项数列,很显然,算术平均数X 不仅受各变量值(i X )大小的影响,而且受各组单位数(频数)的影响。
由于i X 对于总体的影响要由频数(i f )大小所决定,所以i f 也被称为权数。
值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。
这样一来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。
对于组距数列,由于每一组变量值不止一个,因此先要用每一组的组中值权充该组统一的变量值,然后再计算给定数列的算术平均数。
3.算术平均数的性质
(1) 各变量值与算术平均数的离差之和等于0。
(2)各变量值对算术平均数的离差的平方和,小于它们对任何其他数(X ’)偏差的平方和。
也就是说,各变量值与算术平均数的离差的平方和为最小值。
在统计学中,这被称为“最小平方”性质。
(3)算术平均数受抽样变动影响微小,通常它是反映总体分布集中趋势的最佳指标。
(4)算术平均数受极端值的影响颇大,遇到这种情况时,就不宜用它来代表集中趋势了。
(5)分组资料如通有开放组距时,不经特殊处理,算术平均数将无法得到。
第二节 中位数
把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值,即为中位数,用d M 表示。
中位数是把某一变量的全部数值分成了相等的两部分,一半数值比它大,
一半数值比它小,它居中。
所以,中位数也是一种能够反映现象一般水平和集中趋势的代表性数值。
中位数只与变量值的排序有关,因而它可以用于定距、定比资料,也可以用于定序资料。
1.对于未分组资科
先把所有数据按大小顺序排列,如果总体单位数N 为奇数,则取第
2
1+N 位上的变量值为中位数,如果总体单位数N 为偶数。
因为居中的数值不存在,按惯例,取第2
N 位和第2N +1位上的两个变量值的平均作为中位数。
2.对于分组资料
当根据单项数列求中位数时,先根据N /2在累计频数分布中判定中位数所在组,然后便知该组所属的变量值就是中位数了。
当根据组距数列求中位数时,要采用所谓的比例插值法:先根据N /2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用相应公式求出中位数。
3.中位数的性质
(1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数(X ’)之差的绝对值总和。
(2)中位数不受极端值的影响。
(3)分组资料有不确定组距时,仍可求得中位数。
(4)中位数受抽样变动的影响较算术平均数略大,因此中位数作为表示总体资料集中趋势的指标,使用也很广泛。
4.其他分割法
变量值经顺序排列后,中位数系将研究总体的所有单位分为相等的两部分,所以它又被称为二分位数。
类似于求中位数,我们还可以很容易求出四分位数、十分位数、百分位数等等。
第三节 众 数
“众”即多的意思。
众数是在一组资料中,出现次数(或频数)呈现出“峰”值的那些变量值,用M o 表示。
众数也是一个比较常用的反映现象集中趋势的代表性数值。
众数只与变量值出现的次数有关,因而它可以用于定距、定比资料,也可以用于定序、定类资料。
1.对于未分组资料
对于未分组资料,确定众数的方法比较简单,可直接观察。
首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。
从这个意义上,众数和中位数被统称为位置平均数。
2.对于分组资料
对于分组资料,如果是单项数列,众数确定方法同未分组的情况,只是更直观、更容易,观察频数分布就可以了。
当根据组距式变量数列求众数时,也要采取比例插值法求众数。
3.众数的性质
(1)在分组资料中,众数仅受上下相邻两组频数大小的影响。
而不受极端值的影响,因而对开口组资料,仍可计算众数。
(2)受抽样变动影响大。
(3)对于给定资料,其反映集中趋势的指标,只有众数不唯一确定。
有的资料只有一个众数,有的资料没有众数,有的资料则存在好几个众数。
(4)在频数分布中,众数标示为其“峰”值所对应的变量值,它的优点是帮助我们很容易区分出偏态以及单峰分布和多峰分布。
第四节几何平均数、调和平均数及其他
集中趋势还有两种常见的测定方法,这就是几何平均数和调和平均数。
1.几何平均数
几何平均数也是测定集中趋势的一种平均指标,它被定义为:N个变量值连乘积的N
次方根,用M g表示。
几何平均数是一种具有特殊用途的平均数。
主要适用于两种场合:①用以计算某种比率的平均数,如用于指数分析;②用以计算大致具有几何级数关系的一组数字的平均数,如世界各国都用这种平均法计算经济指标的平均发展速度。
几何平均数亦可分为未加权式和加权式。
必须指出,用以计算几何平均数的各项数值必须大于0,否则就不能计算几何平均数或计算结果无实际意义。
2.调和平均数
调和平均数也是测定集中趋势的一种平均指标,它被定义为:N个变量值倒数算术平均数的倒数,也称倒数平均数,用M h表示。
调和平均数也是一种具有特殊用途的平均数。
作为算术平均数的变形而使用的调和平均数适用于以下场合:如掌握的情况是总体标志总量而缺少总体单位数的资料,则可以采用调和平均数的公式计算平均数。
调和平均数亦有未加权式和加权式之分。
必须指出,用以计算调和平均效的各项数值不能出现0,否则不能就资料算出调和平均数。
3.各种平均数的关系
首先,算术平均数与中位数、众数之间存在着一定关系,这种关系决定于总体中频数分布状况。
在统计中,最多最常见的频数分布形式是所谓钟形分布。
如前所述,钟形分布又分为对称的正态分布和不对称的偏态分布。
当总体呈对称的正态分布时,算术平均数、中位数
和众数三者完全相等。
当总体呈不对称的偏态分布时,M d总是位于X和M o之间。
当X―M o>0时为正偏;当X―M o<0时为负偏。
另外,算术平均数、几何平均数和调和平均数可统称为数值平均数。
从数量关系的角度分析,算术平均数和调和平均数易受极端值影响,算术平均数受极大值的影响较大,调和平均数受极小值的影响较大,而几何平均数受极端值的影响相对较小。
因此,如用同一资料计
算这三种平均数,其结果可用下述不等式表示:X≥M g≥M h 。
只有当所有变量值都相同时,上述三种平均数才相等。