统计学 第三章 集中趋势的测量

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章集中趋势的测量
表示数据集中趋势的指标叫做集中量数,它是一组数据的代表值。

集中量数比起个别数据来,更能准确地反映所研究的事物和现象的真实情况,是真值最好的估计值。

当要用一个数值代表全部数据时,或两组数据要进行比较时,就要用到集中量数。

常用的集中量数有三种:平均数,中数,众数。

第一节平均数
平均数通常是指算术平均数, 只有在需要与其它平均数相区别时,才使用算术平均数这一名称。

图3-1 集中量数在不同分布中的位置
一、算术平均数
算术平均数(Mean)符号X。

是集中趋势的重要指标。

如果数据的分布形态是正态分布,算术平均数的位置处于正态分布曲线的中间,位于对称轴上(图3-1上)。

在偏态分布中总处于曲线偏斜的一端(图3-1下)。

只有当数据相对集中,并且数据中没有极端数值的时候,平均数才具有代表性,才适合使用平均数表示集中趋势。

1.未分组数据的计算
计算未分组数据的平均数,是用全部数据的和除以数据个数。

所得的值为整组数据的代表。

数据少时使用计算器较为方便。

平均数的计算公式:
N X
X ∑=
(3.1)
式中,X :原始数据;Σ:求和符号(希腊字母,读:sigma ),表示将所有的数据都加起来;N :数据个数;
2.分组数据的计算
当数据较多,或需要了解数据的分布形态已将数据分组后,可利用已列好的次数分布表计算平均数。

N X f X '∑=
(3.2) 式中,f :各小组的数据个数;X’:各小组中数;Σ:和号; N :
数据总个数。

例题3-2:一项心理测验成绩得出的次数分布表如下,请求出平均成绩。

表3-1 心理测验成绩 分数 X ’ F FX ’ 35-39 37 5 185 30-34 32 12 384 25-29 27 20 540 20-24 22 27 594 15-19 17 25 425 10-14 12 19 228 5 – 9 7 7 49 Σ
/
115
2405
计算步骤:
(1)在表中求出各组次数与各组中点的乘积列fX’列。

(2)累加各组次数f 列、得出总数115 (3)累加乘积fX’列、得出总数2405。

(4)用公式3.2求出 X 。

计算:
9.201152405
=='∑=
N X f X
答:115人的成绩平均数为20.9分。

二、加权平均数
加权平均数符号 W X。

由于数据n 不等时各小组平均数所代表的数据个数不等。

此时各小组平均数的意义对于总平均数就不同,因此在计算总平均数时要考虑小组n 的权重,而采用加权的方法。

1.加权平均数的计算
计算公式:
n X n X W ∑∑=
)( (3.3) 式中W X :加权平均数;Σ:和号;n :小组数据个数。

2.加权百分数的计算 计算公式
n np X PW ∑∑=
)( (3.4) 式中PW X :加权百分数;Σ:和号;P :小组百分数;n :小组数据个数。

三、平均数的特点与应用
1.平均数的特点
(1)计算平均数时,全部数据都参加运算,因此每个数据对平均数的大小都有影响。

它定义明确,计算结果稳定。

(2)平均数另一个很重要的特点,即:平均数是一组数据的重心。

它像一个平衡的天平的支点。

每一个数据减去平均数所得的差叫离均差。

该特点定义为:离均差之和等于零。

用公式表示: 0)(=-∑X X
2.平均数的使用
当数据中没有极端数值(与大多数数据相比特别大或特别小的个别数据)时,平均数通常为首选集中量数。

但是如果数据中存在以下三种情况时就不能使用平均数。

(1)数据中存在个别极端数值时,就不能使用平均数。

(2)当数据的末端存在只有数位而无数值的情况时,因为缺少数据不能计算平均数。

(3)当数据中存在两种不同性质的数据时,不能使用平均数。

第二节 中数和众数
一、中数
中数(median )符号mdn ,中数是在一组按大小排列的数据中位置居
中的那个数,它将数据分为大的一半小的一半。

中数的位置在正态分布中, 处于曲线的中间,位于对称轴上(图3-1上)。

在偏态分布中, 位于平均数偏峰值的一边,约为平均数到峰值的三分之一处(图3-1下)。

1.中数的计算
计算中数分3步,首先要将数据从小到大排序,这是计算中数必须的步骤。

然后确定中数的位置,计算出的位置,通常是排列好的数据中间的那个数的位置,或是位置在中间的那两个数之间。

最后按数据的具体情况计算中数的数值。

(1)未分组数据中数的计算
未分组的数据一般数据个数较少,计算要较为精确,因此中数的准确位置为:
位置=(N+1)/ 2 N:是数据的个数
①数据个数为奇数,且中数位置处无相同数据
例题3-5:求出下列数据的中数。

9、11、7、3、5、26、4
解:排序:
中数位置:(7+1)/2 = 4 即,第四位数是中数Mdn = 7
答:中数是7。

7位于数据中间,有一半的数据在它之上,有一半的数据在它之下。

②数据个数为偶数,且中数位置处无相同数据
例题3-6:求出下列数据的中数。

解:中数位置=(N+1)/ 2 即(8+1)/ 2=4.5
中数在:7与9之间,Mdn=(7+9)/ 2 = 8
答:中数为8。

大于8的数据有4个,小于8的数据也有4个。

③无论数据个数为奇偶,在中数位置处有相同数据。

例题3-7:求出下列数据的中数。

解:中数位置=(11+1)/2 = 6 即:中数的位置在第3个5处。

中数位于第三个5处,在中数位置一连有4个5。

当有相同数值时,应把5看成一个区间,即4.5~5.5,在这个区间中均匀地散布着4个5。

这个区间总值为1,第三个5所在区间的组中值之前占1的2/4+1/4×1/2,因此中数等于5的下限加上2/4+1/4×1/2。

计算如下: 4.5 + 1/4 + 1/4 + 1/4 × 1/2 = 5.13
答:第三个5所在区间的中值就是中数的位置,中数的数值为5.13。

例题3-8:求出下列数据的中数。

解: 中数位置=(N+1)/2=(6+1)/2=3.5, 即中数的位置在第二个13与第三个13之间。

把13看成一个区间,即12.5~13.5,在这个区间中均匀地散布着3个13。

这个区间总值为1,在中数之前占1的有2/3,因此中数等于13的下限加上2/3。

计算如下: 12.5 + 2 /3 =12.5+0.67= 13.17
答:中数位于第二、三个13之间,数值为13.17。

(2)分组数据中数的计算
已分组的数据数据个数较多,因此计算中数的位置稍粗一些,在分组数据中的位置:
位置= N/ 2 N 是数据的个数
①分组数据中计算中数的公式: 3.4a 、3.4b 利用下限计算: 公式: 3.4a
i f F N L mdn mdn
b
)2/(
-+= ( 3.4a )
式中,L :为中数所在组的下限;N :为数据总个数;
Fb :为中数所在组以下组数据个数之和;i :组距; fmdn :中数所在组的数据个数。

利用上限计算: 公式: 3.4b
i f F N U mdn mdn
a
)2/(
--= ( 3.4b )
式中U :为中数所在组的上限;N :为数据总个数;
Fa :为中数所在组以上各组数据个数之和; i :组距;fmdn :中数所在组
的数据个数。

2.中数的特点与应用
(1)中数不是一个很稳定的指标
中数是排好顺序的数据正处在中间位置上的数值,对中数而言,重要的是位置而不是数值的大小。

因为只取一点的数值,因此它的代表性小于平均数。

所以说中数不是一个稳定的指标。

(2)中数对数据中其他数据数值的变化不敏感
二、众数
众数(Mode)符号Mo。

众数就是在数据中出现次数最多的那个数。

使用它可以最快地了解数据的集中趋势,但它是一个较粗糙和极不稳定的指标,在正式研究结果中很少采用。

众数的位置无论在对称的分布中,还是在偏斜的分布中,都位于峰值处。

需要很快的知道集中趋势时,可以使用众数。

第三节平均数、中数、众数的比较
在正态分布中平均数、中数、众数都相等,位置居于分布的中轴线。

在偏态分布中,算术平均数总处于曲线偏斜的一端。

中数的位置位于平均数偏峰值的一边,约为平均数到峰值的三分之一处,中数把曲线下的面积分为大小相等的两部分。

众数的位置无论在对称的分布中,还是在偏斜的分布中,都位于峰值处(图3-1)。

平均数、中数和众数常用来描述一个分布的分布状态。

在一个对称的分布中,平均数、中数、众数都相等。

在偏斜的分布中平均数总是处于偏斜的一端,因此,用平均数作为偏斜方向的指标,当平均数在负数方向为负偏斜;平均数在正数方向为正偏斜。

从图3-1中可以看出,当平均数大于中数或众数,曲线为正偏斜,当平均数小于中数或众数,曲线为负偏斜。

因此可利用平均数、中数、(众数)的大小来描述一个分布的偏斜状况。

当X> Mdn > Mo为正偏斜,当X< Mdn<Mo为负偏斜,当X= Mdn = Mo
为对称的曲线。

在实际应用中只用平均数、中数或众数就可以了。

集中趋势的指标中, 平均数的代表性最大, 因为数据组中所有数据都参加运算。

中数只用一、二个数据计算,中数的代表性比平均数小一些。

众数只用到数据个数最多的那个数值,因此代表性最小。

在选用集中量数时,要从分析需要和数据的具体情况两方面考虑。

当数据中没有极端数值,分布比较对称,继续的计算和分析需要时,应选用平均数。

当数据分布比
较偏斜,分布的一端有极端数值或者有数位无数值时,就应选用中数。

当需要很快和粗略地了解数据的集中趋势时,可选用众数。

相关文档
最新文档