常用的数据统计方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常用的数据统计方法
一、集中趋势分析
集中趋势反映一组资料中各数据所具有的共同特征,如资料中各数据聚集的位置或者一组数据的中心点等,可以是算术平均数、中位数、众数等。
•算术平均数
算术平均数也可以称作均值,是数据集中趋势的最主要测度量。
(1)简单算术平均数。简单算术平均数的计算公式如下:(P2)
∑ = 求和符号
X = 每一变量
N = 样本量
例 1:已知某组织五类主要职工的月收入分别是 4000 、 5000 、 6000 、 10000 和15000 元,求这五类职工的平均月收入。
解:
(元)
以上大小不等五个数值的月收入水平相互抵消的结果反映的该组织职工公众的平均月收入水平。从数据分布来看各个数据围绕 8000 元上下分布,算术平均数就是该组数据的中心值,反映了该组数据的集中趋势。
(2)加权算术平均数
如果是根据分组资料计算算术平均数,由于分组资料中每个数值出现的次数不同,所以要用次数做权数计算加权算术平均数。计算公式如下:
F = 权数(每一变量的次数或频率)
∑ F = N = 样本量
例 2:某组织有月收入 3000 元的公众 50 人, 5000 的 30 人, 7000 的 10 人,10000 的 8 人, 15000 的 2 人,求该组公众的平均月收入。
解:
=480000/100=4800 (元)
可见该组公众的平均月收入不简单地等于(3000+5000+7000+10000+15000) /5 。从加权算术平均数的计算公式以及上例的计算过程及结果来看,算术平均数大小不仅受到各组变量数值大小的影响,而且还受各组变量权数大小的影响。
例 3:某组织公众周工资水平整理成分组资料如下表,试计算该组织公众周收入的平均值。
按工资分组工人数组中值
F M
100~200 10 150
200~300 30 250
300~400 40 350
400~500 20 450
合计 100 —
解:
或者150 × 10%+250 × 30%+350 × 40%+450 × 20%=320 (元)
从例 3 可见,由于原来观测值的原始信息已无法在资料中显示,所以只能以组中值(即各组变量上限和下限的平均数)来代替实际变量值。这实际上是假定各组中的观察值是均匀地分布在各组之内,即假定在任一组中,比组中值大和比组中值小的变量同样多,且大小数值抵消之后正好等于组中值。如果实际资料和假定相差较远是,计算结果就会和实际观察值的均值有较大误差;特别是当次数分配资料中有开口组时(如上例中可能有 500 元以上组),由于一般用相临组的组距决定开口组的组距,这时假定性更大,计算结果的误差也就更大。
•中位数
中位数是指在数字资料中处于中等水平的标志值。如果总体中变量均匀分布,中位数应该将全部变量大小平分为两部分。即,使得总体中半数变量小于中位数,另外半数变量大于中位数。用这样一个中等水平来表征变量的集中趋势具有非常直观的意义。中位数的计算方式如下:(P5)
(1)未分组原始资料的中位数计算方法
把变量按大小顺序排列,中位数可按以下公式求得:
(N 为奇数)
(N 为偶数)
例 4:某组织领导层 11 位领导年龄分别为 35 、 37 、 39 、 40 、 42 、 42 、 43 、43 、 45 、 46 、 50 岁,求该组织领导层年龄的中位数。
解:题中各变量已经按大小顺序排列,且样本量 N=11 是奇数,所以:
Md 的位置 =(11 + 1)/2 = 6
Md = 42 (岁)
例 5:假设该组织另一位领导 53 岁,求该领导层年龄中位数。
解:因为样本量 N =12 是偶数,
Md 的位置 =(12 + 1)/2 = 6.5
所以中位数应该是第 6 位、第 7 位领导年龄的平均数
Md = (42+43)/2 = 42.5 (岁)
(2)已分组资料中中位数的确定
(下限公式)
( 上限公式 )
L = 中位数组变量下限
U = 中位数组变量上限
S = 中位数组前一组的向上累计频数
Sˊ= 中位数组后一组的向下累计频数
例 6:某组织公众年龄抽样调查资料如下,确定该组公众年龄的中位数。(第 7 页)
年龄人数(F)向上累计人数(S)向下累计人数(S')
18 岁以下 18 18 1000
18~25 74 92 982
25~30 180 272 (S) 908
30~35 240 (Fмd) 512 728
35~40 260 772 488 (S ˊ)
40~45 140 912 288
45~50 53 965 88
50~55 26 991 35
55~60 6 997 9
60 以上 3 1000 3
合计 1000 ————
(以上资料部分来源于黄良文、曾五一《统计学原理》,第 67 页)
解:因为∑ F/2 = 1000/2 = 500 ,所以中位数组是第四组,即 30~35 年龄组,所以
(岁)或者
(岁)
3 .众数
众数是一组资料中出现次数最多的变量,用众数来表征总体的一般特征或集中趋势,具有非常直观的代表性意义。例如一种商品的实际售价可能经常在变化,而它在市场上成交数量最多的哪个价位就是该商品价格的众数;某组织公众年龄大小不同,多数公众的年龄则是该组织公众年龄的众数。