平均指标-统计学基础知识课件.doc
统计学基础平均指标和变异指标
统计学基础平均指标和变异指标平均指标和变异指标是统计学中常用的两种指标,用于描述数据分布的中心趋势和离散程度。
在统计分析中,这两个指标的应用非常广泛。
1.平均指标:平均指标是用来表示数据分布的中心位置的指标,常见的平均指标有平均数、中位数和众数。
-平均数:平均数是指一组数据之和除以数据个数,表示了数据的平均水平。
平均数的计算方法是将所有数据相加,然后除以数据个数。
例如,对于一组数据:2,3,5,7,10,平均数的计算方式为(2+3+5+7+10)/5=5.4-中位数:中位数是将数据按照大小顺序排列后位于中间位置的数值,它划分了数据的中间位置。
如果数据个数为奇数,则中位数为排序后的中间值;如果数据个数为偶数,则中位数为排序后中间两个值的平均值。
中位数对于数据的极端值不敏感,适用于数据有异常值的情况,能够更好地表示数据的中心位置。
例如,对于一组奇数个数据:1,3,5,7,9,中位数为5;对于一组偶数个数据:2,4,6,8,中位数为(4+6)/2=5-众数:众数是一组数据中出现次数最多的数值,表示了数据中的高频值。
一个数据集可以有一个或多个众数。
如果一个数据集没有重复值,那么它没有众数。
例如,对于一组数据:1,2,3,4,4,4,5,众数为42.变异指标:变异指标是用来度量数据分布的离散程度,可以用来描述数据的稳定性和可变性。
常见的变异指标有极差、方差和标准差。
-极差:极差是一组数据的最大值和最小值之间的差异,表示了数据的全距。
极差越大,数据的离散程度越大;极差越小,数据的离散程度越小。
例如,对于一组数据:2,3,5,7,10,极差为(10-2)=8-方差:方差是一组数据与其平均数之间偏离程度的平均值的统计量,表示了数据分布的离散程度。
方差的计算公式是每个数值与平均数之差的平方之和除以数据个数。
例如,对于一组数据:2,3,5,7,10,平均数为5.4,方差的计算方式为[(2-5.4)^2+(3-5.4)^2+(5-5.4)^2+(7-5.4)^2+(10-5.4)^2]/5≈7.04-标准差:标准差是方差的平方根,是一个衡量数据分布离散程度的指标。
统计学原理平均指标
计算栏
丙 合计
115 ——
2300 16880
2000 16000
解:
平均完成计划程度 Xh
m 16800 105.5% m 16000 x
统计学原理
各种平均指标的计算方法
数值平均数
4. 算术平均数与调和平均数的适用条件
关键在于以算术平均数的基本公式为依据
算术平均数 总体标志总量 总体单位总量
f
fn
x
f
f
Xf — —总体标志总量 总次数或总权数 f — —总体单位总数,亦称
统计学原理
平均指标的种类和计算方法
数值平均数
权 数
绝对权数:次数、频数等,绝对数表示; 相对权数:比重、频率等,用相对数表示。 单项数列:x为单变量值
分组类型
组距数列:x 用组中值代替
注:加权算术平均数不仅受变量值大小的影响,还受 到受各组次数多少的影响。权数有权衡轻重的作用。
统计学原理
各种平均指标的计算方法
数值平均数
例:现阶段,在校大学生上网的情况比较普遍。以 下调查了 10 个在校大学生,某天花费在手机或电脑 上网的时间(单位:小时)分别如下,求平均上网 时间。
0 2 3 5 10 3 4 1 6 4
解:(1)未分组数据:简单算术平均数 (2)计算公式 (3)计算
统计学原理
数值平均数
2. 算术平均数与强度相对数的区别
(1)总体范围不一致:算术平均数分子分母总体范围一
致,两者存在从属关系;强度相对指标不存在标志值 与各单位的对应问题。
(2)强度相对指标分子分母可互换,算术平均数则不可。
例:
工人工资总和 工人平均工资 工人总和 全国某年人均粮食产量 全国该年度粮食总产量 全国人口总数
统计学课件第三章 综合指标(总量 相对 平均 变异指标)
水平法的计算方法:
1、 计划完成程度 计划期末年实际达到的水平
计划期规定末年应达到的水平
例、某地区“九五”计划规定某种产品产量在2000年应达到 200万吨,实际到220万吨。则该产品产量的计划完成程度 为:
220 计划完成程度 100% 110% 200
计算表明,超额10%完成“九五”计划。 2、计算提前完成计划的时间:是以连续12个月的实际数达到 了计划规定的末年水平,则往后的时间均为提前完成计划的 时间。 例:某种产品产量从1999年7月份至2000年6月份实际已达到 200万吨。则该产品产量提前半年时间完成计划。
折合系数 (4)=(2) ÷21% 1.00
(甲)
(1)
(2)
硫酸铵
82000
21.00
硝酸铵
25000
34.65
8662.5
1.65
41250
尿
素
45000
46.20
20790
2.20
99000
碳酸氢铵
16000
16.40 —
2624
0.7809 —
12495
合计
168000
49297
234745
第一产业
第二产业 第三产业
103.53 107.41
298.67
585.38 545.21
284.28
604.39 591.04
283.00
657.51 648.83
95.18 99.54 103.25 111.25 108.41 109.78
5、计划完成程度相对数:是现象在某一段时间 内实际完成数值与计划任务数值的对比。 计划完成程度相对数=实际完成数 / 计划任务数
第三章第二节平均指标概论
3-2-24
日产量(件) 工人数
20
10
21
20
22
30
23
60
24
50
25
30
合计
200
日产量(件) 工人数
20
20
21
40
22
60
23.05(件)
3-2-21
(2)组距式加权算术平均数
以组中值作为各组的代表值,假定各组标志
值在组内分布是均匀的。
x
x1
f
1 x2 f f
f
2fxn
f
n
1
2
n
xf f
3-2-22
例:某年我国80个产棉大县的分配数列
xf 按产棉量分 县数 组中值
组(百吨) f x
100 以下 5 50 250
x
x1
x2
n
xn
x n
6082465566 3636 72.72
50
50
3-2-19
2.加权算术平均数:已编制分配数列的情 况下。
—公式:
x
x 1
f x f
1
2
f f
x 2 f n
f
n
1
2
n
n
x i
i 1
f
i
x i
f i
n
f i
f i
i 1
xf f
3-2-20
(1)单项式数列的算术平均数
(1)例:生产小组5个工人的日产量分别为 28、25、30、35、42件,则平均工人日 产量=(28+25+30+35+42)/5=32 (件)
统计学第四章(平均指标)
x X
算术平均数:全部变量值之和 与变量值个数相除所得的商。通常 也称为平均数(average)或均值 (mean)。
算术平均数的计算方法 A. 简单算术平均数 ——适用于总体资料未经 分组整理、尚为原始资料 的情况
X 1 X 2 X N X N
X
i 1
N
i
N
式中: X 为算术平均数; N为总体单位总数; X i 为第i 个单位的标志值。
( x x ) min
2
二、平均指标的种类及计算方法
★ ㈠ 算术平均数 ★ ㈡ 调和平均数
㈢ ㈣ ㈤ 几何平均数 中位数 众数
数值平均数
位置平均数
调和平均数
适用于不能直 接求均值的情 况。
是总体各单位标志值倒数 的算术平均数的倒数,又 叫倒数平均数
调和平均数的应用
【例】某企业某日工人的日产量资料如下:
1 2 3 4 5 6 7 8 9
权数与加权
STAT
1
2
3
4
5
6
7
8
9
权数与加权
STAT
权数与加权
STAT
1 2 2 2 3 4 4 5 5 3 6 2 7 1 8 1 9 1 x 4.24 21
权数与加权
STAT
1
2
3
X 1 f1 X 2 f 2 X m f m X f1 f 2 f m
X
i 1 m i 1
m
i
fi
i
f
X 为算术平均数; f i 为第i组频数; 式中: X i 为第 i 个单位的标志值。
算术平均数的计算方法
第四章 集中趋势指标与离中趋势指标 《统计学基础》PPT课件
4.1.2 算术平均数
性质1. 性质2.
各变量值与其算术平均数离差之和等于零
各个变量值与其算术平均数离差平方和为 最小值
4.1.3 调和平均数
平均数的倒数。
,它是各个变量值倒数的算术
பைடு நூலகம்
4.1.4 几何平均数
几何平均数是n个变量值连乘积的n次方根。 几何平均数主要应用于计算平均比率和平 均速度。
1. 简单几何平均数
2. 加权几何平均数
4.1.5 中位数
中位数就是将数据观察值按大小顺序排列,处在中间位 置的那个观察值。
4.2.1 离中趋势指标的意义和作用
反映各单位标志值之间差异程度大小的指标,叫离中 趋势指标,也称标志变异指标。
第一,它可以衡量平均指标代表性的大小。 第二,它可以反映社会生产和其他经济活动的均衡 性或协调性强弱。
4.2.5 离散系数
离散系数也称标志变异系数,它是离 散程度指标与平均指标之比,是说明变量 值离中程度的相对指标。该指标数值大, 则变量值离中程度大,其平均数代表性小; 若指标数值小,则离中程度小,其平均数 代表性高。
离散系数主要是指标准差系数,标准差系数是标准差与其 算术平均数之比。用来说明现象离中的相对程度。其计算 公式为:
4.3.1 集中趋势指标测度方法评 价
单纯从数量关系上考察
调和平均数<几何平均数<算术平 均数
当统计资料的分布 曲线是一对称的钟 形分布时,其算术 平均数、中位数和 众数三者相等。
4.3.2 应用集中与离中趋势指标 应注意的问题
(一)计算平均指标的社会经济现象必须是 同质的 (二)用组平均数补充说明总平均数 (三)统计平均数应与变量数列和典型事例 相结合 (四)集中与离中趋势指标结合运用
统计学(6)平均指标
例 现检测某厂生产的一批电子产品的耐用时间, 得到资料如下表所示:
耐用时间 600以下 600-800 800-1000 产品个数(个) 84 161 244
令M xf
则x
M 1 x M
xf 1 x xf
H
三、 几何平均法
(一)什么是几何平均法?
• 几何平均法是n个变量连乘积的n次根。 • 几何平均法一般适用于各变量值之间存在环比关系的事物。如:银行平均利率、 各年平均发展速度、产品平均合格率等的计算就采用几何平均法。 • 1、简单几何平均法
解答:
H
f 1 xf
200 200 200 600 25.2 (公里/小时) 1 1 1 23.81 200 200 200 30 28 20
x
xf f
30 2 28 2 20 2 156 26(公里/小时) 222 6
xf f
• 其中: X 代表算术平均数,Xn 代表各单位标志值(变量值),fn代表各组单 位数(项数)。
• (1)根据单项数列计算加权算术平均 • 例2:
零件数(件) 工人数(人) 产量=零件数*工人数
xi
30 32 34 35 36
fi
20 50 76 40 14
Xi*fi
600 1600 2584 1400 504
四、众数和中位数
(一)众数
• 1.众数是指变量数列中出现次数最多或频率最大的变量值。 • 2.适用条件:只有集中趋势明显时,才能用众数作为总体的代表值。 • 3.众数的计算方法
统计学基础-总体分布集中趋势分析(平均指标)
任务五:总体分布集中趋势分析(平均指标)一、平均指标的意义•(一)平均指标的概念•概念:表明同质总体内某一数量标志在一定时间、地点、条件下所达到的一般水平。
•理解•特点反映总体的一般水平反映总体的集中趋势代表性的数值:说明总体单位标志值的一般水平抽象化的数值:抽象化总体各单位标志值的差异计算同类现象:计算相同性质的单位构成的总体一、平均指标的意义•(二)平均指标的作用•1.消除总体数量差异使其具有可比性。
•2.平均指标可作为对事物进行评价的客观标准。
•3.平均指标可以用来分析现象之间的依存关系。
•4.平均指标在抽样推断中是一个重要指标。
•(三)平均指标的种类•1.按时间•2.按计算一、平均指标的意义静态平均数:同一时间总体单位标志值一般水平动态平均数:同一事物在不同时间条件下的一般水平数值平均数位置平均数算数平均数调和平均数几何平均数众数中位数二、算术平均数•(一)算术平均数的基本形式•算数平均数:反映该数量标志在总体中的一般水平。
•算术平均数=•例题:某企业某月工人工资总额为260 000元,工人人数为200人,则该月工人的平均工资为:•注意总体标志总量和总体单位总量必须属于同一个总体分子、分母在内容上必须保持总体范围的一致性二、算术平均数•算数平均数与强度相对指标的区别定义计算算数平均数:说明的是现象发展的一般水平强度相对指标:某现象在另一现象中的发展强度等算数平均数:分子分母是从属关系,分母的改变影响分子强度相对指标:虽有平均之意,但分子分母不是从属关系•1.简单算术平均数(未分组的资料)• •某小组有6位同学,统计学考试成绩分别为70分、78分、82分、85分、90分、98分,求该组的平均成绩。
(二)算术平均数的计算为算数平均数为总体各单位的标志值n 为总体单位个数为加总符号二、算术平均数2.加权算术平均数(资料已分组)二、算术平均数为算数平均数为总体各单位的标志值n 为总体单位个数为加总符号f 为各组的次数(权数)说明:分组资料单项数列:加权算术平均数公式计算组距数列:以组中值代表各组标志值•注意:•(1)公式的变形:用比重即频率形式表示:•(2)当•(3)应用:标志值和权数的乘积为标志总量且具有实际经济意义二、算术平均数权数一般情况下:分组资料中变量值的次数为权数变量值为相对数或平均数,次数不合适为权数二、算术平均数•3.算术平均数的数学性质•性质一:算术平均数与总体单位数的乘积等于各变量值的总和。
第五章 平均指标和变异指标 《统计学原理》PPT课件
第一节 平均指标的概念和作用
一、平均指标的概念 平均指标,是同类社会经济现象总体内 各单位某一数量标志在一定时间、地点和条件 下数量差异抽象化的代表性水平指标,其数值 表现为平均数。
二、平均指标的作用 (一)利用平均指标,可以了解总体次数分布的集
(二)利用平均指标,可以对若干同类现象在不同 单位、地区间进行比较研究
G
f 1 f 2 f 3 fn X1 f 1 • X 2 f 2 • X 3 f 3 • X n fn
f
Xf
[公式5—8]
第五节 众数和中位数
一、众数
在观察某一总体时,最常遇到的标志值,在 统计上称为众数。
下限公式:
M0
L
( f0
( f0 f 1 ) f 1) ( f0
•i f 1 )
X1 X 2 X 3
Xn
m
1 X
[公式5—6]
[例5-4]某农产品收购部门,某月购进三批 同种产品,每批产品的价格及收购金额见表 5-3,求三批产品的价格.
[例 5-4]
第一批 第二批 第三批
合计
价格X(元/千 克) 50 55 60
_
收购金额 m(元) 11000 27500 18000
56500
(三)利用平均指标,可以研究某一总体某种数值 的平均水平在时间上的变化,说明总体的发展过程和 趋势
二、平均指标的作用 (四)利用平均指标,可以分析现象之间的 依存关系 (五)平均指标可作为某些科学预测、决策 和某些推算的依据
第二节 算术平均数
一、算术平均数的基本形式
算术平均数
总体标志总量 总体单位总数
[公式5—1]
例如,某公司某月的工资总额为744万元,工 人总数为2000人,则该公司工人的月平均工 资为:
统计学习题--第四章-集中趋势的量度:平均指标.doc
第四章集中趋势的量度:平均指标第一节算术平均数简单算术平均数·加权算术平均数·算术平均数的性质第二节中位数对于未分组资料·对于分组资料·四分位数与其他分位数·中位数的性质第三节众数对于未分组资料·对于分组资料·众数的性质第四节几何平均数与调和平均数及其他几何平均数·调和平均数·各种平均数的关系一、填空1.某班级中男生人数所占比重是66.7%,则男生和女生的比例关系是()。
2.在频数分布图中,()标示为曲线的最高点所对应的变量值。
3.在频数呈偏态分布时,()必居于X 和M0之中。
4.算术平均数、调和平均数、几何平均数又称为(数值)平均数,众数、中位数又称为(位置)平均数,其中()平均数不受极端变量值得影响。
5.调和平均数是根据()来计算的,所以又称为(倒数)平均数。
6.加权算术平均数是以()为权数,加权调和平均数是以(各组标志总量)为权数的。
7.对于未分组资料,如总体单位数是偶数,则中间位置的两个标志值的算术平均数就是()。
二、单项选择1.分析统计资料,可能不存在的平均指标是()。
A 众数B 算术平均数C 中位数D 几何平均数2.对于同一资料,算术平均数,调和平均数和几何平均数在数量级上一般存在如下关系( D)A M g≥M h≥XB M h≥ X ≥ M gC M h≥M g≥XD X≥M g≥M h3.下面四个平均数中,只有()是位置平均数。
A 算术平均数B 中位数C 调和平均数D 几何平均数4.从计算方法上看,P1Q1是()。
P1Q1 /K PA 算术平均数B 调和平均数C 中位数D 几何平均数5.由右边的变量数列可知:()A M 0> M d;完成生产定额数工人数B M d> M 0;10- 20 35 20- 30 20C M 0>30 30- 40 25 40- 50 10D M d>3050- 60 156.某车间三个小组,生产同种产品,其劳动生产率某月分别为150,160, 165(件 /工日),产量分别为4500, 4800, 5775(件),则该车间平均劳动生产率计算式为()A 150 160 165158.33 (件 /工日)3B 150 4500 160 4800 165 5775158.53 (件/工日)4500+ 4800+ 5775C 4500 4800 5775 158. 68(件/工日)4500 4800 5775150 160 165D 3 150 160 165=158.21(件/工日)7.关于算术平均数的性质,不正确的描述是()A各变量值对算术平均数的偏差和为零;B算术平均数受抽样变动影响微小;C算术平均数受极端值的影响微小;D各变量值对算术平均数的偏差的平方和,小于它们对任何其它数偏差的平方和。
统计学 第六章 平均指标和标志变异指标概论
哪名运动员的发挥更稳定?
最会的比赛结果是: 中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环 夺得金牌; 预赛排在第1名的俄罗斯运动员纳塔利娅·帕杰 林娜以总成绩498.1环获得银牌; 预赛排在第4名的格鲁吉 亚运动员妮诺·萨卢克瓦泽以总成绩487.4环的成绩获得铜 牌; 而预赛排在第3名的蒙古运动员卓格巴德拉赫·蒙赫珠 勒仅以479.6环的成绩名列第8名
学习目标
● 理解平均指标的意义和作用 ● 掌握数值平均数的计算方法 ● 掌握位置平均数含义﹑适用范围及计算 ● 能运用标志变异指标进行平均数 代表性的对比分析
学习重点
1、平均数和强度相对数的区别;算数平均数的特点 2、数值平均数的计算 3、众数的定义、计算及特点 4、中位数的定义、计算及特点 5、四分位数的确定 6、能运用标志变异指标进行平均数代表性的对比分析
x x1 x2 x3 xn x
n
n
四、加权算术平均数
例2 某车间20名工人加工某种零件资料:
按日产量分 工人数(人)f 日产总量 xf 组(件)x
14
2
28
求平均日产量?
15
4
60
16
8
128
平均日产量 319 20
17
5
85
16件
18
1
18
合计
20
319
Байду номын сангаас
四、加权算术平均数
1、根据单项数列计算加权算术平均数
计算公式:
n
x
x1 f1 x2
f2 x3 f3 xn
n
fn
xi
i1 n
fi
fi
fi
i1
i1
统计学平均指标
统计学平均指标平均指标是统计学中一种常用的统计量,用于衡量一组数据的集中趋势。
它是指一组数据中各个数值与这组数据的平均数的差的平方和的均值。
平均指标在许多领域都有重要的应用,包括经济学、社会科学、医学等。
平均指标有不同的计算方法,其中最常用的是算术平均数。
算术平均数是将一组数据中所有数值相加后除以数据的个数得到的结果。
它反映了数据的平均水平,是最简单、最直观的集中趋势测度。
然而,算术平均数有一个局限性,即它非常容易受到极端值的影响。
例如,如果一个样本中有一个异常值远远大于其他数值,算术平均数会被拉高。
为了克服这个问题,统计学家开发了其他类型的平均指标,如中位数和众数。
中位数是一组数据中的中间值,即将数据从小到大排序后的中间数。
中位数不受极端值的影响,它更能代表数据的典型值。
中位数适用于有偏态分布或存在离群值的数据集。
众数是一组数据中出现频率最高的值。
众数适用于具有离散型数据和多峰分布的情况,它能够反映数据的高频值。
除了算术平均数、中位数和众数,还有其他一些平均指标可用于不同类型的数据分析。
例如,调和平均数适用于速度和比率的计算,几何平均数适用于指数增长率的计算。
除了上述三种常用的平均指标外,还有一些其他的平均指标,如加权平均数和均值偏差。
加权平均数考虑了各个数值的权重,更适用于一些特定情况,例如有些数据点比其他数据点更重要。
均值偏差测量了每个数据点与平均数的差异程度,进一步提供了关于数据分布的信息。
平均指标在统计学中起到了重要作用,它们能够帮助我们理解数据的集中趋势。
通过计算平均指标,我们可以更好地分析数据、做出结论和做出决策。
在现实世界中,平均指标也被广泛用于研究、预测和决策制定过程中。
总结起来,平均指标是统计学中用于衡量数据集中趋势的一种重要统计量。
它可以提供数据的平均水平,帮助我们理解数据的特征和趋势。
平均指标有不同的计算方法和应用场景,我们需要根据具体情况选择适合的指标,以更好地分析数据和做出决策。
统计学第四章_平均指标和变异指标
=
f
=
A
x
nA
=
x
n
简单算均数是加权 算均数的一个特例
cyz
14
※关于加权算术平均数的几点说明
⑶权数作用的实质,不在于各组次数多少,
而在于各组次数占总次数的比重即权重系数 的大小。因此,加权算术平均数可采用权重 系数作权数。 x f x f xn f n x1 f1 x2 f 2 xn f n 公式: x = 1 1 2 2 = n
x = x n
cyz
=
20+21+22+24+25 5
= 22.4(件)
9
3.加权算术平均数(资料已分组)!
每人日产零件 数(件)X 16 17 工人数(人) f 12 20 权重系数 f/∑f 0.12 0.20
18 19
20
30 23
15
0.30 0.23
0.15
合计
cyz
100
1.00
21
代表水平,反映数据分布的集中趋势。
一是根据各项数据来计算的平均指标,它能够概括反映所
有各项数据的平均水平,这种平均指标称为数值平均数。 二是把总体中处于特殊位置上的数据看做平均数,这种平 均值称为位置平均数。 数值平均数:算术平均数、调和平均数、几何平均数 位置平均数:众数、中位数
cyz
5
二.平均数的种类及计算
志总量,可用基本公式。
cyz 8
2.简单算术平均数(资料未分组)
若所给资料是总体各单位的标志值,则先将
各标志值简单相加得出标志总量,再除以标 志值的个数,求得平均数。 x1 x2 ... xn x 公式: x= = n n
统计学平均指标
G n x1 x2 xn n xi
式中:G为几何平均数; 为n 变量值的个 数; 为xi第 个变i 量值。
【例】某流水生产线有前后衔接的五道工序。 某日各工序产品的合格率分别为95﹪、92﹪、 90﹪、85﹪、80﹪,求整个流水生产线产品 的平均合格率。
分析:
设经过第一道工序生产出A个单位 ,则 第一道工序的合格品为A×0.95; 第二道工序的合格品为(A×0.95)×0.92;
成绩(分)
x
60 100 合计
人数(人)
f
甲班 乙班 丙班
39
1
20
1
39
20
40
40
40
思考题:依据下例,分析说明算术平均数的影响因素
成绩(分)
x
60 100
人数(人)
f
甲班 乙班 丙班
39
1
20
1
39
20
平均成绩(分) 61
99
80
加权算术平均数的计算方法归纳
变量数列中各组标志值出现的次数 权数 (频率),反映了各组的标志值对
…… 第五道工序的合格品为 (A×0.95×0.92×0.90×0.85)×0.80;
因该流水线的最终合格品即为第五道工序 的合格品, 故该流水线总的合格品应为
A×0.95×0.92×0.90×0.85×0.80; 则该流水线产品总的合格率为:
总合格品 总产品
A
0.95 0.92 0.90 0.85 0.80 A
x1 f1 x2 f2 xm fm f1 f2 fm
xi fi
i 1 m
fi
i 1
式中:
m
为X算术平均数; 为第fi 组的i次数; 为组 数X;i 为第i组的标志值或组中值。
大学课程《统计学原理》PPT课件:第六章 平均指标与标志变异指标
二、标志变异的测度
(一)极差 (二)四分位差 (三)平均差 (四)方差和标准差 (五)是非标志的标准差 (六)变异系数
第三节 分布的偏度和峰度
一、偏度
偏度是用于衡量分布的不对称程度或偏 斜程度的指标。如果用矩法方式测定,偏 度指标α是变量的三阶中心动差除以标 准差三次方。
图6-5 偏度
第三节 分布的偏度和峰度
二、峰度
峰度是用于衡量分布的集中程度或分布曲 线的尖峭程度的指标。
图6-6 峰度
第四节 运用平均指标的原则
一、总体各单位必须是同质的
在统计研究中之所以需要计算平均数, 是因为总体的各个单位在数量标志上 存在着差异,通过平均,它们之间个别的、 偶然的差异可以相互抵消,从而反映出 整个总体的特征。
第六章 平均指标与标志变 异指标
目录
1 平均指标 2 标志变异指标——分布的离中趋势 3 分布的偏度和峰度 4 运用平均指标的原则
第一节 平均指标
一、平均指标概述
(一)平均指标的含义
在统计总体中,各个统计单位有表明其 属性和特征的标志,但这些标志在各统 计单位中的表现往往是不同的。
平均指标是将总体各单位标志值的差 异抽象化,反映总体在具体条件下各单 位标志值所达到的一般水平。
第一节 平均指标
(二)平均指标的作用
1.反映总体各单位变量分布的集中趋势 和一般水平
2.比较同类现象在不同单位的发展水平
3.比较同类现象在不同时期的发展变化 趋势或规律
4.分析现象之间的依存关系
(三)平均指标的分类
根据设置平均指标的方法的不同,可以将 平均指标划分为数值平均数和位置平均 数。
数量关系的经验公式为:算术平均数x和 众数Mo的距离约等于算术平均数x与中 位数Me距离的3倍。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一节平均指标对统计数据进行排序分组整理是对数据的分布特征进行描述的一个基本方面为进一步掌握数据分布特征及其变化规律以进行深入的分析还需找出反映数据分布特征的各个代表值统计学中刻划数据分布特征的的最主要的代表有二数据分布的集中趋势与数据分布的离散程度例美国1家具有福利院性质的医院Barnes Hospital该项活动中每月都有数据统计及分析以用来进行该项活动的调整与实施如有一组关于病人进入救助活动的时间长度的数据67个样本时间长度从1天到185天除了对该组数据进行频数方面的描述和分析外下面的统计方法在描述数据分布特征及分析方面也很重要均值mean 357天中位数median 17天众数Mode 1天Interpretation 1 the average time a patient stays in the Program is 357days or slightly over a month 2half of the patients are in the Program 17 days or less and half are in the Program 17 days or more 3 many patients have a short day in the Program 集中趋势是指一组数据向某一中心值靠拢的倾向测度集中趋势就是寻找数据一般水平的代表值或中心值一均值Mean 均值就是一,组数据的平均值average value用来测度中心位置central location基本形式是标志值总量单位数总量1简单算术平均对样本其中n 为样本数对总体其中N为总体单位数2加权算术平均其中为权数加权算术平均往往适用于对分组后的数据求均值这时Xi为各组变量代表值往往取组中值为各组变量值出现的频数例1 一组大学班级人数规模的数据5个班如下465442463254 在未分组的情况下其均值为44 如果分成如下组别I32II42III4646IV54则其均值为例2美国一个关于大学生毕业后工作起薪的问卷调查Table 1 Monthly Starting Salaries for a Sample of 12 College Graduates Graduates Monthly Graduates Monthly Graduates Monthly Salary Salary Salary 1 2350 52255924402 24506221010 2852 3 255072390112428423808263012 2380未分组时的算术平均值为2440算术均值具有如下性质1各变量值与其均值的离差和为零2各变量值与其均值的离差平方和最小▲ 注意均值容易受到统计数据中个别极端数据的影响从而使均值代表某组统计数据的平均水平时失去意义这时往往用剔除极端值的方法加以修正如例2中如果将月薪2825的最高值用10000代替则均值为3038 2几何平均数Geometric Mean 1几何平均数是N个变量值乘积的N次方根上述班级人数规模例中几何平均数为4337 可看出几何平均数算术平均数2加权几何平均数其中为的权数几何平均数的对数是各变量值对数的算术平均几何平均主要用于计算比率或速度的平均例3某水泥生产企业1995年产水泥100万吨199619971998年的水泥产量分别上一年增长916与20则19961998年的年均增长率为例4银行为吸收存款逐年提高利率5年各年年利率分别为10%12% 15%18%24%如果第1年存入1000元问5年后实际存款额达到多少元分别用单利率和复利率来算求出其对应的平均利率分析单利率5年后实际存款额1000 £ 1000X年利率1790元求平均利率可以用一未知数代替上式中的实际数据与原式是相等的即单利率时1000 £ 1000 X年利率1000 S 1000XA 得A E年利率5 可用简单算术平均数计算平均利率复利率5年后实际存款额 1 年后10001000 X 10 1000 110 2 年后1000 110 1000 110 X 12 1000110 112 3 年后 4 年后 5 年后1000 110 112 115 118 124 207306 元求平均利率可以用一未知数代替上式中的实际数据与原式是相等的即1000110 112 115 118 1241000 IB 1B 1 B IB 1B得可用几何平均数计算平均利率3调和平均数Harmon i cMean 调和平均数是各数据倒数的简单算术平均数的倒数]假设同一的个数有个且则上式可写成如下加权的形式例5某农贸市场某日鸡蛋价格及销售额资料如下表所示试求其鸡蛋的平均售价鸡蛋种类价格元KG 销售额元 A 76 15200 B80 8000 C 82 4100 不难求得鸡蛋的平均价格等于销售总额除以销售量二众数Mode 众数是一组数据中出现次数最多的变量值在班级规模的例中众数为46在大学毕业生工作起薪的例中众数为2380 在分组数据中众数可按下式计算下限公式式中为某数值出现次数频数最多的组第m组的频数与分别为第m-1组与ml组的频数LU分别为第m组的下限与上限值d为该组组距二众数Mode 上限公式式中为某数值出现次数频数最多的组第m组的频数与分别为第niT组与ml组的频数LU分别为第m组的下限与上限值d为该组组距3 对众数的几何解释 f fMo f Mo- f Mo-l f Mo- f Mol 0 LMo Mo UMo x依据是众数与相邻的两个组的频数分布有直接关系在班级规模的例中若按例中给出的分组情况则该组数据的众数为或在学生英语成绩例中次数最多的组也在7080组中则有18 10 9 或▲注意1如果某组统计数据中没有哪个数值出现较多的频率次数则可认为该组数无众数如果有多个数据出现的次数频率较多则认为有多个众数在有多个众数的情况下则对众数的关注度下降因为多众数对描述数据位置无多大帮助2对描述品质数据的分布特征的位置测度只能用众数例如在前面购买五类不同品牌Company Frequency计算机的统计中得到如右表Apple 13所示的频数分布表显然众Compaq 12数即个人购买最多的机算机Gat eway2000 5品牌是Apple在这类数据中IBM 9均值与中位数是没有任何Packard Bell 11意义的众数提供了频数最高的个人电脑购买品牌三中位数Median 中位数是一组数据按大小排序后处于正中间位置上的变量值1对于未分组数据1如果数据个数为奇数则中位数恰为处于中间位置的数班级规模例中按升序排出的5个统计数为3242464654则中位数为46 2如果数据个数为偶数则为中间位置两个数的平均数例大学毕业生起薪例中按升序排出的12个统计数为2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 则中位数为▲注意由于均值容易受到统计数据中个别极端数据的影响从而使均值代表某组统计数据的平均水平时失去意义这时用中位数代替均值则更有意义如在大学生毕业工作起薪的例中如果原统计数中最高薪金由2825换为10000则得到平均薪金为3038的结论显然与其他11位均在2000多的薪水水平不符但这时若用中位数2405显然更具代表意义2对于分组后的数据1单项式变量数列资料由于变量值已经序列化故可以采用下面的公式计算2对于组距式数列首先需确定中位数所在的组然后可根据下列公式计算中位数有上限公式和下限公式下限公式式中m为中位数所在的组d为该组组距L为该组的下限值fm为该组的频数为该组以下各组的频数总和显然2对于组距式数列上限公式式中m为中位数所在的组d为该组组距U为该组的上限值加为该组的频数3对中位数的几何解释为该组以上各组的频数总和S显然Z f2f Me S me- 10L Me U x假设在中位数组内的各单位是均匀分布的例6某班级英语考试成绩分组情况见下表人数成绩分组人数累计人数累计人数成绩分组分分50以下227080135506057809094490以上6070 10 1 65 0从成绩由低往高排中位数所在组应在第4组即7080的组由于L 70U 80d 10 而2510 17 96 15 fm 18 故或班级人数规模的例中按例中分组情况则中位数为或四中位数众数与算术平均数的关系1如果数据具有单一众数且分布是对称的则众数中位数与均值相等即2对于非对称分布半分布左偏时说明存在极端小的值当分布右偏时说明存在极端大的值3在偏斜度适度的情况下不论是左偏还是右偏中位数与算术平均数之差约等于众数与算术平均数之差的13即有如下经验公式众数中位数和均值的应用场合众数中位数和均值都是对数据集中趋势的测度1均值由全部数据计算包含了全部数据的信息具有良好的数学性质汽数据接近对称分布时具有较好的代表性但对于偏态分布其代表性较差2中位数是一•组数据中间位置上的代表值不受数据极端值的影响对于偏态分布的数据其代表性要比均值好3众数是一组数据分布的峰值是一•种位置的代表汽数据的分布具有明显的集中趋势时尤其对于偏态分布众数的代表性比均值好4对接近正态的分布数据常用均值描述数据的集中趋势对偏态分布常用众数或中位数描述数据的集中趋势5均值只适用于定距或定比尺度的数据定序尺度数据可用中位数或众数进行描述而对定类尺度数据只能用众数进行描述五计算和应用平均数应该注意的主要问题一平均数必须用于同质总体二用组平均数补充说明总体平均数三用频数分布补充说明平均数四平均分析与具体分析相结合第四节变异指标一•变异指标的概念和分类1概念对数据分布特征的另一个测度指标是数据分布离散程度它反映各数据远离其中心值的程度因此也称离中趋势集中趋势反映的是各变量值向其中心值聚集的程度离中趋势反映各变量值之间的差异状况注意集中趋势的测度值概括地反映了数据的一•般水平它对该组数据的代表程度取决于该组数据的离散水平数据的离散程度越大集中趋势的测度值对该组数据的代表性就越差例7如果你是一家制造业公司的供应部门经理与两家原材料供应商联系供货两家供应商均表示能在大约10个工作口内供齐所需原材料几个月的运转之后你发现尽管两家供货商供货的平均时间都是大约10天但他们供货所需天数的分布情况却是不同的见下页图你认为两家供货商按时供货的可信度相同吗考虑它们直方图的差异你更愿意选择哪家供货商供货呢两家供货商供货图2变异指标的作用1用以反映社会经济现象变动的均匀性和稳定性程度2用以说明平均指标的代表性程度3可以研究总体标志值分布偏离正态的情况3变异指标的分类1标志变异指标2分布变异指标二极差与分位差Range and Percentile 1极差是最简单的测度离中趋势分散程度的指标也称全距是一组数据最大值与最小值之差Range Largest Value - Smallest Value ▲注意1极差易受极端值的影响2由于极差只利用了数据两端的信息没有反映中间数据的分散状况因而不能准确描述数据的分散程度例8 某班级甲乙两组同学成绩如下甲组6065727578 乙组5064707492 两组同学成绩平均成绩都为70分但甲组成绩的极差R甲=78-60=18分乙组成绩的极差R乙=92-50 = 42分对于组距分组数据极差可近似地表示为R最高组上限-最低组下限例9某班级全体学生成绩如下班级学生成绩分布成绩分组中值学生数总成绩50-60 5515560-7065213070-8075860080-908524204090-10095151425—504250班级平均成绩x = 4250 / 50 = 85分则极差100-50 50 2分位差Percentile是对极差指标的一种改进常见的有四分位差八分位差十六分位差以及百分位差以四分位差Quartiles为例四分位间距QR=Q3 - Q1 四分位差QD=Q3 - Q1 / 2三平均差平均差是总体各单位标志值对算术平均数的绝对离差的算术平均数其计算公式为仍以前面例为例甲乙两班成绩平均差计算结果说明乙组离散程度比甲组离散程度大四方差Variance 方差是各变量值与其均值离差deviation about the mean平方的平均数一总体方差Population Variance 二样本方差Sample Variance ▲注意1相同点方差和平均差比较同样是根据所有的标志值计算离差程度并旦都是以算术平均数为比较标准不同点方差不是以离差的绝对值而是以离差的平方计算平均数离差的平方不但可以消除离差正负差别而且强化了离差的信息使这个指标更灵敏在数学性质上有许多明显的优越性四标准差Standard Deviation 方差的平方根正即为标准差在五个班级规模的例中如果视5个班为总体则标准差为715若视为样本则标准差为8 ▲注意1由于方差计算中使用了平方运算因此方差的单位也是平方如上述班级规模例中方差为64学生2其具体意义不明确因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义2标准差是对方差的开方运算因此其单位与原始数据的单位一致它与均值及其他用同一单位测度的数据相比较也容易一些如标准差就是指数据离散程度的测度值距均值的距离▲方差的数学性质1变量的方差等于变量平方的平均数减去变量平均数的平方五离散系数Coefficient of Variation 离散系数定义为一组数据变异指标值与其均值的比也可分别称为极差系数平均差系数标准差系数最常用的是标准差系数是测度数据离散程度的相对指标例五个班级规模的例中若视为总体离散系数为71544 016 若视为样本则离散系数为844 0182 ▲注意1对不同组数据其离散程度既受其数据本身的水平的影响也受数据计量单位的影响因此对不同性质组别的数据不好用离差或标准差来比较它们的离散程度2由于离散系数消除了来自这两方面的影响因此可以用它进行不同数据组的比较例10某管理局抽查了其所属的8家企业其产品销售额与销售利润数据如下表所示试比较销售额与销售利润的离散程度企业编号销售额销售利润企业编号销售额销售利润万元万元万元万元XI X2 XI X21170 815480265 22201256 650400 3390180 79506404 43022081000 690 计算结果表明产品销售额的离散程度小于•销售利润的离散程度六举例给以解释 假如某班级同学50名每月分别消费元300340310500600龄5年以上 工龄5年以下完成定额工人数完成定额工人数80以下1090以80-901590-10015 90-10020100-110200100-105100110-12080105-11045120-13040 110-12015130-15020 120-130150以20数据分为两组工龄 年以上和工龄5年以下接上页题 企业数 各组产量占元/件产量的比重% 10-122212-1440 14-1635 "过1000米线的时间 3 ' 12 “ 3’ 30 〃 3 ' 48"品种分别在5块田地上试种其产量如下甲品种 乙品种田块面积产量田块面积 产量公斤1601841491771441540541520420450总方差组间方差和组内方差之间关系总方差=组间方差与组内方差平均数之和计算50名同学之间差异也就是总的方差即为总方差如果把这50名按男女性别 分为两组男组月消费额求得的方差即为组内方差乙组月消费额求得的方差即为组内方差男女两组之间求得的方差即为组间方差例11某企业按两种标志进行分组得到下列表明工人按工龄和按完成生产定额的分组资料组间方差308组内方差平均数1789 @总方差2100练习1某公司将其生产某产品的15个企业按产品平均单位成本高低分组资料如下 平均单位成本38试计算这15个企业的平均单位成本 练习2下面分别记录5名HI 径队员胞步时间过200米 线的时间28 " 30 " 33 "30 " 教练认为200米的时间差异更小些请用标准差与标准差系 数对上述时间的变异作出评价判断教练观点是否成立练习3两种不同的水稻 分别计算两品种单位面积产量2计算两品种亩产量的标准差3假定生产条件相 同确定哪一个品种具有较大的稳定性易于推广七 分布偏态与峰度的测度分 布变异指标 偏态和峰度是对数据分布特征的进一步描述 平均数 与标准差相同的数据组其频数分配分布也可能不同如果频数分布是对称的则称 为对称分布否则为偏态分布 一偏态及其测度Skewness 测定偏态 比较严谨的方法主要有两种动差法和分位数法此外还有算术平均数与众数比较 法 1算术平均数与众数比较法 由于在完全对称的分布中算术平均数 中位数众数是重合的而在非对称分布里三者是相互分离的其中算术平均数与众 数分离两边中位数位于它们之间因而 可用算术平均数与众数之间的距离作 为测度偏态的一个尺度 偏态 算术平均数-众数 这是偏态的绝对数 它以原有数据的单位为单位同样地偏态绝对数不能用来比较不同数据组不同计量单位数据的偏态程度为了使不同数据组的偏态数值能相互比较需计算偏态的相对•数2分位数法以四分位数为例不同分布情形下诸四分位数之间的关系3动差法动差乂称矩可用来说明数据频数分布的特征二峰度及其测度Kurtosis 峰度是频数分布另一重要特点其特点是某种频数分布的曲线与正态分布曲线相比是尖顶还是平顶其尖顶或平顶的程度如何峰度就是频数分布曲线顶端的尖峭程度峰度测度往往以中心4阶动差为基础进行将4阶动差的数值除以标准差的4次方化为相对•数就是峰度的测度值即峰度系数经验表明上述峰度系数为3时恰为正态分布曲线因此当峰度系数3时为平顶分布曲线当峰度系数3时为尖顶分布曲线当峰度系数接近于18肘则频数分布曲线趋向于一条水平线当峰度系数小于18时为U型曲线在上述班级规模的例子中以中心4阶动差矩计算的峰度系数值为注意1在用动差法计算偏态系数与峰度系数时•对所考察的对象按总体公式测度其方差与标准差2偏度与峰度主要用于检查样本的分布是否正态来判断总体的分布是否接近于正态分布如果样本的偏度接近于0而峰度接近于3就可以推断总体的分布是接近于正态分布的第五节成数指标一成数指标的概念1成数2是非标志3成数指标设总体N个单位中有N1单位具有某种性质有NO个单位不具有某种性质且均数 标志值 N-NO N 1-NO N1-Q品质标志分布表 次数二是非标志的量化 三是非标志的平 品质标志N 1X合计 品质标志N 1标志值四是非标志的方差与标准差 品质标志分布表标志值次数N O合计例某市120万人口中的男女性别构成如下表x 人数万人f性别标志54合计N=NO N1以P 代表具有某利,性质的成数以Q 代表不具有某种性质的成数则P66 120由前面的公式可得注意1是非标志的平均数为P 2是非标志的方差为pq 或p 1-p q 1-q 3是非 标志中pq 1 4是非标志的方差最大值为025是非标志的标准差最大值为05本章作业 课本53-55页123456题 本章作业7某快餐店登记20顾客用餐 一次时间分如下 2015 2428 7 25 5 6 10 12 1814 8 21 16 122018 714试根据以上资料计算算术平均数平均差标准差并做简单分析本章作业8某企业两车间生产同种产品产量 和成本资料如下表1992年 1993年车间单位成本元 产量吨 单位成本 元总成本万元 甲600120062093乙 700 1800 667 1334要求1分别计算1992年和1993年甲乙两车间平均单位成本2分析该种产品甲乙两车间平均单位成本变 动情况9某公司将其生产某产品的15个企业按产品平均单位成本高低分组资 料如下 平均单位成本 企业数 各组产量占 元/件总产量的比重%10- 12 7 22 12- 146 40 14-16238 试计算这 15个企业的平均单位成本10下面分别记录5名田径队员跑步时间 过200米线的 时间 28 " 30 " 33 "34 " 35 "过 1000 米线的时间 3 ' 12 " 3' 30 〃 3 ' 48 ”400 " 4 ' 30 ” 教练认为200米的时间差异更小些请用标准差与标准差系 数对上述时间的变异作出评价判断教练观点是否成立11两种不同的水稻品种 分别在5块田地上试利,其产量如下甲品种乙品种田块面积产量田块面积产量亩公斤亩公斤12600 1584011495 1477010 445125400954010520 0842009450 1分别计算两品种单位面积产量2计算两品种亩产量的标准差3假定生产条件相同确定哪一个品种具有较大的稳定性易于推广这可怎么做2变量与其算术平均数计算的方差小与变量与任何其它常数计算的方差3变量线性变换的方差等于变量方差乘以变量系数的平方设yabx则4n个独立总体各变量代数和的方差标准差等于小于各变量方差标准差的代数和排序分组整理表述统计数据寻找反映数据分布特征的代表值集中趋势离散趋势为了改善频临死亡的病人及其家庭的生活质量救助活动服务队医生家庭健康保健员社会工作者受训志愿者给予病人及家庭一些指导帮助减轻由于疾病分离等而引起的精神紧张Mo-LMo UMo -Mo f Mo- f Mo-1 f Mo- f Mol £f2 -S me- 1 是L至Me之间的次数血f Me是L至U之间的次数所以Sf2 -S me- 1 Me- L f Me U -L。