数据指标-3章 统计数据的描述度量
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章 统计数据的描述度量
本章教学目标:
ห้องสมุดไป่ตู้
度量中心(集中)趋势的指标 度量离散程度(变异性)的指标 度量偏斜程度的指标 度量两种数值变量关系的指标 掌握利用 Office 软件计算各种统计指标
2014-7-7
1
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰度 (形状)
使用Excel函数求加权算术平均数
利用Excel“数学和三角函数”中的 SUMPRODUCT 函数可以方便地计算出分组数据的 加权算术平均数。 语法规则: 格式:SUMPRODUCT(<区域1>,<区域2>,…) 功能:返回两个或多个区域中对应元素乘积之和。 例:利用比特啤酒公司各销售点分组频数分布数 据,求各销售点的平均销售量。
规则3 如果结果既不是整数又不是半数,
结果取最接近的整数,并选数据。
2014-7-7
28
数值型未分组数据的四分位数
(7个数据的算例)
原始数据: 排 序: 位 置: 23 21 1 21 23 2 30 25 3 32 26 4 28 28 5 25 30 6 26 32 7
N+1 7+1 = =2 QL位置 = 4 4 3(N+1) 3(7+1) = =6 QU位置 = 4 4
f xG x1f1 x2f 2 xnf n
f i — 各比率出现的频数
2014-7-7
10
例:某公司原料成本随时间增长的情况如下表
1992 成本 年增长率(%) 200 1993 228 14 1994 239.4 5 1995 244.2 2
求原料成本的平均年增长率。
2014-7-7
16
例:计算下表数据的中位数
分组 0-5 5-15 15-25 25-35 35-45 >45 各组频数 2 6 20 15 8 4 累计频数 2 8 28 43 51 55
解:Σ f/2 = 27.5,中位数在“15-25‖的组中,
1 f S m 1 27.5 8 2 Me L d 15 10 24.75 fm 20
N+1
4 3(N+1)
未分组数据:
上四分位数(QU)位置 =
4
组距分组数据:
N 下四分位数(QL)位置 = 4 上四分位数(QL)位置 = 3N 4
2014-7-7
27
未分组数据四分位数的确定
规则1 如果结果是整数,四分位数等于
那个整数位置的数据。
规则2 如果结果是半数(如2.5,3.5
等),四分位数等于相邻有序数据的平均数。
2014-7-7
8
啤酒销售量的分组统计
销售量 10—19 20—29 30—39 40—49 50—59 60—69 70—79 80—89 合计 频次 1 3 5 16 20 9 4 2 60 比重 1.7% 5.0% 8.3% 26.7% 33.3% 15.0% 6.7% 3.3% 100.0% 组中值 14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 51.833333 加权算术平均数= 51.83333
2014-7-7
14
使用Excel的统计函数返回未分组数据的中位数
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Median = 5
Median = 5
可以使用 Excel 统计函数中的 MEDIAN 函数返回未分组 数据的中位数。
格式:MEDIAN(<区域或数组1>,<区域或数组 2>,…) 功能:返回所有参数中数据的中位数。
2014-7-7
2
数据分布的特征和测度
数据的特征和测度
集中趋势
众 数 中位数
离散程度
分布的形状
偏 态
均 值
四分位数
2014-7-7
变异系数 四分位差 方差和标准差 离散系数
峰 度
3
§3.1 度量集中趋势的平均指标
平均指标是说明社会经济现象一般水平 的统计指标,反映标志值分布的集中趋势 平均指标按计算方式可分为数值平均数和 位置平均数两大类
解一: xG 3 1.141.051.02 1.0688
解二: xG 3 244.2 / 200 1.0688
年平均增长率 = 1.0688 - 1 = 6.88%
2014-7-7
11
X1 $100,000
X2 $50,000
X3 $100,000
50% decrease 算术平均数:
25
四分位数(Quartile)(概念要点)
1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值
25%
QL
25%
25%
QM
25%
QU
3. 不受极端值的影响
4. 可用于定序数据,也可用于数值型数据 ,但不能用于定类数据
2014-7-7
26
四分位数(位置的确定)
下四分位数(QL)位置 =
2014-7-7
6
xi f i x fi
单项数列 分组数列
xi
家庭人口(分组) 1 2 3 4 5 合 计
fi
职工户数(频数) 7 38 105 54 31 235
xi
2014-7-7
7
上限 15 20 25 30 35 40 45 50 55 60 65
组中值 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5 57.5 62.5
2014-7-7
4
一. 数值平均数
——是根据总体各单位所有标志值计算出的平均数。
包括算术平均数、几何平均数。
(一)算术平均数(Arithmetic Mean) 算术平均数的基本公式
总体单位标志总量 算术平均数 总体单位总数
2014-7-7
5
算术平均数的计算
(1)简单算术平均数 1 n x xi n i 1 n —总体单位总数;xi —第 i 个单位的标志值。 (2)加权算术平均数 xi f i x fi xi —第 i 组的代表值(组中值或该组变量值); f i —第 i 组的频数。
100% increase
(.5) (1) X .25 2
R G [(1 R1 ) (1 R2 ) (1 Rn )]1/ n 1 [(1 (.5)) (1 (1))]1/ 2 1 [(.50) (2)]1/ 2 1 11/ 2 1 0%
Σ f/2=143/2=71.5,中位数所在“100~150”的组,
71.5 55 f / 2 S m1 Me L d 100 50 119.64 (万元) fm 42
众数组为“100~150”的组,
M0 L
2014-7-7
1 42 35 d 100 50 115.22 (万元) 1 2 (42 35) (42 26)
在数据量很大的时候,可以使用 Excel 统计函数 中的 MODE 函数返回众数。 格式:MODE(<区域或数组1>,<区域或数组2>,…) 功能:返回所有参数中数据的众数。
2014-7-7
20
分组数据众数的确定
对于分组数据的统计资料,众数也要用插值法来 估算。
(1)确定众数所在的组 对于等距分组,众数组是频数最高的组; (2)使用以下插值公式计算
2014-7-7
17
(二)众数(Mode)
——是总体中出现次数最多的标志值,记为M 0。 众数明确反映了数据分布的集中趋势,也是一种 位置平均数,不受极端数据的影响。但并非所有数 据集合都有众数,也可能存在多个众数。 在某些情况下,众数是一个较好的代表值。 例如在服装行业中,生产商、批发商和零售商在 进行生产和存货决策时,更感兴趣的是最普遍的尺 寸而不是平均尺寸。 又如,当要了解大多数家庭的收入状况时,也要 用到众数。
(一)中位数(Median) ——将总体各单位标志值按由小到大的顺序排列后
处于中间位置的标志值称为中位数,记为Me 。 中位数是一种位置平均数,不受极端数据的影响。 当统计资料中含有异常的或极端的数据时,中位数比算 术平均数更具有代表性。 比如有 5 笔付款:9元,10元,10元,11元,60元 付款的均值为 20 元,显然这并不是一个很好的代 表值,而中位数 Me = 10 元则更能代表平均每笔的付款 数。
QL= 23
2014-7-7
29
QU = 30
数值型未分组数据的四分位数
(6个数据的算例)
原始数据: 排 序: 位 置: 23 21 1 21 23 2 30 25 3 28 26 4 25 28 5 26 30 6
N+ 6+1 = = 1.75 QL位置 = 1 4 4 3(N+1) 3(6+1) = = 5.25 QU位置 = 4 4 QL= 23 QU = 28
几何平均数:
2014-7-7
12
使用Excel求几何平均数
可以使用Excel统计函数中的GEOMEAN 函数返 回几何平均数
语法规则: 格式:GEOMEAN(<区域或数组1>,<区域或数组 2>,…) 功能:返回所有参数中数据的几何平均数。
2014-7-7
13
二. 位置平均数
位置平均数是根据总体标志值所处的特殊位置确定的一 类平均指标。包括中位数和众数两种。
2014-7-7
9
(二)几何平均数(Geometric Mean)
当统计资料是各时期的发展速度等前后期的两两 环比数据,要求每时期的平均发展速度时,就需要 使用几何平均数。 几何平均数是 n 个数连乘积的 n 次方根。 1. 简单几何平均数
xG n x1 x2 xn
2. 加权几何平均数
解:众数组是“15-25”的组,则
1 M0 L d 1 2
20 6 15 10 22.37 (20 6) (20 15)
2014-7-7
22
三.算术平均数和位置平均数间的关系
1.频数分布呈完全对 称的单峰分布,算术平 均数、中位数和众数三 者相同 2.频数分布为右偏态 时,众数小于中位数, 算术平均数大于中位数 3.频数分布为左偏态 时,众数大于中位数, 算术平均数小于中位数
2014-7-7
24
答案
注册资金(万元) 企业数 累计企业数 组中值 50以下 20 20 25 50~100 35 55 75 100~150 42 97 125 150~200 26 123 175 200~250 15 138 225 250以上 5 143 275
xi f i x 123.6 (万元) fi
2014-7-7
18
众数
(众数的不唯一性)
无众数 原始数据:
10 5 9 12 6 8
一个众数 原始数据:
6
5
9
8
5
5
多于一个众数 原始数据: 25 28 28 36 42 42
2014-7-7
19
未分组数据众数的确定
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Mode = 9
其中:
1 M0 L d 1 2
Δ1 d L
Δ2
L — 众数组的下限
Δ1— 众数组与前一组的频数之差
2014-7-7
Δ2 — 众数组与后一组的频数之差 d — 众数组的组距 21
众数
例:计算下表数据的众数
分组 0-5 5-15 15-25 25-35 35-45 >45 各组频数 2 6 20 15 8 4
2014-7-7
23
f
0
X (Me,M0) x
f
0 f
M0 Me X
x
0
X Me M0
x
补充习题
补充题:某地区私营企业注册资金分组资料如下, 求该地区私营企业注册资金的平均数、中位数和众 数。
注册资金 50以下 50~100 100~150 150~200 200~250 250以上 (万元) 企业数 20 35 42 26 15 5
2014-7-7
30
Excel中四分位数的计算过程
(1)如果共有 n 个数,则有 n 1个数据间隔,每个四分位间有
(2)第 nthquart 个四分位数为原有序数中的第 nth 1
2014-7-7
15
分组数据中位数的确定
对于分组数据的统计资料,中位数要用插值法来估算。 (1)计算各组的累计频数; (2)确定中位数所在的组 ——是累计频数首次包含中位数Σ f /2的组。
1 f S m 1 Me L 2 d fm
其中:L — 中位数所在组的下限;
Sm-1 — 中位数所在组前一组的累计频数; fm — 中位数所在组的频数; d — 中位数所在组的组距。
本章教学目标:
ห้องสมุดไป่ตู้
度量中心(集中)趋势的指标 度量离散程度(变异性)的指标 度量偏斜程度的指标 度量两种数值变量关系的指标 掌握利用 Office 软件计算各种统计指标
2014-7-7
1
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰度 (形状)
使用Excel函数求加权算术平均数
利用Excel“数学和三角函数”中的 SUMPRODUCT 函数可以方便地计算出分组数据的 加权算术平均数。 语法规则: 格式:SUMPRODUCT(<区域1>,<区域2>,…) 功能:返回两个或多个区域中对应元素乘积之和。 例:利用比特啤酒公司各销售点分组频数分布数 据,求各销售点的平均销售量。
规则3 如果结果既不是整数又不是半数,
结果取最接近的整数,并选数据。
2014-7-7
28
数值型未分组数据的四分位数
(7个数据的算例)
原始数据: 排 序: 位 置: 23 21 1 21 23 2 30 25 3 32 26 4 28 28 5 25 30 6 26 32 7
N+1 7+1 = =2 QL位置 = 4 4 3(N+1) 3(7+1) = =6 QU位置 = 4 4
f xG x1f1 x2f 2 xnf n
f i — 各比率出现的频数
2014-7-7
10
例:某公司原料成本随时间增长的情况如下表
1992 成本 年增长率(%) 200 1993 228 14 1994 239.4 5 1995 244.2 2
求原料成本的平均年增长率。
2014-7-7
16
例:计算下表数据的中位数
分组 0-5 5-15 15-25 25-35 35-45 >45 各组频数 2 6 20 15 8 4 累计频数 2 8 28 43 51 55
解:Σ f/2 = 27.5,中位数在“15-25‖的组中,
1 f S m 1 27.5 8 2 Me L d 15 10 24.75 fm 20
N+1
4 3(N+1)
未分组数据:
上四分位数(QU)位置 =
4
组距分组数据:
N 下四分位数(QL)位置 = 4 上四分位数(QL)位置 = 3N 4
2014-7-7
27
未分组数据四分位数的确定
规则1 如果结果是整数,四分位数等于
那个整数位置的数据。
规则2 如果结果是半数(如2.5,3.5
等),四分位数等于相邻有序数据的平均数。
2014-7-7
8
啤酒销售量的分组统计
销售量 10—19 20—29 30—39 40—49 50—59 60—69 70—79 80—89 合计 频次 1 3 5 16 20 9 4 2 60 比重 1.7% 5.0% 8.3% 26.7% 33.3% 15.0% 6.7% 3.3% 100.0% 组中值 14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 51.833333 加权算术平均数= 51.83333
2014-7-7
14
使用Excel的统计函数返回未分组数据的中位数
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Median = 5
Median = 5
可以使用 Excel 统计函数中的 MEDIAN 函数返回未分组 数据的中位数。
格式:MEDIAN(<区域或数组1>,<区域或数组 2>,…) 功能:返回所有参数中数据的中位数。
2014-7-7
2
数据分布的特征和测度
数据的特征和测度
集中趋势
众 数 中位数
离散程度
分布的形状
偏 态
均 值
四分位数
2014-7-7
变异系数 四分位差 方差和标准差 离散系数
峰 度
3
§3.1 度量集中趋势的平均指标
平均指标是说明社会经济现象一般水平 的统计指标,反映标志值分布的集中趋势 平均指标按计算方式可分为数值平均数和 位置平均数两大类
解一: xG 3 1.141.051.02 1.0688
解二: xG 3 244.2 / 200 1.0688
年平均增长率 = 1.0688 - 1 = 6.88%
2014-7-7
11
X1 $100,000
X2 $50,000
X3 $100,000
50% decrease 算术平均数:
25
四分位数(Quartile)(概念要点)
1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值
25%
QL
25%
25%
QM
25%
QU
3. 不受极端值的影响
4. 可用于定序数据,也可用于数值型数据 ,但不能用于定类数据
2014-7-7
26
四分位数(位置的确定)
下四分位数(QL)位置 =
2014-7-7
6
xi f i x fi
单项数列 分组数列
xi
家庭人口(分组) 1 2 3 4 5 合 计
fi
职工户数(频数) 7 38 105 54 31 235
xi
2014-7-7
7
上限 15 20 25 30 35 40 45 50 55 60 65
组中值 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.5 57.5 62.5
2014-7-7
4
一. 数值平均数
——是根据总体各单位所有标志值计算出的平均数。
包括算术平均数、几何平均数。
(一)算术平均数(Arithmetic Mean) 算术平均数的基本公式
总体单位标志总量 算术平均数 总体单位总数
2014-7-7
5
算术平均数的计算
(1)简单算术平均数 1 n x xi n i 1 n —总体单位总数;xi —第 i 个单位的标志值。 (2)加权算术平均数 xi f i x fi xi —第 i 组的代表值(组中值或该组变量值); f i —第 i 组的频数。
100% increase
(.5) (1) X .25 2
R G [(1 R1 ) (1 R2 ) (1 Rn )]1/ n 1 [(1 (.5)) (1 (1))]1/ 2 1 [(.50) (2)]1/ 2 1 11/ 2 1 0%
Σ f/2=143/2=71.5,中位数所在“100~150”的组,
71.5 55 f / 2 S m1 Me L d 100 50 119.64 (万元) fm 42
众数组为“100~150”的组,
M0 L
2014-7-7
1 42 35 d 100 50 115.22 (万元) 1 2 (42 35) (42 26)
在数据量很大的时候,可以使用 Excel 统计函数 中的 MODE 函数返回众数。 格式:MODE(<区域或数组1>,<区域或数组2>,…) 功能:返回所有参数中数据的众数。
2014-7-7
20
分组数据众数的确定
对于分组数据的统计资料,众数也要用插值法来 估算。
(1)确定众数所在的组 对于等距分组,众数组是频数最高的组; (2)使用以下插值公式计算
2014-7-7
17
(二)众数(Mode)
——是总体中出现次数最多的标志值,记为M 0。 众数明确反映了数据分布的集中趋势,也是一种 位置平均数,不受极端数据的影响。但并非所有数 据集合都有众数,也可能存在多个众数。 在某些情况下,众数是一个较好的代表值。 例如在服装行业中,生产商、批发商和零售商在 进行生产和存货决策时,更感兴趣的是最普遍的尺 寸而不是平均尺寸。 又如,当要了解大多数家庭的收入状况时,也要 用到众数。
(一)中位数(Median) ——将总体各单位标志值按由小到大的顺序排列后
处于中间位置的标志值称为中位数,记为Me 。 中位数是一种位置平均数,不受极端数据的影响。 当统计资料中含有异常的或极端的数据时,中位数比算 术平均数更具有代表性。 比如有 5 笔付款:9元,10元,10元,11元,60元 付款的均值为 20 元,显然这并不是一个很好的代 表值,而中位数 Me = 10 元则更能代表平均每笔的付款 数。
QL= 23
2014-7-7
29
QU = 30
数值型未分组数据的四分位数
(6个数据的算例)
原始数据: 排 序: 位 置: 23 21 1 21 23 2 30 25 3 28 26 4 25 28 5 26 30 6
N+ 6+1 = = 1.75 QL位置 = 1 4 4 3(N+1) 3(6+1) = = 5.25 QU位置 = 4 4 QL= 23 QU = 28
几何平均数:
2014-7-7
12
使用Excel求几何平均数
可以使用Excel统计函数中的GEOMEAN 函数返 回几何平均数
语法规则: 格式:GEOMEAN(<区域或数组1>,<区域或数组 2>,…) 功能:返回所有参数中数据的几何平均数。
2014-7-7
13
二. 位置平均数
位置平均数是根据总体标志值所处的特殊位置确定的一 类平均指标。包括中位数和众数两种。
2014-7-7
9
(二)几何平均数(Geometric Mean)
当统计资料是各时期的发展速度等前后期的两两 环比数据,要求每时期的平均发展速度时,就需要 使用几何平均数。 几何平均数是 n 个数连乘积的 n 次方根。 1. 简单几何平均数
xG n x1 x2 xn
2. 加权几何平均数
解:众数组是“15-25”的组,则
1 M0 L d 1 2
20 6 15 10 22.37 (20 6) (20 15)
2014-7-7
22
三.算术平均数和位置平均数间的关系
1.频数分布呈完全对 称的单峰分布,算术平 均数、中位数和众数三 者相同 2.频数分布为右偏态 时,众数小于中位数, 算术平均数大于中位数 3.频数分布为左偏态 时,众数大于中位数, 算术平均数小于中位数
2014-7-7
24
答案
注册资金(万元) 企业数 累计企业数 组中值 50以下 20 20 25 50~100 35 55 75 100~150 42 97 125 150~200 26 123 175 200~250 15 138 225 250以上 5 143 275
xi f i x 123.6 (万元) fi
2014-7-7
18
众数
(众数的不唯一性)
无众数 原始数据:
10 5 9 12 6 8
一个众数 原始数据:
6
5
9
8
5
5
多于一个众数 原始数据: 25 28 28 36 42 42
2014-7-7
19
未分组数据众数的确定
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Mode = 9
其中:
1 M0 L d 1 2
Δ1 d L
Δ2
L — 众数组的下限
Δ1— 众数组与前一组的频数之差
2014-7-7
Δ2 — 众数组与后一组的频数之差 d — 众数组的组距 21
众数
例:计算下表数据的众数
分组 0-5 5-15 15-25 25-35 35-45 >45 各组频数 2 6 20 15 8 4
2014-7-7
23
f
0
X (Me,M0) x
f
0 f
M0 Me X
x
0
X Me M0
x
补充习题
补充题:某地区私营企业注册资金分组资料如下, 求该地区私营企业注册资金的平均数、中位数和众 数。
注册资金 50以下 50~100 100~150 150~200 200~250 250以上 (万元) 企业数 20 35 42 26 15 5
2014-7-7
30
Excel中四分位数的计算过程
(1)如果共有 n 个数,则有 n 1个数据间隔,每个四分位间有
(2)第 nthquart 个四分位数为原有序数中的第 nth 1
2014-7-7
15
分组数据中位数的确定
对于分组数据的统计资料,中位数要用插值法来估算。 (1)计算各组的累计频数; (2)确定中位数所在的组 ——是累计频数首次包含中位数Σ f /2的组。
1 f S m 1 Me L 2 d fm
其中:L — 中位数所在组的下限;
Sm-1 — 中位数所在组前一组的累计频数; fm — 中位数所在组的频数; d — 中位数所在组的组距。