应用经济统计学数据整理和分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(概念要点)
集中趋势的测度值之一
最常用的测度值
一组数据的均衡点所在
易受极端值的影响
算术平均数
(计算公式)
设一组数据为: X1 , X 2 , , X n 简单算术平均值的计算公式为
X1 X 2 X n
Xn
X
i 1
n
i
n
设分组后的数据为:X1 , X 2 , , X k 相应的频数为: f1 , f 2 , , f k 加权算术平均值的计算公式为
为6%,有8年为9%,有2年为12%, 有1年为5%,求平
均年利率。
G.M . 20 (1 2.5%) (1 3%)3 (1 6%)5 (1 9%)8 (1 12%) 2 (1 5%) 1.025 (1.03) (1.06) (1.09) (1.12) (1.05)
数据分组例
排序:
84,85,87,91,91,94,95,96,97, 99,101,101,103,103,105,105,105, 106,106,106,106,107,107,109, 110,111,111,118,119,121,128
分组计算
组数=1+3.322 log n
=5.9(n=30) 分6组
组距:每组区间的宽度
=(观察值中的最大数值- 观察值中的最小数值)/组数 =(128-84)/6=7.3
分6组,组距8
每周工资 人 数(个) 各组人数占总人数 (元) 百分比(%) 5 17 84~92 5 17 92~100 12 40 100~108 4 13 108~116 3 10 116~124 1 3 124~132 30 100 合计
xi fi
k
它主要用于每个数值次数fi未知,而总量mi已知情形的数据求平均.
调和平均数
(算例)
【例7】某人开车,前10公里以时速50公里 驾驶,后10公里以时速30公里驾驶。则此 人跑这20公里的平均时速为:
总路程S 10 10 2 V 1 1 总时间T 10 10 50 30 50 30 37.5(公里 / 小时)
Xk
f
4.数据都为正数时才可计算几何平均数
5. 可看作是均值的一种变形
1 log G.M . (log X 1 log X 2 n log X n )
log X
i 1
n
i
n
几何平均数
(算例)
【例 4】设某建筑公司承建的四项工程的利 润分别为 3% 、 2% 、 4% 、 6% 。问这四 项工程的平均利润率是多少?
频率分布直方图
次数多边形图
14 12 10 8 6 4 2 0 收入
80-90 90-100 100-110 110-120 120-130
分配直方图
人次
次数多边形图
还可将几种不同数据绘在同一多边形图上用 于比较.如图:
累计次数分配图
小于上组限的累积次数分配
每周工资 上组 (元) 限 80~90 90~100 100~110 110~120 120~130 90 100 110 120 130
结合实际数据
一、比较计算组距值(7.3),组距为10 比较好计算且方便, 二、分组的组数相应从6减少为5。最小 值为84,下限从80开 始,
分5组,组距10
每周工资 人数(个) 各组人数占总人数 (元) 百分比(%) 3 10 80~90 90~100 100~110 110~120 120~130
茎叶图
茎
0 1 2 3 4 5 6 7 8 9 1 0 1 1 5 2 0 2 1
叶
3 8 9 3 7 9 5 8 6 9 6 7 2 2 2 6 6 8 6 3 5 5
次数
3 2 4 3 3 3 9 2 0 4
8 8
数据集中趋势
算术平均数
几何平均数
调和平均数
中位数及四分位数 众数
算术平均数
X 1 f1 X 2 f 2 X k f k X f1 f 2 f k
X
i 1 k i 1
k
i i
f
fi
Xi (
i 1
k
fi
f
i 1
k
)
i
简单算术平均数
(算例)
原始数据:
10
i
5
9
13
6
8
X1 X 2 X 3 X 4 X 5 X 6 X n 6 10 5 9 13 6 8 6 8.5
调和平均数
(算例) 【例8】某种蔬菜价格:早上0.4元/斤(x1),中午0.25 (x2),晚上0.20(x3),若某人早、中、晚分别购买 的金额是1元(m1)、2元(m2) 、3元(m3) ,求平 均价格。
解:平均价格=总金额/总数量
m 1 2 3 6元 H 0.24元 / 斤 m 1 2 3 25.5 斤 x 0.40 0.25 0.20
20 3 5 5 2
1.07088 r 1.07088 1 0.07088 7.088%
调和平均数
(概念要点)
集中趋势的测度值之一 均值的另一种表现形式 易受极端值的影响 计算公式为
H n
i 1
简单调和平均数
(1/ X i )
mi
k
n
加权调和平均数
H
G.M . n X 1 X 2 3.46%
Xn
4 3% 2% 4% 6%
几何平均数
(算例) 【例5】一位投资者持有一种股票,1996年、1997年、 1998年和1999年收益率分别为4.5%、2.0%、3.5%、 5.4%。计算该投资者在这四年内的平均收益率。
合计
7 13 5 2
30
23 43 17 7
100
分两组
次数 20 15 10 5 0 80-105 105-130 次数
工资收入次数分配表
工资收入分组 80-105 105-130 合计 次数 13 17 30
反映不出观察值 分布特征
分组太细会出现什么问题?
工资表 140 120 100 80 工资 60 40 20 0
中位数
(概念要点)
1.集中趋势的测度值之一 2.排序后处于中间位置上的值
50%
3.不受极端值的影响
50%
Md
4 .各变量值与中位数的离差绝对值之和最小,即
X
i 1
n
i
M d min X i C
3、确定组限 4、将各个数据按其数值大小归入相应的组内
数据分组例
【例1】设某企业30个非熟练工人的周工资额 (元)如下: 106 99 85 121 84 94 106 110 119 101 95 91 87 105 106 109 118 96 128 91 105 111 111 107 103 101 107 106
i 1 k
i 1
(mi / xi )
,其中mi xi f i
调和平均数
(说明)
加权调和平均
H
i 1 k
mi
k
i 1
(mi / xi )
,其中mi xi fi , 而不是变量值xi出现的次数, mi
k
故事实上H
i 1
i 1 就是加权算术平均数的变形, k k (mi / xi ) fi i 1 i 1
数据整理与
分析
主要内容
数据分组
数据显示 数据集中趁势
数据离中趋势
数据分组
1、将原始资料顺序排序 2、确定组数与组距
如果数据分布比较均匀、对称,即中间数值次数多, 大小极端值次数少,考虑用以下公式来确定组数: 组数=1+3.322 log n 组距= (观察值中的最大数值-观察值中的最小数值)/组数
调和平均数与算术平均数的区别
【例9】某种蔬菜价格:早上0.4元/斤(x1),中午0.25 (x2),晚上0.20(x3),若某人早、中、晚分别买2.5 斤(f1)、8斤(f2) 、15斤(f3) ,求平均价格。 解:平均价格=总金额/总数量
总金额 xf x 总数量 f 0.4 2.5 0.25 8 0.20 15 0.24元 / 斤 2.5 8 15
G.M . n X 1 X 2 X n 4 104.5% 102.0% 103.5% 105.4% 103.84%
平均收益率=103.84%-1=3.84%
几何平均数
(算例) 【例6】设某银行有一笔20年的长期投资,其利率是 按复利计算的,有1年为2.5%,有3年为 3%,有5年
1 人员编号
数据图示
直方图:频数分配直方图、频率分配直方
图
次数多边形图 累积次数分配图:小于上组限的累积次数
分配图、大于下组限的累积次数分配图。 [特例] 洛伦茨曲线
茎叶图
直方图
以变量值为横坐标、次数为纵坐标,以矩 形高度表示各组次数(频数)分配多少。如 下图:
频数直方图
直方图
组次 数 3
小于上组限的 小于上组限的累 积百分比(%) 累计次数 (人) 30 100
90~100
100~110 110~120 120~130
90
100 110 120
7
13 5 2
27
20 7 2
90
66 23 7
累计次数分配图
洛伦茨曲线
以人口百分比为横坐标、以累积收入百分 比为纵坐标描点连接而成的图形,如图:
基尼系数
反映一国收入的平等程度。 如右图
基尼系数 r=A/(A+B) r=0 绝对平等
r=1 绝对不平等
r越大越不平等,反之则越平等。
茎叶图
数据源: 21 ,29, 60, 1, 27, 35, 66, 23, 8, 38, 31, 45, 57, 66, 68, 62, 62, 93, 68, 19, 68, 72, 76, 91, 46, 62, 3, 10, 49, 56, 52, 95 按大小排序后如下: 1, 3, 8, 10, 19, 21, 23, 27, 29, 31, 35, 38, 45, 46, 49, 52, 56, 57, 60, 62, 62, 62, 66, 66, 68, 68, 68, 72, 76, 91, 93, 95
i 1
Байду номын сангаас
X
n
加权算术平均数
(算例)
【例2】设某企业经理付给他的雇员的每小 时工资分为三个等级:6.5元、7.5元、8.5元。 拿这三种工资的人数分别为:14人、10人、 2人 ,则该公司雇员的平均工资为:
___
6.5 14 7.5 10 8.5 2 183 X 7.038 14 10 2 26
i
频数(fi) 3 5 8 14 10 6 4 50
Xifi 322.5 562.5 940.0 1715.0 1275.0 795.0 550.0 6160.0
X
X
i 1 k i 1
k
fi
i
f
6160 123.2 (个) 50
算术平均数的数学性质
1.各变量值与均值的离差之和等于零
组次 数 3 7 13 5 2
小于上组限的 小于上组限的累 积百分比(%) 累计次数 (人) 3 10 10 23 28 30 33 77 93 100
累计次数分配图
以变量值为横坐标、以累积计次数为纵坐标 描点连接而成的图,如下图:
累计次数分配图
大于下组限的累积次数分配
每周工资 上组 (元) 限 80~90 80
加权算术平均数
(分组数据算例) 【例 3】根据表 4-1中的数据,计算 50 名工人日加工 零件数的均值
表4-1 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 某车间50名工人日加工零件均值计算表 组中值(Xi) 107.5 112.5 117.5 122.5 127.5 132.5 137.5 —
(X
i 1
n
n
i
X) 0
(X X ) f 0
i 1 i i
2
n
2. 各变量值与均值的离差平方和最小
( X i X ) min ( X i C )
2 i 1 CR i 1
n
2 2 ( X X ) f min ( X C ) i i fi i i 1 CR i 1
n
n
几何平均数
(概念要点)
1. 集中趋势的测度值之一 2. 主要用于计算平均比率及平均发展速度 3. 计算公式为 简单几何平均数 n n
G.M . X 1 X 2
f
Xn
X
i 1 fk
n
i fi X i i 1 k
加权几何平均数
G.M . X 1 f1 X 2 f2
集中趋势的测度值之一
最常用的测度值
一组数据的均衡点所在
易受极端值的影响
算术平均数
(计算公式)
设一组数据为: X1 , X 2 , , X n 简单算术平均值的计算公式为
X1 X 2 X n
Xn
X
i 1
n
i
n
设分组后的数据为:X1 , X 2 , , X k 相应的频数为: f1 , f 2 , , f k 加权算术平均值的计算公式为
为6%,有8年为9%,有2年为12%, 有1年为5%,求平
均年利率。
G.M . 20 (1 2.5%) (1 3%)3 (1 6%)5 (1 9%)8 (1 12%) 2 (1 5%) 1.025 (1.03) (1.06) (1.09) (1.12) (1.05)
数据分组例
排序:
84,85,87,91,91,94,95,96,97, 99,101,101,103,103,105,105,105, 106,106,106,106,107,107,109, 110,111,111,118,119,121,128
分组计算
组数=1+3.322 log n
=5.9(n=30) 分6组
组距:每组区间的宽度
=(观察值中的最大数值- 观察值中的最小数值)/组数 =(128-84)/6=7.3
分6组,组距8
每周工资 人 数(个) 各组人数占总人数 (元) 百分比(%) 5 17 84~92 5 17 92~100 12 40 100~108 4 13 108~116 3 10 116~124 1 3 124~132 30 100 合计
xi fi
k
它主要用于每个数值次数fi未知,而总量mi已知情形的数据求平均.
调和平均数
(算例)
【例7】某人开车,前10公里以时速50公里 驾驶,后10公里以时速30公里驾驶。则此 人跑这20公里的平均时速为:
总路程S 10 10 2 V 1 1 总时间T 10 10 50 30 50 30 37.5(公里 / 小时)
Xk
f
4.数据都为正数时才可计算几何平均数
5. 可看作是均值的一种变形
1 log G.M . (log X 1 log X 2 n log X n )
log X
i 1
n
i
n
几何平均数
(算例)
【例 4】设某建筑公司承建的四项工程的利 润分别为 3% 、 2% 、 4% 、 6% 。问这四 项工程的平均利润率是多少?
频率分布直方图
次数多边形图
14 12 10 8 6 4 2 0 收入
80-90 90-100 100-110 110-120 120-130
分配直方图
人次
次数多边形图
还可将几种不同数据绘在同一多边形图上用 于比较.如图:
累计次数分配图
小于上组限的累积次数分配
每周工资 上组 (元) 限 80~90 90~100 100~110 110~120 120~130 90 100 110 120 130
结合实际数据
一、比较计算组距值(7.3),组距为10 比较好计算且方便, 二、分组的组数相应从6减少为5。最小 值为84,下限从80开 始,
分5组,组距10
每周工资 人数(个) 各组人数占总人数 (元) 百分比(%) 3 10 80~90 90~100 100~110 110~120 120~130
茎叶图
茎
0 1 2 3 4 5 6 7 8 9 1 0 1 1 5 2 0 2 1
叶
3 8 9 3 7 9 5 8 6 9 6 7 2 2 2 6 6 8 6 3 5 5
次数
3 2 4 3 3 3 9 2 0 4
8 8
数据集中趋势
算术平均数
几何平均数
调和平均数
中位数及四分位数 众数
算术平均数
X 1 f1 X 2 f 2 X k f k X f1 f 2 f k
X
i 1 k i 1
k
i i
f
fi
Xi (
i 1
k
fi
f
i 1
k
)
i
简单算术平均数
(算例)
原始数据:
10
i
5
9
13
6
8
X1 X 2 X 3 X 4 X 5 X 6 X n 6 10 5 9 13 6 8 6 8.5
调和平均数
(算例) 【例8】某种蔬菜价格:早上0.4元/斤(x1),中午0.25 (x2),晚上0.20(x3),若某人早、中、晚分别购买 的金额是1元(m1)、2元(m2) 、3元(m3) ,求平 均价格。
解:平均价格=总金额/总数量
m 1 2 3 6元 H 0.24元 / 斤 m 1 2 3 25.5 斤 x 0.40 0.25 0.20
20 3 5 5 2
1.07088 r 1.07088 1 0.07088 7.088%
调和平均数
(概念要点)
集中趋势的测度值之一 均值的另一种表现形式 易受极端值的影响 计算公式为
H n
i 1
简单调和平均数
(1/ X i )
mi
k
n
加权调和平均数
H
G.M . n X 1 X 2 3.46%
Xn
4 3% 2% 4% 6%
几何平均数
(算例) 【例5】一位投资者持有一种股票,1996年、1997年、 1998年和1999年收益率分别为4.5%、2.0%、3.5%、 5.4%。计算该投资者在这四年内的平均收益率。
合计
7 13 5 2
30
23 43 17 7
100
分两组
次数 20 15 10 5 0 80-105 105-130 次数
工资收入次数分配表
工资收入分组 80-105 105-130 合计 次数 13 17 30
反映不出观察值 分布特征
分组太细会出现什么问题?
工资表 140 120 100 80 工资 60 40 20 0
中位数
(概念要点)
1.集中趋势的测度值之一 2.排序后处于中间位置上的值
50%
3.不受极端值的影响
50%
Md
4 .各变量值与中位数的离差绝对值之和最小,即
X
i 1
n
i
M d min X i C
3、确定组限 4、将各个数据按其数值大小归入相应的组内
数据分组例
【例1】设某企业30个非熟练工人的周工资额 (元)如下: 106 99 85 121 84 94 106 110 119 101 95 91 87 105 106 109 118 96 128 91 105 111 111 107 103 101 107 106
i 1 k
i 1
(mi / xi )
,其中mi xi f i
调和平均数
(说明)
加权调和平均
H
i 1 k
mi
k
i 1
(mi / xi )
,其中mi xi fi , 而不是变量值xi出现的次数, mi
k
故事实上H
i 1
i 1 就是加权算术平均数的变形, k k (mi / xi ) fi i 1 i 1
数据整理与
分析
主要内容
数据分组
数据显示 数据集中趁势
数据离中趋势
数据分组
1、将原始资料顺序排序 2、确定组数与组距
如果数据分布比较均匀、对称,即中间数值次数多, 大小极端值次数少,考虑用以下公式来确定组数: 组数=1+3.322 log n 组距= (观察值中的最大数值-观察值中的最小数值)/组数
调和平均数与算术平均数的区别
【例9】某种蔬菜价格:早上0.4元/斤(x1),中午0.25 (x2),晚上0.20(x3),若某人早、中、晚分别买2.5 斤(f1)、8斤(f2) 、15斤(f3) ,求平均价格。 解:平均价格=总金额/总数量
总金额 xf x 总数量 f 0.4 2.5 0.25 8 0.20 15 0.24元 / 斤 2.5 8 15
G.M . n X 1 X 2 X n 4 104.5% 102.0% 103.5% 105.4% 103.84%
平均收益率=103.84%-1=3.84%
几何平均数
(算例) 【例6】设某银行有一笔20年的长期投资,其利率是 按复利计算的,有1年为2.5%,有3年为 3%,有5年
1 人员编号
数据图示
直方图:频数分配直方图、频率分配直方
图
次数多边形图 累积次数分配图:小于上组限的累积次数
分配图、大于下组限的累积次数分配图。 [特例] 洛伦茨曲线
茎叶图
直方图
以变量值为横坐标、次数为纵坐标,以矩 形高度表示各组次数(频数)分配多少。如 下图:
频数直方图
直方图
组次 数 3
小于上组限的 小于上组限的累 积百分比(%) 累计次数 (人) 30 100
90~100
100~110 110~120 120~130
90
100 110 120
7
13 5 2
27
20 7 2
90
66 23 7
累计次数分配图
洛伦茨曲线
以人口百分比为横坐标、以累积收入百分 比为纵坐标描点连接而成的图形,如图:
基尼系数
反映一国收入的平等程度。 如右图
基尼系数 r=A/(A+B) r=0 绝对平等
r=1 绝对不平等
r越大越不平等,反之则越平等。
茎叶图
数据源: 21 ,29, 60, 1, 27, 35, 66, 23, 8, 38, 31, 45, 57, 66, 68, 62, 62, 93, 68, 19, 68, 72, 76, 91, 46, 62, 3, 10, 49, 56, 52, 95 按大小排序后如下: 1, 3, 8, 10, 19, 21, 23, 27, 29, 31, 35, 38, 45, 46, 49, 52, 56, 57, 60, 62, 62, 62, 66, 66, 68, 68, 68, 72, 76, 91, 93, 95
i 1
Байду номын сангаас
X
n
加权算术平均数
(算例)
【例2】设某企业经理付给他的雇员的每小 时工资分为三个等级:6.5元、7.5元、8.5元。 拿这三种工资的人数分别为:14人、10人、 2人 ,则该公司雇员的平均工资为:
___
6.5 14 7.5 10 8.5 2 183 X 7.038 14 10 2 26
i
频数(fi) 3 5 8 14 10 6 4 50
Xifi 322.5 562.5 940.0 1715.0 1275.0 795.0 550.0 6160.0
X
X
i 1 k i 1
k
fi
i
f
6160 123.2 (个) 50
算术平均数的数学性质
1.各变量值与均值的离差之和等于零
组次 数 3 7 13 5 2
小于上组限的 小于上组限的累 积百分比(%) 累计次数 (人) 3 10 10 23 28 30 33 77 93 100
累计次数分配图
以变量值为横坐标、以累积计次数为纵坐标 描点连接而成的图,如下图:
累计次数分配图
大于下组限的累积次数分配
每周工资 上组 (元) 限 80~90 80
加权算术平均数
(分组数据算例) 【例 3】根据表 4-1中的数据,计算 50 名工人日加工 零件数的均值
表4-1 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计 某车间50名工人日加工零件均值计算表 组中值(Xi) 107.5 112.5 117.5 122.5 127.5 132.5 137.5 —
(X
i 1
n
n
i
X) 0
(X X ) f 0
i 1 i i
2
n
2. 各变量值与均值的离差平方和最小
( X i X ) min ( X i C )
2 i 1 CR i 1
n
2 2 ( X X ) f min ( X C ) i i fi i i 1 CR i 1
n
n
几何平均数
(概念要点)
1. 集中趋势的测度值之一 2. 主要用于计算平均比率及平均发展速度 3. 计算公式为 简单几何平均数 n n
G.M . X 1 X 2
f
Xn
X
i 1 fk
n
i fi X i i 1 k
加权几何平均数
G.M . X 1 f1 X 2 f2