精选人大版,贾俊平,第五版,统计学第4章数据的概括性度量资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

R
. =
最高组上限
-
最低组下限
2. 平均差
1. 离散程度的测度值之一
2. 各变量值与其均值离差绝对值的平均数
3. 能全面反映一组数据的离散程度
4. 数学性质较差,实际中应用较少
5. 计算公式为
未分组数据 组距分组数据
N
Xi X
M D i1 N K X i X Fi
M D i1 K
QD = QU - QL =3–2 =1
4.2.3 数值型数据:方差和标准差 1.极差
1. 一组数据的最大值与最小值之差
2. 离散程度的最简单测度值
3. 易受极端值影响
4. 未考虑数据的分布 5. 计算公式为
7 8 9 10
7 8 9 10
未分组数据 R = max(Xi) - min(Xi)
组距分组数据
QU位置=3×50/4=37.5
350 30
QU 125
4 10
5 128.75(个)
4.1.3 数值型数据:平均值 1.集中趋势的测度值之一 2.最常用的测度值 3.一组数据的均衡点所在 4.易受极端值的影响 5.用于数值型数据,不能用于定类数据和定
序数据
均值(计算公式)
M0
125
(14
14 10 8) (14
10)
5
123(个)
4.1.2 顺序数据:中位数和分位数 1.中位数
集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响 主要用于定序数据,也可用数值型数据,但不能
用于定类数据
各变量值与中位数的离差绝对值之和最小,即
25% 25% 25% 25%
QL
QM
QU
1.集中趋势的测度值之一 2.排序后处于25%和75%位置上的值 3.不受极端值的影响 4.主要用于定序数据,也可用于数值型数据,但不 能用于定类数据
四分位数(位置的确定)
未分组数据:
N+1 下四分位数(QL)位置 = 4
3(N+1) 上四分位数(QU)位置 = 4
N
GM N X1 X 2 X N N X i i 1
6. 可看作是均值的一种变形
N
log GM

1 N
(log
X1 log
X2
log
XN)
log X i
i1
N
几何平均数(算例)
【例4.10】一位投资者持有一种股票,2001-2004年 收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投 资者在这四年内的平均收益率。
i 1
F1 F2 FN
K
Fi
i 1
简单均值(算例)
原始数据: 10 5 9 13 6 8
N
X

Xi
i 1

X1 X2 X3 X4 X5 X6
N
6
10 5 9 13 6 8 6
8.5
加权均值(算例4.7)
加权均值(权数对均值的影响)
某车间50名工人日加工零件数分组表
按零件数分组 频数(人) 累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50

QL位置=50/4=12.5
50 8
QL 115
4 8
5 117.81(个)
从累计频数看, QL在“不满意” 这一组别中; QU在“一般”这一 组别中。因此
QL =不满意 QU =一般
数值型未分组数据的四分位数
原始数据: 23 21 30 32 28 25 26
排 序: 21 23 25 26 28 30 32
位 置: 1 2 3 4 5 6 7


QL位置
= N+1 4
40
130~135
6
46
135~140
4
50
合计
50

中位数的位置=50/2=25,即中位数在120~125这一组,L=120, Sm − 1 = 16,U=125,Sm + 1 = 20,fm = 14,d=5,根据中位数公 式得:
2.四分位数
人们经常会将数据划分为4个部分,每一个部分大
约包含有1/4即25%的数据项。
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300

解:设非常不满意为1,不满 意为2, 一般为3, 满意为 4, 非 常满意为5 已知 QL = 不满意 = 2,
QU = 一般 = 3 四分位差:
集中趋势 (位置)
4.1.1 分类数据:众数 1. 集中趋势的测度值之一 2. 出现次数最多的变量值 3. 不受极端值的影响 4. 可能没有众数或有几个众数
5. 主要用于定类数据,也可用于定序数据和 数值型数据
算例
1.根据第三章例3.3中的数据,计算众数 2.根据第三章例3.5中的数据,计算众数 3.数值型分组数据的众数
左偏分布
对称分布
右偏分布
数据类型和所适用的集中趋势测度值
数据类型 定类数据 定序数据 定距数据 定比数据
众数
中位数
均值
均值



四分位数
众数
调和平均数


众数
中位数 几何平均数






四分位数
中位数


四分位数



众数
4.2 离散程度的度量
1. 数据分布的另一个重要特征 2. 离中趋势的各测度值是对数据离散程度所作的描述 3. 反映各变量值远离其中心值的程度,因此也称为离中趋
Fi
i 1
平均差(计算过程及结果)
某厂按月收入水平分组的组距数列如表中前两列,计算平均差。
3.方差和标准差
离散程度的测度值之一
X = 8.3
最常用的测度值 反映了数据的分布
4 6 8 10 12
反映了各变量值与均值的平均差异
根据总体数据计算的,称为总体方差或标 准差;根据样本数据计算的,称为样本方 差或标准差
第4章 数据的概括性度量
1
集中趋势的度量
2
离散程度的度量
3
偏态与峰态的度量
4.1集中趋势的度量
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据一般水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值 4. 低层次数据的集中趋势测度值适用于高层次的测量数据,
反过来,高层次数据的集中趋势测度值并不适用于低层 次的测量数据 5. 选用哪一个测度值来反映数据的集中趋势,要根据所掌 握的数据的类型来确定
设一组数据为:X1 ,X2 ,… ,XN
简单均值的计算公式为
N
X

X1 X2 XN

Xi
i 1
N
N
设分组后的数据为:X1 ,X2 ,… ,XK
相应的频数为: F1 , F2,… ,FK
加权均值的计算公式为
K
X

X1F1 X 2 F2 X N FN

X i Fi
4
=
= 5.25 4
QL= 21+0.75(23-21) = 22. 5
QU = 28+0.25(30-28) = 28.5
数值型分组数据的四分位数(计算公式)
上四分位数:
QU

LU

N 4
SU fU
dU
下四分位数:
QL

LL

N 4
SL fL
dL
计算50 名工人日加工零件数的四分位数
原始数据: 10 5 9 12 6 8 排 序: 5 6 8 9 10 12 位 置: 1 2 3 4 5 6
中位数=(8+9)/2=8.5
某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
组距分组数据:
N 下四分位数(QL)位置 = 4
上四分位数(QL)位置 =
3N 4
计算甲城市家庭对住房满意状况评价的四分位数
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300

解:下四分位数(QL)的位置为: QL位置=(300)/4=75 上四分位数(QL)的位置为: QU位置=(3×300)/4=225
7+1 =
4
=2
3(N+1) 3(7+1) QU位置 = 4 = 4 = 6
QL= 23
QU = 30
原始数据: 排 序: 位 置:
23 21 30 28 25 26
21 23 25 26 28 30
12 3 456


QL位置 =
N+1 4=
6+1 4
= 1.75
3(N+1) 3(6+1)
QU位置 =
4.2.2 顺序数据:四分位差 1. 离散程度的测度值之一 2. 也称为内距或四分间距 3. 上四分位数与下四分位数之差
QD = QU - QL 4. 反映了中间50%数据的离散程度 5.不受极端值的影响 6.用于衡量中位数的代表性
四分位差(定序数据的算例)
根据表中的数据,计算甲城市家庭对住房满 意状况评价的四分位差
总体方差和标准差(计算公式)
方差的计算公式
未分组数据:
N
(Xi X)2
2 i1
N
组距分组数据:
K
( X i X )2 Fi
2 i1 K
Fi
i 1
标准差的计算公式
未分组数据:
N
(Xi X )2
i1
N
组距分组数据:

K
( X i X )2 Fi
GM N X1 X 2 X N 4 104.5%102.1%125.5%101.9% 108.0787%
平均收益率=108.0787%-1=8.0787%
4.1.4众数、中位数和均值的比较 1.众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值
n
Xi M e min
i 1
计算公式
未分组数据的中位数
Me


X

N 1 2

1 2

X
N 2


X
N 2
1

当N为奇数时 当N为偶数时
数值型分组数据的中位数
Me

L
N 2
Sm1 fm
d
中位数的计算
原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5
某车间50名工人日加工零件数分组表
按零件数分组 频数(人) 累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50

M0
120

(14
14 8 8) (14
10)
5
123(个)
0×8+20×1+100×1 12(分) 10
均值(数学性质)
1. 各变量值与均值的离差之和等于零
n
(Xi X) 0
i 1
2. 各变量值与均值的离差平方和最小
n
( Xi X )2 min
i 1
几何平均数(概念要点)
1. 集中趋势的测度值之一 2. 个变量值乘积的 N 次方根 3. 适用于特殊的数据 4. 主要用于计算平均发展速度 5. 计算公式为
甲乙两组各有10名学生,他们的考试成绩及其分布 数据如下
甲组: 考试成绩(X):0 20 100
人数分布(F):1 1 8
乙组: 考试成绩(X ): 0 20 100
人数分布(F ):8 1 1
X甲
i=1 Xi n
0×1+20×1+100×8 82(分) 10
X乙
i=1 Xi n
i 1
K
Fi
i 1
总体标准差(计算过程及结果)
根据表中的数据,计算工人日加工零件数的标准差
按零件数分组
105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
某车间50名工人日加工零件标准差计算表
组中值(Xi)
频数(Fi)
(Xi- X )2
某城市居民关注广告类型的频数分布
广告类型
人数(人) 频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
112
56.0
51
25.5
9
4.5
16
8.0
10
5.0
2
1.0
合计
200
100
解:
Vr =
200 - 112 200
=1-
112 200
= 0.44 = 44%
在所调查的200人当中,关注非 商品广告的人数占44%,异众比率 还是比较大。因此,用“商品广 告”来反映城市居民对广告关注 的一般趋势,其代表性不是很好
势 4. 从另一个侧面说明了集中趋势测度值的代表程度 5. 不同类型的数据有不同的离散程度测度值
4.2.1 分类数据:异众比率
1. 离散程度的测度值之一 2. 非众数组的频数占总频数的比率 3. 计算公式为
Vr
Fi Fm 1 Fm
Fi
Fi
4. 用于衡量众数的代表性
异众比率(算例) 根据表中的数据,计算异众比率
相关文档
最新文档