精选人大版,贾俊平,第五版,统计学第4章数据的概括性度量资料
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
R
. =
最高组上限
-
最低组下限
2. 平均差
1. 离散程度的测度值之一
2. 各变量值与其均值离差绝对值的平均数
3. 能全面反映一组数据的离散程度
4. 数学性质较差,实际中应用较少
5. 计算公式为
未分组数据 组距分组数据
N
Xi X
M D i1 N K X i X Fi
M D i1 K
QD = QU - QL =3–2 =1
4.2.3 数值型数据:方差和标准差 1.极差
1. 一组数据的最大值与最小值之差
2. 离散程度的最简单测度值
3. 易受极端值影响
4. 未考虑数据的分布 5. 计算公式为
7 8 9 10
7 8 9 10
未分组数据 R = max(Xi) - min(Xi)
组距分组数据
QU位置=3×50/4=37.5
350 30
QU 125
4 10
5 128.75(个)
4.1.3 数值型数据:平均值 1.集中趋势的测度值之一 2.最常用的测度值 3.一组数据的均衡点所在 4.易受极端值的影响 5.用于数值型数据,不能用于定类数据和定
序数据
均值(计算公式)
M0
125
(14
14 10 8) (14
10)
5
123(个)
4.1.2 顺序数据:中位数和分位数 1.中位数
集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响 主要用于定序数据,也可用数值型数据,但不能
用于定类数据
各变量值与中位数的离差绝对值之和最小,即
25% 25% 25% 25%
QL
QM
QU
1.集中趋势的测度值之一 2.排序后处于25%和75%位置上的值 3.不受极端值的影响 4.主要用于定序数据,也可用于数值型数据,但不 能用于定类数据
四分位数(位置的确定)
未分组数据:
N+1 下四分位数(QL)位置 = 4
3(N+1) 上四分位数(QU)位置 = 4
N
GM N X1 X 2 X N N X i i 1
6. 可看作是均值的一种变形
N
log GM
1 N
(log
X1 log
X2
log
XN)
log X i
i1
N
几何平均数(算例)
【例4.10】一位投资者持有一种股票,2001-2004年 收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投 资者在这四年内的平均收益率。
i 1
F1 F2 FN
K
Fi
i 1
简单均值(算例)
原始数据: 10 5 9 13 6 8
N
X
Xi
i 1
X1 X2 X3 X4 X5 X6
N
6
10 5 9 13 6 8 6
8.5
加权均值(算例4.7)
加权均值(权数对均值的影响)
某车间50名工人日加工零件数分组表
按零件数分组 频数(人) 累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50
—
QL位置=50/4=12.5
50 8
QL 115
4 8
5 117.81(个)
从累计频数看, QL在“不满意” 这一组别中; QU在“一般”这一 组别中。因此
QL =不满意 QU =一般
数值型未分组数据的四分位数
原始数据: 23 21 30 32 28 25 26
排 序: 21 23 25 26 28 30 32
位 置: 1 2 3 4 5 6 7
QL位置
= N+1 4
40
130~135
6
46
135~140
4
50
合计
50
—
中位数的位置=50/2=25,即中位数在120~125这一组,L=120, Sm − 1 = 16,U=125,Sm + 1 = 20,fm = 14,d=5,根据中位数公 式得:
2.四分位数
人们经常会将数据划分为4个部分,每一个部分大
约包含有1/4即25%的数据项。
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300
—
解:设非常不满意为1,不满 意为2, 一般为3, 满意为 4, 非 常满意为5 已知 QL = 不满意 = 2,
QU = 一般 = 3 四分位差:
集中趋势 (位置)
4.1.1 分类数据:众数 1. 集中趋势的测度值之一 2. 出现次数最多的变量值 3. 不受极端值的影响 4. 可能没有众数或有几个众数
5. 主要用于定类数据,也可用于定序数据和 数值型数据
算例
1.根据第三章例3.3中的数据,计算众数 2.根据第三章例3.5中的数据,计算众数 3.数值型分组数据的众数
左偏分布
对称分布
右偏分布
数据类型和所适用的集中趋势测度值
数据类型 定类数据 定序数据 定距数据 定比数据
众数
中位数
均值
均值
适
用
—
四分位数
众数
调和平均数
的
—
众数
中位数 几何平均数
测
—
度
值
—
—
四分位数
中位数
—
—
四分位数
—
—
—
众数
4.2 离散程度的度量
1. 数据分布的另一个重要特征 2. 离中趋势的各测度值是对数据离散程度所作的描述 3. 反映各变量值远离其中心值的程度,因此也称为离中趋
Fi
i 1
平均差(计算过程及结果)
某厂按月收入水平分组的组距数列如表中前两列,计算平均差。
3.方差和标准差
离散程度的测度值之一
X = 8.3
最常用的测度值 反映了数据的分布
4 6 8 10 12
反映了各变量值与均值的平均差异
根据总体数据计算的,称为总体方差或标 准差;根据样本数据计算的,称为样本方 差或标准差
第4章 数据的概括性度量
1
集中趋势的度量
2
离散程度的度量
3
偏态与峰态的度量
4.1集中趋势的度量
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据一般水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值 4. 低层次数据的集中趋势测度值适用于高层次的测量数据,
反过来,高层次数据的集中趋势测度值并不适用于低层 次的测量数据 5. 选用哪一个测度值来反映数据的集中趋势,要根据所掌 握的数据的类型来确定
设一组数据为:X1 ,X2 ,… ,XN
简单均值的计算公式为
N
X
X1 X2 XN
Xi
i 1
N
N
设分组后的数据为:X1 ,X2 ,… ,XK
相应的频数为: F1 , F2,… ,FK
加权均值的计算公式为
K
X
X1F1 X 2 F2 X N FN
X i Fi
4
=
= 5.25 4
QL= 21+0.75(23-21) = 22. 5
QU = 28+0.25(30-28) = 28.5
数值型分组数据的四分位数(计算公式)
上四分位数:
QU
LU
N 4
SU fU
dU
下四分位数:
QL
LL
N 4
SL fL
dL
计算50 名工人日加工零件数的四分位数
原始数据: 10 5 9 12 6 8 排 序: 5 6 8 9 10 12 位 置: 1 2 3 4 5 6
中位数=(8+9)/2=8.5
某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
组距分组数据:
N 下四分位数(QL)位置 = 4
上四分位数(QL)位置 =
3N 4
计算甲城市家庭对住房满意状况评价的四分位数
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300
—
解:下四分位数(QL)的位置为: QL位置=(300)/4=75 上四分位数(QL)的位置为: QU位置=(3×300)/4=225
7+1 =
4
=2
3(N+1) 3(7+1) QU位置 = 4 = 4 = 6
QL= 23
QU = 30
原始数据: 排 序: 位 置:
23 21 30 28 25 26
21 23 25 26 28 30
12 3 456
QL位置 =
N+1 4=
6+1 4
= 1.75
3(N+1) 3(6+1)
QU位置 =
4.2.2 顺序数据:四分位差 1. 离散程度的测度值之一 2. 也称为内距或四分间距 3. 上四分位数与下四分位数之差
QD = QU - QL 4. 反映了中间50%数据的离散程度 5.不受极端值的影响 6.用于衡量中位数的代表性
四分位差(定序数据的算例)
根据表中的数据,计算甲城市家庭对住房满 意状况评价的四分位差
总体方差和标准差(计算公式)
方差的计算公式
未分组数据:
N
(Xi X)2
2 i1
N
组距分组数据:
K
( X i X )2 Fi
2 i1 K
Fi
i 1
标准差的计算公式
未分组数据:
N
(Xi X )2
i1
N
组距分组数据:
K
( X i X )2 Fi
GM N X1 X 2 X N 4 104.5%102.1%125.5%101.9% 108.0787%
平均收益率=108.0787%-1=8.0787%
4.1.4众数、中位数和均值的比较 1.众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值
n
Xi M e min
i 1
计算公式
未分组数据的中位数
Me
X
N 1 2
1 2
X
N 2
X
N 2
1
当N为奇数时 当N为偶数时
数值型分组数据的中位数
Me
L
N 2
Sm1 fm
d
中位数的计算
原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5
某车间50名工人日加工零件数分组表
按零件数分组 频数(人) 累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50
—
M0
120
(14
14 8 8) (14
10)
5
123(个)
0×8+20×1+100×1 12(分) 10
均值(数学性质)
1. 各变量值与均值的离差之和等于零
n
(Xi X) 0
i 1
2. 各变量值与均值的离差平方和最小
n
( Xi X )2 min
i 1
几何平均数(概念要点)
1. 集中趋势的测度值之一 2. 个变量值乘积的 N 次方根 3. 适用于特殊的数据 4. 主要用于计算平均发展速度 5. 计算公式为
甲乙两组各有10名学生,他们的考试成绩及其分布 数据如下
甲组: 考试成绩(X):0 20 100
人数分布(F):1 1 8
乙组: 考试成绩(X ): 0 20 100
人数分布(F ):8 1 1
X甲
i=1 Xi n
0×1+20×1+100×8 82(分) 10
X乙
i=1 Xi n
i 1
K
Fi
i 1
总体标准差(计算过程及结果)
根据表中的数据,计算工人日加工零件数的标准差
按零件数分组
105~110 110~115 115~120 120~125 125~130 130~135 135~140
合计
某车间50名工人日加工零件标准差计算表
组中值(Xi)
频数(Fi)
(Xi- X )2
某城市居民关注广告类型的频数分布
广告类型
人数(人) 频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
112
56.0
51
25.5
9
4.5
16
8.0
10
5.0
2
1.0
合计
200
100
解:
Vr =
200 - 112 200
=1-
112 200
= 0.44 = 44%
在所调查的200人当中,关注非 商品广告的人数占44%,异众比率 还是比较大。因此,用“商品广 告”来反映城市居民对广告关注 的一般趋势,其代表性不是很好
势 4. 从另一个侧面说明了集中趋势测度值的代表程度 5. 不同类型的数据有不同的离散程度测度值
4.2.1 分类数据:异众比率
1. 离散程度的测度值之一 2. 非众数组的频数占总频数的比率 3. 计算公式为
Vr
Fi Fm 1 Fm
Fi
Fi
4. 用于衡量众数的代表性
异众比率(算例) 根据表中的数据,计算异众比率