第4章数据的概括性度量
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3. 如果数据是右偏分布,则 Mo < Me < -x
4.2 离散程度的测度
离散程度:反映个体远离其中心值的程度。
离散程度越大,表示集中趋势的测度值对数 据的代表性越差;
离散程度越小,表示集中趋势的测度值对数 据的代表性越好。
分类数据 —— 异众比率 顺序数据 —— 四分位差 数值型数据 —— 方差和标准差
频数 2 5 6 14 26 18 13 10 3 3
数值型数据:平均数(均值)
1. 平均数是一组数据相加后除以数据个数 得到的结果。
2. 集中趋势的最主要测度值 3. 易受极端值的影响 4. 用于数值型数据,不能用于分类数据和
顺序数据。
简单平均数
对未分组数据计算的平均数
N
公式为:
X
X1 X2
Mo
组后一组的频数。
表3-6 某车间50名工人日加工零件数分组表
【 例 4.4】 根 据 第三章表3-6中 的数据,计算 50 名 工 人 日 加 工零件数的众 数
按零件数分组 频数(人)
105~110
3
110~115
5
115~120
8
120~125
14
125~130
10
130~135
6
135~140
【例4.8】计算第三章中50个工人日加工零 件数的均值
—x = (117+122+……121)/50
= 6149/50 = 122.98(个)
【例4.9】根据第三章表3-5中的数据,计算50 名工人日加 工零件数的均值
表4-1 某车间50名工人日加工零件均值计算表
按零件数分组 组中值(Mi) 频数(Fi)
Mo=不满意
合计
300
100.0
数值型数据的众数
(未分组)
【例4.3 】在某城市中随机抽取9个家庭,调查得到
每个家庭的人均月收入数据如下(单位:元)。 要求计算人均月收入的众数。
1080 750 1080 1080 850 960 2000 1250 1630
解:人均月收入出现次数最多的是1080,因此,
◆主要用于顺序数据,也可用于数值型数 据,但不能用于分类数据
四分位数的计算
1. 排序
2. 确定四分位数的位置
下四分位数为QL,上四分位数为QU,公式为:
n QL位置 = 4
QU位置 =
3n 4
★ 如果位置是整数,四分位数就是该位置 上的值;
★ 如果是在0.5位置上,则取该位置两侧值 的平均数;
★ 如果是在0.25或0.75位置上,则四分位数 等于该位置的下侧值加上按比例分摊位置 两侧数值的差值。
LU
3N 4
SU
fU
iU
LL和LU为QL和QU所在组的下限值; SL和SU为QL和QU所在组以前各组的累积频数 fL和fU为QL和QU所在组的频数, iL和iU为QL和QU所在组的组距
【例4.7】计算50 名工人日加工零件数的四分位数
表3-5 某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
1. 排序 2. 确定中位数的位置(按公式)
中位数位置 N 1 2
N为数据的个数
顺序数据的中位数
(算例)
表3-2 甲城市家庭对住房状况评价的频 数分布
甲城市 回答类别
户数 (户) 累计频数
非常不满意 24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300
—
解:顺序数据本身就 是排序的,根据中位 数位置的确定公式:
4
累积频数
3 8 16 30 40 46 50
合计
50
—
M0
120
14 8 (14 8) (14 10)
5
123(个)
顺序数据:中位数和分位数
中位数
★ 排序后处于中间位置上的变量值
50%
50%
Me
★ 不受极端值的影响
★主要用于顺序数据,也可用数值型数据, 但不能用于分类数据
计算中位数的步骤
服务广告
22
0.22
22
金融广告
9
0.09
9
房地产广告
9
0.09
9
招生招聘广告
8
0.08
8
其他广告
5
0.05
5
合计
100
1
100
解:这里的变量为 “广告类型”,不同 类型的广告就是变量 值。关注商品广告的 人数最多,为47人, 占总被调查人数的 47%,因此众数为 “商品广告”这一类 别,即
Mo=商品广告
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50
—
50 16
M e 120
2 14
5 123.21(个)
四分位数
◆ 排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
◆ 不受极端值的影响
累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50
—
灯泡的使用寿命(小时) 650 — 660 660 — 670 670 — 680 680 — 690 690 — 700 700 — 710 710 — 720 720 — 730 730 — 740 740 — 750
107.5 112.5 117.5 122.5 127.5 132.5 137.5
3
322.5
5
562.5
8
940.0
14
1715.0
10
1275.0
6
795.0
4
550.0
合计
—
50
6160.0
k
_ x
Mifi
i 1 k
fi
6160 123.20(个)
50
i 1
★ 简单平均数,其数值的大小只与变量值 的大小有关;
300 1 150.5 2
从累积频数看,中位 数在“一般”这一类中, 即Me = 一般
数值型未分组数据的中位数
奇数个数据的算例
原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5
位置 N 1 5 1 3 22
中位数 = 22
偶数个数据的算例
数据分布特征的测度
◆集中趋势的度量
—— 反映数据向其中心值靠拢或聚集的程度
◆离散程度的度量
—— 反映数据远离其中心值的趋势
◆分布的形状
—— 反映数据分布的偏态和峰态
4.1 集中趋势的度量
*一组数据向其中心值靠拢的倾向和程度 *测度集中趋势就是寻找数据一般水平的代
表值或中心值 *不同类型的数据用不同的集中趋势测度值
其他
8
16
合计
50
100
解:
Vr =
50
-
15
50
=1-
15 50
= 0.70 = 70%
在 调 查 的 50 人 当 中 , 购 买其他类型饮料的人数占 70%,异众比率比较大,用 “碳酸饮料”来代表消费者购 饮料类型的状况,其代表性 不是很好。
顺序数据:四分位差
1. 离散程度的测度值之一 2. 也称为内距或四分间距 3. 上四分位数与下四分位数之差
原始数据: 排 序: 位 置:
10 5 9 12 6 8 5 6 8 9 10 12 1234 5 6
位置 N+1 6+1 3.5 22
中位数 8 + 9 8.5 2
数值型分组数据的中位数
1. 计算累积频数
N
2. 确定中位数所在组 2
3. 采用下列近似公式计算:
Me
L
N 2
Sm1 fm
Mo = 1080元
数值型分组数据的众数
1. 众数的值与相邻两组频数的分布有关
2. 相邻两组的频数相等时,众数组的组中值
即为众数
Mo
3. 相邻两组的频数不相等时,众数采用 下列近似公式计算
M0
L
(f
f f 1 f 1 ) ( f
i f 1 )
Mo
L为众数组的下限值,i为众数组的组距,f为众数
组的频数,f-1为众数组前一组的频数,f+1为众数
XN
Xi
i 1
N
N
加权平均数
对分组数据计算的平均数
设原始数据被分成k组,各组的组中值为M1,M2,
…,Mk,各组频数为f1,f2, …,fk,则k 加权平均数为,
- X
M 1 f 1 M 2 f 2 … Mkfk f 1 f 2 … fk
Mifi
i 1 k
fi
i 1
简单平均数 算例
★ 加权平均数,其数值的大小不仅受各组 变量值大小的影响,而且受各组变量值出 现的频数即权数(fi)大小的影响。
如果某一组的权数较大,说明该组的数据较 多,那么该组数据的大小对均值的影响就越大, 反之则越小。
几何平均数
1. 几何平均数: N 个变量值乘积的 N 次方根, 用GM表示
GEOMEAN
其计算公式为
【例要求计算该组数据的四分位数。
1500 750 780 1080 850 960 2000 1250 1630 2500
数值型分组数据的四分位数
1. 计算累积频数
2. 确定四分位数所在组
3. 采用下列近似公式计算:
QL
LL
N 4
SL fL
iL
QU
i
L为中位数所在组的下限值,N为数据的个数
Sm-1为中位数所在组以前各组的累积频数, fm为中位数所在组的频数, i为中位数所在组的组距
【例4.5】根据第三章表3-5中的数据,计算50 名工 人日加工零件数的中位数
表3-5 某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
累积频数
105~110
解:
GM n x1 x2 … xN 3 109%116%120%
= 114.91%
则年平均增长率为114.91%-100% = 14.91%
众数、中位数和平均数的比较
众数、中位数和平均数的关系
1. 如果数据分布是对称的,则 Mo = Me =-x
2. 如果数据是左偏分布,则 -x < Me < Mo
顺序数据的众数
【例4.2 】求甲城市家庭对住房状况评价的众数
表3-5 甲城市家庭对住房状况评价
的频数分布
回答类别
甲城市 户数 (户) 百分比 (%)
非常不满意
24
8
不满意
108
36
一般
93
31
满意
45
15
非常满意
30
10
解:这里的数据为顺 序数据。变量为“回 答类别”。甲城市中 对住房表示不满意的 户 数 最 多 , 为 108 户 ,因此众数为“不满 意”这一类别,即
= 108.0787% _ 则G = GM –1 = 108.0787%-1 = 8.0787%
【例4.11】某水泥生产企业2001年的水泥产量 为100万吨,2002年的产量比2001增长了9%, 2003年比2002年增长了16%,2004年比2003增 长20%。求该企业2002年、2003年、2004年这 三年的平均增长率。
分类数据:异众比率
1. 离散程度的测度值之一 2. 非众数组的频数占总频数的比率 3. 计算公式为
Vr
Fi Fm 1 Fm
Fi
Fi
4. 用于衡量众数的代表性
异众比率
(算例)
表3-1 不同类型饮料的频数分布
广告类型
人数(人) 频率(%)
果汁
6
12
矿泉水
10
20
绿茶
11
22
碳酸饮料
15
30
MiFi
105~110
3
110~115
5
115~120
8
120~125
14
125~130
10
130~135
6
135~140
4
合计
—
50
表4-1 某车间50名工人日加工零件均值计算表
按零件数分组
组中值(Xi)
频数(Fi)
XiFi
105~110 110~115 115~120 120~125 125~130 130~135 135~140
分类数据 —— 众数 顺序数据 —— 中位数和分位数 数值型数据 —— 平均数
众数
◆ 众数(MODE):一组数据中出现次数 最多的变量值,用Mo表示;
◆ 主要用于测度分类数据的集中趋势,也 可用于顺序数据和数值型数据;
◆ 众数是位置代表值,不受极端值影响; ◆ 可能没有众数、有一个众数或几个众数
众数的不唯一性
QD = QU - QL
4. 反映了中间50%数据的离散程度 5. 不受极端值的影响 6. 用于衡量中位数的代表性
顺序数据的四分位差
计算甲城市家庭对住房满意状况评价的四分位差
表3-2 甲城市家庭对住房状况评价的频数分 布
回答类别
甲城市 户数 (户) 累计频数
非常不满意
24
24
不满意
108
无众数
原始数据: 10 5 9 12 6 8
一个众数
原始数据: 6 5 9 8 5 5
多于一个众数
原始数据: 25 28 28 36 42 42
分类数据的众数
【例4.1 】某城市居民关注广告类型的众数
表3-4 某城市居民关注广告类型的频数分布
广告类型
人数(人) 比例 频率(%)
商品广告
47 0.47 47
N
GM N X1 X 2 X N N X i i1
2. 主要用于计算平均比率和平均发展速度
【例4.10】一位投资者持有一种股票,2001-2004 年的收益率分别为4.5%,2.1%,25.5%,1.9% 要求计算该投资者在这4年内的平均收益率。
_ 解:设平均收益率为G
GM n x1 x2 … xN 4 104.5%102.1%125.5%101.9%
4.2 离散程度的测度
离散程度:反映个体远离其中心值的程度。
离散程度越大,表示集中趋势的测度值对数 据的代表性越差;
离散程度越小,表示集中趋势的测度值对数 据的代表性越好。
分类数据 —— 异众比率 顺序数据 —— 四分位差 数值型数据 —— 方差和标准差
频数 2 5 6 14 26 18 13 10 3 3
数值型数据:平均数(均值)
1. 平均数是一组数据相加后除以数据个数 得到的结果。
2. 集中趋势的最主要测度值 3. 易受极端值的影响 4. 用于数值型数据,不能用于分类数据和
顺序数据。
简单平均数
对未分组数据计算的平均数
N
公式为:
X
X1 X2
Mo
组后一组的频数。
表3-6 某车间50名工人日加工零件数分组表
【 例 4.4】 根 据 第三章表3-6中 的数据,计算 50 名 工 人 日 加 工零件数的众 数
按零件数分组 频数(人)
105~110
3
110~115
5
115~120
8
120~125
14
125~130
10
130~135
6
135~140
【例4.8】计算第三章中50个工人日加工零 件数的均值
—x = (117+122+……121)/50
= 6149/50 = 122.98(个)
【例4.9】根据第三章表3-5中的数据,计算50 名工人日加 工零件数的均值
表4-1 某车间50名工人日加工零件均值计算表
按零件数分组 组中值(Mi) 频数(Fi)
Mo=不满意
合计
300
100.0
数值型数据的众数
(未分组)
【例4.3 】在某城市中随机抽取9个家庭,调查得到
每个家庭的人均月收入数据如下(单位:元)。 要求计算人均月收入的众数。
1080 750 1080 1080 850 960 2000 1250 1630
解:人均月收入出现次数最多的是1080,因此,
◆主要用于顺序数据,也可用于数值型数 据,但不能用于分类数据
四分位数的计算
1. 排序
2. 确定四分位数的位置
下四分位数为QL,上四分位数为QU,公式为:
n QL位置 = 4
QU位置 =
3n 4
★ 如果位置是整数,四分位数就是该位置 上的值;
★ 如果是在0.5位置上,则取该位置两侧值 的平均数;
★ 如果是在0.25或0.75位置上,则四分位数 等于该位置的下侧值加上按比例分摊位置 两侧数值的差值。
LU
3N 4
SU
fU
iU
LL和LU为QL和QU所在组的下限值; SL和SU为QL和QU所在组以前各组的累积频数 fL和fU为QL和QU所在组的频数, iL和iU为QL和QU所在组的组距
【例4.7】计算50 名工人日加工零件数的四分位数
表3-5 某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
1. 排序 2. 确定中位数的位置(按公式)
中位数位置 N 1 2
N为数据的个数
顺序数据的中位数
(算例)
表3-2 甲城市家庭对住房状况评价的频 数分布
甲城市 回答类别
户数 (户) 累计频数
非常不满意 24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300
—
解:顺序数据本身就 是排序的,根据中位 数位置的确定公式:
4
累积频数
3 8 16 30 40 46 50
合计
50
—
M0
120
14 8 (14 8) (14 10)
5
123(个)
顺序数据:中位数和分位数
中位数
★ 排序后处于中间位置上的变量值
50%
50%
Me
★ 不受极端值的影响
★主要用于顺序数据,也可用数值型数据, 但不能用于分类数据
计算中位数的步骤
服务广告
22
0.22
22
金融广告
9
0.09
9
房地产广告
9
0.09
9
招生招聘广告
8
0.08
8
其他广告
5
0.05
5
合计
100
1
100
解:这里的变量为 “广告类型”,不同 类型的广告就是变量 值。关注商品广告的 人数最多,为47人, 占总被调查人数的 47%,因此众数为 “商品广告”这一类 别,即
Mo=商品广告
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50
—
50 16
M e 120
2 14
5 123.21(个)
四分位数
◆ 排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
◆ 不受极端值的影响
累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50
—
灯泡的使用寿命(小时) 650 — 660 660 — 670 670 — 680 680 — 690 690 — 700 700 — 710 710 — 720 720 — 730 730 — 740 740 — 750
107.5 112.5 117.5 122.5 127.5 132.5 137.5
3
322.5
5
562.5
8
940.0
14
1715.0
10
1275.0
6
795.0
4
550.0
合计
—
50
6160.0
k
_ x
Mifi
i 1 k
fi
6160 123.20(个)
50
i 1
★ 简单平均数,其数值的大小只与变量值 的大小有关;
300 1 150.5 2
从累积频数看,中位 数在“一般”这一类中, 即Me = 一般
数值型未分组数据的中位数
奇数个数据的算例
原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5
位置 N 1 5 1 3 22
中位数 = 22
偶数个数据的算例
数据分布特征的测度
◆集中趋势的度量
—— 反映数据向其中心值靠拢或聚集的程度
◆离散程度的度量
—— 反映数据远离其中心值的趋势
◆分布的形状
—— 反映数据分布的偏态和峰态
4.1 集中趋势的度量
*一组数据向其中心值靠拢的倾向和程度 *测度集中趋势就是寻找数据一般水平的代
表值或中心值 *不同类型的数据用不同的集中趋势测度值
其他
8
16
合计
50
100
解:
Vr =
50
-
15
50
=1-
15 50
= 0.70 = 70%
在 调 查 的 50 人 当 中 , 购 买其他类型饮料的人数占 70%,异众比率比较大,用 “碳酸饮料”来代表消费者购 饮料类型的状况,其代表性 不是很好。
顺序数据:四分位差
1. 离散程度的测度值之一 2. 也称为内距或四分间距 3. 上四分位数与下四分位数之差
原始数据: 排 序: 位 置:
10 5 9 12 6 8 5 6 8 9 10 12 1234 5 6
位置 N+1 6+1 3.5 22
中位数 8 + 9 8.5 2
数值型分组数据的中位数
1. 计算累积频数
N
2. 确定中位数所在组 2
3. 采用下列近似公式计算:
Me
L
N 2
Sm1 fm
Mo = 1080元
数值型分组数据的众数
1. 众数的值与相邻两组频数的分布有关
2. 相邻两组的频数相等时,众数组的组中值
即为众数
Mo
3. 相邻两组的频数不相等时,众数采用 下列近似公式计算
M0
L
(f
f f 1 f 1 ) ( f
i f 1 )
Mo
L为众数组的下限值,i为众数组的组距,f为众数
组的频数,f-1为众数组前一组的频数,f+1为众数
XN
Xi
i 1
N
N
加权平均数
对分组数据计算的平均数
设原始数据被分成k组,各组的组中值为M1,M2,
…,Mk,各组频数为f1,f2, …,fk,则k 加权平均数为,
- X
M 1 f 1 M 2 f 2 … Mkfk f 1 f 2 … fk
Mifi
i 1 k
fi
i 1
简单平均数 算例
★ 加权平均数,其数值的大小不仅受各组 变量值大小的影响,而且受各组变量值出 现的频数即权数(fi)大小的影响。
如果某一组的权数较大,说明该组的数据较 多,那么该组数据的大小对均值的影响就越大, 反之则越小。
几何平均数
1. 几何平均数: N 个变量值乘积的 N 次方根, 用GM表示
GEOMEAN
其计算公式为
【例要求计算该组数据的四分位数。
1500 750 780 1080 850 960 2000 1250 1630 2500
数值型分组数据的四分位数
1. 计算累积频数
2. 确定四分位数所在组
3. 采用下列近似公式计算:
QL
LL
N 4
SL fL
iL
QU
i
L为中位数所在组的下限值,N为数据的个数
Sm-1为中位数所在组以前各组的累积频数, fm为中位数所在组的频数, i为中位数所在组的组距
【例4.5】根据第三章表3-5中的数据,计算50 名工 人日加工零件数的中位数
表3-5 某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
累积频数
105~110
解:
GM n x1 x2 … xN 3 109%116%120%
= 114.91%
则年平均增长率为114.91%-100% = 14.91%
众数、中位数和平均数的比较
众数、中位数和平均数的关系
1. 如果数据分布是对称的,则 Mo = Me =-x
2. 如果数据是左偏分布,则 -x < Me < Mo
顺序数据的众数
【例4.2 】求甲城市家庭对住房状况评价的众数
表3-5 甲城市家庭对住房状况评价
的频数分布
回答类别
甲城市 户数 (户) 百分比 (%)
非常不满意
24
8
不满意
108
36
一般
93
31
满意
45
15
非常满意
30
10
解:这里的数据为顺 序数据。变量为“回 答类别”。甲城市中 对住房表示不满意的 户 数 最 多 , 为 108 户 ,因此众数为“不满 意”这一类别,即
= 108.0787% _ 则G = GM –1 = 108.0787%-1 = 8.0787%
【例4.11】某水泥生产企业2001年的水泥产量 为100万吨,2002年的产量比2001增长了9%, 2003年比2002年增长了16%,2004年比2003增 长20%。求该企业2002年、2003年、2004年这 三年的平均增长率。
分类数据:异众比率
1. 离散程度的测度值之一 2. 非众数组的频数占总频数的比率 3. 计算公式为
Vr
Fi Fm 1 Fm
Fi
Fi
4. 用于衡量众数的代表性
异众比率
(算例)
表3-1 不同类型饮料的频数分布
广告类型
人数(人) 频率(%)
果汁
6
12
矿泉水
10
20
绿茶
11
22
碳酸饮料
15
30
MiFi
105~110
3
110~115
5
115~120
8
120~125
14
125~130
10
130~135
6
135~140
4
合计
—
50
表4-1 某车间50名工人日加工零件均值计算表
按零件数分组
组中值(Xi)
频数(Fi)
XiFi
105~110 110~115 115~120 120~125 125~130 130~135 135~140
分类数据 —— 众数 顺序数据 —— 中位数和分位数 数值型数据 —— 平均数
众数
◆ 众数(MODE):一组数据中出现次数 最多的变量值,用Mo表示;
◆ 主要用于测度分类数据的集中趋势,也 可用于顺序数据和数值型数据;
◆ 众数是位置代表值,不受极端值影响; ◆ 可能没有众数、有一个众数或几个众数
众数的不唯一性
QD = QU - QL
4. 反映了中间50%数据的离散程度 5. 不受极端值的影响 6. 用于衡量中位数的代表性
顺序数据的四分位差
计算甲城市家庭对住房满意状况评价的四分位差
表3-2 甲城市家庭对住房状况评价的频数分 布
回答类别
甲城市 户数 (户) 累计频数
非常不满意
24
24
不满意
108
无众数
原始数据: 10 5 9 12 6 8
一个众数
原始数据: 6 5 9 8 5 5
多于一个众数
原始数据: 25 28 28 36 42 42
分类数据的众数
【例4.1 】某城市居民关注广告类型的众数
表3-4 某城市居民关注广告类型的频数分布
广告类型
人数(人) 比例 频率(%)
商品广告
47 0.47 47
N
GM N X1 X 2 X N N X i i1
2. 主要用于计算平均比率和平均发展速度
【例4.10】一位投资者持有一种股票,2001-2004 年的收益率分别为4.5%,2.1%,25.5%,1.9% 要求计算该投资者在这4年内的平均收益率。
_ 解:设平均收益率为G
GM n x1 x2 … xN 4 104.5%102.1%125.5%101.9%