第四章 统计数据的描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
M 1 f1 M 2 f 2 M k f k f1 f 2 f k
M
i 1
k
i
fi
N
样本加权均值 x M 1 f1 M 2 f 2 M k f k
f1 f 2 f k
M
i 1
k
i
fi
n
调和平均数
STAT
• 各个变量值(标志值)倒数的算术平均 数的倒数。 • 有简单调和平均数和加权调和平均数两 种。
3.1 集中趋势测度
STAT
数据类型和所适用的集中趋势测度值
数据类 型 适 用 的 测 度 值 分类数据 众数 — 顺序数据 众数 四分位数 间隔数据 众数 四分位数 比率数据 众数 四分位数
—
— — —
中位数
— — —
中位数
中位数
算术平均数 算术平均数 — — 调和平均数 几何平均数
请问某城市居民关注广告类型的代表 值是什么?
位置
n 1 2
10 1 2
5.5
中位数
960 1080 2
1020
中位数(位置的确定)
STAT
未分组数值型数据: 中位数位置
n1 2 n 2
顺序数据: 中位数位置
未分组数据的中位数
(计算公式)
STAT
x n 1 2 Me 1 xn xn 1 2 2 2
400以下 400~500 500~600 600~700 700~800 800以上
合计
22 50 66 76 56 30
300
350 450 550 650 750 850
-
7 700 22 500 36 300 49 400 42 000 25 500
183 400
M 0 600 1 00 33.33 (公斤) (7 6- 6 6)+( 7 6- 5 6)
76- 66
单选题
STAT
• 有下列资料: 产量(件) 10 11 12 13 人数(人) 5 10 20 8 • 众数是( )。 • ①12件 ②20人 ③14人 件
14 5
15 2
④12.5
单选题
• 某大学经济管理学院有1200名学生,法 STAT 学院有800名学生,医学院有320名学生 ,理学院有200名学生。在上面的描述中 ,众数是( ) • A、1200 • B、经济管理学院 • C、200 • D、理学院
分类数据的众数(例题分析)
STAT
某城市居民关注广告类型的频数分布
广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计
人数 (人)
112 51 9 16 10 2 200
比例 0.560 0.255 0.045 0.080 0.050 0.010 1
频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
计算题
STAT
• 从甲地到乙地,去时速度为60KM/H,回 时速度为40KM/H,则平均速度为多少? • 2/(1/60+1/40)=48KM/H • 注:比率数据均值适合使用调和平均数
加权调和平均数与加权算术平均数
STAT
• 由于只掌握每组某个标志值总和(M)而 缺少总体单位数(f)的资料,不能直接 采用加权算术平均数法计算平均数,则 应采用加权调和平均数。 • 加权调和平均数同加权算术平均数的实 际意义是相同的,只是由于所掌握的资 料不同
解:这里的数据为 顺序数据。变量为 “回答类别”
甲城市中对住 房表示不满意的户 数 最 多 , 为 108 户 ,因此众数为“不 满意”这一类别, 即
Mo=不满意
合计
300
100.0
例4.7 计算300名工人的月糖果产量的众数
STAT
员工人数 产量(公斤) (人) f
组中值 x
总产量(千 克) xf
解:这里的变量为“广告 类型”,这是个分类变量 ,不同类型的广告就是变 量值 在所调查的200人当中 ,关注商品广告的人数最 多,为112人,占总被调 查人数的56%,因此众数 为“商品广告”这一类别 ,即 Mo=商品广告
顺序数据的众数
(例题分析)
STAT
甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意 不满意 一般 满意 非常满意 甲城市 户数 (户) 24 108 93 45 30 百分比 (%) 8 36 31 15 10
185
合计
—
120
22200
简单算术平均数
STAT
设一组数据为:x1 ,x2 ,… ,xn(xN)
x1 x 2 x N N
总体均值
x
i 1
N
i
N
样本均值
x
x1 x 2 x n n
x
i 1
n
i
n
加权算术平均数
STAT
设各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk 总体加权均值
f
频 数
f
f-1 f-1
f+1
f+1
M0 L
f - f 1 ( f - f 1 ) ( f - f 1 )
d
M0 U
f - f 1 ( f - f 1 ) ( f - f 1 )
d
例4.7 计算300名工人的月糖果产量的众数
员工人数 产量(公斤) (人) f 组中值 x 总产量(千 STAT 克) xf
(10个数据的算例)
• • • • 【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 排 序: 660 750 780 850 960 位 置: 1 2 3 4 5 850 1080 6
STAT
960 2000 1250 1630 1250 1500 1630 2000 7 8 9 10
QL 位置 10 1 2.75 QU 位置
3(10 1) 8.25
4 4 QL 750 0.75 (780 750) 772.5
QU 1500 0.25 (1630 1500) 1532.5
STAT
均值
均值(mean)
STAT
1.集中趋势的测度值之一 2.最常用的测度值 3. 一组数据的均衡点所在 4. 体现了数据的必然性特征 5. 易受极端值的影响 6. 用于数值型数据,不能用于分类数据和顺 序数据
计算题
STAT
• 某市场有三种不同的苹果,其每斤价格 分别为2元,3元和4元,试计算:(1)各 买一斤,平均每斤多少钱?(2)各买一元 ,平均每斤多少钱?
某电脑公司销售量数据分组表
按销售量分组
140-150 150-160 160-170 170-180 180-190 190-200 200-210 210-220 220-230 230-240
STAT
众数(mode)
1. 集中趋势的测度值之一 2. 出现次数最多的变量值 3. 不受极端值的影响 4. 可能没有众数或有几个众数
STAT
5. 主要用于分类数据,也可用于顺序数据和 数值型数据
众数
STAT
原始数据:
原始数据:
10
6 25
5
5
9
9 28
12
8 36 5
6
5
8
原始数据:
28
42
42
3(9 1) 7.5
780 850 2
1500 1630
1565
数值型未分组数据的四分位数 (10个数据的算例)
STAT
【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 850 960 2000 1250 1630 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10
某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计 人数 (人) 112 51 9 16 10 2 200 比例 0.560 0.255 0.045 0.080 0.050 0.010 1 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9
位置 n1 2 91 2 5
中位数 1080
数值型未分组数据的中位数
当n为奇数时
当n为偶数时
单选题
STAT
• 有下列资料:75、78、80、82、87、90 ;其中位数是( )。 • • ①80 ②81 ③82 ④85
四分位数(quartile)
STAT
• 1. 集中趋势的测度值之一
• 2. 排序后处于25%和75%位置上的值
25%
QL
25%
源自文库25%
QM
25%
QU
400以下 400~500 500~600 600~700 700~800 800以上
合计
22 50 66 76 56 30
300
350 450 550 650 750 850
-
7 700 22 500 36 300 49 400 42 000 25 500
183 400
组距分组数据众数
STAT
频 数
第四章 统计数据的描述
STAT
3.1 3.2 3.3
集中趋势的度量 离散程度的度量 偏态与峰态的度量
数据分布的特征
STAT 集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰态 (形状)
数据分布特征的测度
STAT
数据特征的测度
集中趋势
众 数 中位数 均 值
离散程度
异众比率
分布的形状
偏 态
四分位差 方差和标准差 离散系数
峰 态
3.1 集中趋势的测度
STAT
集中趋势(central tendency)
1. 测度集中趋势就是寻找数据水平的代表值或中心值
2. 不同类型的数据用不同的集中趋势测度值
3. 低层次数据的测度值适用于高层次的测量数据,但高层次 数据的测度值并不适用于低层次的测量数据 4. 测度值的选用取决于所掌握的数据的类型
STAT
• • • • 【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 排 序: 750 780 850 960 位 置: 1 2 3 4 850 1080 5 960 2000 1250 1630 1250 1500 1630 2000 6 7 8 9
QL 位置 QL 9 1 4 2.5 QU 位置 815 QU 4 2
户数 (户)
24 108 93 45 30 300
累计频数
24 132 225 270 300 —
QU = 一般
四分位数(位置的确定)
STAT
未分组数据:
n 1 Q L 位置 4 Q 位置 3( n 1) U 4
数值型未分组数据的四分位数 (9个数据的算例)
STAT
中位数和分位数
中位数(median)
STAT
1. 集中趋势的测度值之一 2. 排序后处于中间位置上的值
50%
Me 3. 不受极端值的影响
50%
4. 主要用于顺序数据,也可用数值型数据,但不能用于分 类数据
顺序数据的中位数
甲城市家庭对住房状况评价的频数 分布 回答类别 非常不满 意 不满意 一般 满意 非常满意
STAT
M i fi
580 1395 2640 4725 3700 3315 2050 1720 900 1175
组中值(Mi)
145 155 165 175 185 195 205 215 225 235
频数(fi)
4 9 16 27 20 17 10 8 4 5
x
M
i 1
k
i
fi
n 22200 120
3. 不受极端值的影响
4. 主要用于顺序数据,也可用于数值型数据,但 不能用于分类数据
顺序数据的四分位数
(例题分析)
STAT
甲城市家庭对住房状况评价的频数分布
回答类别 非常不满 意 不满意 一般 满意 非常满意 合计
甲城市
解:QL位置= (300)/4 =75 QU位置 =(3×300)/4 =225 从累计频数看, QL 在“ 不满意”这一组别中; QU 在“一般”这一组别中。因 此 QL = 不满意
合计 甲城市 户数 (户) 24 108 93 45 30 300 累计频数 24 132 225 270 300 — STAT
解:中位数的位置为 300/2=150 从累计频数看, 中位数在“一般”这 一组别中。因此
Me=一般
数值型未分组数据的中位数
(9个数据的算例)
STAT
• 【例】:9个家庭的人均月收入数据
M
i 1
k
i
fi
N
样本加权均值 x M 1 f1 M 2 f 2 M k f k
f1 f 2 f k
M
i 1
k
i
fi
n
调和平均数
STAT
• 各个变量值(标志值)倒数的算术平均 数的倒数。 • 有简单调和平均数和加权调和平均数两 种。
3.1 集中趋势测度
STAT
数据类型和所适用的集中趋势测度值
数据类 型 适 用 的 测 度 值 分类数据 众数 — 顺序数据 众数 四分位数 间隔数据 众数 四分位数 比率数据 众数 四分位数
—
— — —
中位数
— — —
中位数
中位数
算术平均数 算术平均数 — — 调和平均数 几何平均数
请问某城市居民关注广告类型的代表 值是什么?
位置
n 1 2
10 1 2
5.5
中位数
960 1080 2
1020
中位数(位置的确定)
STAT
未分组数值型数据: 中位数位置
n1 2 n 2
顺序数据: 中位数位置
未分组数据的中位数
(计算公式)
STAT
x n 1 2 Me 1 xn xn 1 2 2 2
400以下 400~500 500~600 600~700 700~800 800以上
合计
22 50 66 76 56 30
300
350 450 550 650 750 850
-
7 700 22 500 36 300 49 400 42 000 25 500
183 400
M 0 600 1 00 33.33 (公斤) (7 6- 6 6)+( 7 6- 5 6)
76- 66
单选题
STAT
• 有下列资料: 产量(件) 10 11 12 13 人数(人) 5 10 20 8 • 众数是( )。 • ①12件 ②20人 ③14人 件
14 5
15 2
④12.5
单选题
• 某大学经济管理学院有1200名学生,法 STAT 学院有800名学生,医学院有320名学生 ,理学院有200名学生。在上面的描述中 ,众数是( ) • A、1200 • B、经济管理学院 • C、200 • D、理学院
分类数据的众数(例题分析)
STAT
某城市居民关注广告类型的频数分布
广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计
人数 (人)
112 51 9 16 10 2 200
比例 0.560 0.255 0.045 0.080 0.050 0.010 1
频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
计算题
STAT
• 从甲地到乙地,去时速度为60KM/H,回 时速度为40KM/H,则平均速度为多少? • 2/(1/60+1/40)=48KM/H • 注:比率数据均值适合使用调和平均数
加权调和平均数与加权算术平均数
STAT
• 由于只掌握每组某个标志值总和(M)而 缺少总体单位数(f)的资料,不能直接 采用加权算术平均数法计算平均数,则 应采用加权调和平均数。 • 加权调和平均数同加权算术平均数的实 际意义是相同的,只是由于所掌握的资 料不同
解:这里的数据为 顺序数据。变量为 “回答类别”
甲城市中对住 房表示不满意的户 数 最 多 , 为 108 户 ,因此众数为“不 满意”这一类别, 即
Mo=不满意
合计
300
100.0
例4.7 计算300名工人的月糖果产量的众数
STAT
员工人数 产量(公斤) (人) f
组中值 x
总产量(千 克) xf
解:这里的变量为“广告 类型”,这是个分类变量 ,不同类型的广告就是变 量值 在所调查的200人当中 ,关注商品广告的人数最 多,为112人,占总被调 查人数的56%,因此众数 为“商品广告”这一类别 ,即 Mo=商品广告
顺序数据的众数
(例题分析)
STAT
甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意 不满意 一般 满意 非常满意 甲城市 户数 (户) 24 108 93 45 30 百分比 (%) 8 36 31 15 10
185
合计
—
120
22200
简单算术平均数
STAT
设一组数据为:x1 ,x2 ,… ,xn(xN)
x1 x 2 x N N
总体均值
x
i 1
N
i
N
样本均值
x
x1 x 2 x n n
x
i 1
n
i
n
加权算术平均数
STAT
设各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk 总体加权均值
f
频 数
f
f-1 f-1
f+1
f+1
M0 L
f - f 1 ( f - f 1 ) ( f - f 1 )
d
M0 U
f - f 1 ( f - f 1 ) ( f - f 1 )
d
例4.7 计算300名工人的月糖果产量的众数
员工人数 产量(公斤) (人) f 组中值 x 总产量(千 STAT 克) xf
(10个数据的算例)
• • • • 【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 排 序: 660 750 780 850 960 位 置: 1 2 3 4 5 850 1080 6
STAT
960 2000 1250 1630 1250 1500 1630 2000 7 8 9 10
QL 位置 10 1 2.75 QU 位置
3(10 1) 8.25
4 4 QL 750 0.75 (780 750) 772.5
QU 1500 0.25 (1630 1500) 1532.5
STAT
均值
均值(mean)
STAT
1.集中趋势的测度值之一 2.最常用的测度值 3. 一组数据的均衡点所在 4. 体现了数据的必然性特征 5. 易受极端值的影响 6. 用于数值型数据,不能用于分类数据和顺 序数据
计算题
STAT
• 某市场有三种不同的苹果,其每斤价格 分别为2元,3元和4元,试计算:(1)各 买一斤,平均每斤多少钱?(2)各买一元 ,平均每斤多少钱?
某电脑公司销售量数据分组表
按销售量分组
140-150 150-160 160-170 170-180 180-190 190-200 200-210 210-220 220-230 230-240
STAT
众数(mode)
1. 集中趋势的测度值之一 2. 出现次数最多的变量值 3. 不受极端值的影响 4. 可能没有众数或有几个众数
STAT
5. 主要用于分类数据,也可用于顺序数据和 数值型数据
众数
STAT
原始数据:
原始数据:
10
6 25
5
5
9
9 28
12
8 36 5
6
5
8
原始数据:
28
42
42
3(9 1) 7.5
780 850 2
1500 1630
1565
数值型未分组数据的四分位数 (10个数据的算例)
STAT
【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 850 960 2000 1250 1630 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10
某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计 人数 (人) 112 51 9 16 10 2 200 比例 0.560 0.255 0.045 0.080 0.050 0.010 1 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9
位置 n1 2 91 2 5
中位数 1080
数值型未分组数据的中位数
当n为奇数时
当n为偶数时
单选题
STAT
• 有下列资料:75、78、80、82、87、90 ;其中位数是( )。 • • ①80 ②81 ③82 ④85
四分位数(quartile)
STAT
• 1. 集中趋势的测度值之一
• 2. 排序后处于25%和75%位置上的值
25%
QL
25%
源自文库25%
QM
25%
QU
400以下 400~500 500~600 600~700 700~800 800以上
合计
22 50 66 76 56 30
300
350 450 550 650 750 850
-
7 700 22 500 36 300 49 400 42 000 25 500
183 400
组距分组数据众数
STAT
频 数
第四章 统计数据的描述
STAT
3.1 3.2 3.3
集中趋势的度量 离散程度的度量 偏态与峰态的度量
数据分布的特征
STAT 集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰态 (形状)
数据分布特征的测度
STAT
数据特征的测度
集中趋势
众 数 中位数 均 值
离散程度
异众比率
分布的形状
偏 态
四分位差 方差和标准差 离散系数
峰 态
3.1 集中趋势的测度
STAT
集中趋势(central tendency)
1. 测度集中趋势就是寻找数据水平的代表值或中心值
2. 不同类型的数据用不同的集中趋势测度值
3. 低层次数据的测度值适用于高层次的测量数据,但高层次 数据的测度值并不适用于低层次的测量数据 4. 测度值的选用取决于所掌握的数据的类型
STAT
• • • • 【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 排 序: 750 780 850 960 位 置: 1 2 3 4 850 1080 5 960 2000 1250 1630 1250 1500 1630 2000 6 7 8 9
QL 位置 QL 9 1 4 2.5 QU 位置 815 QU 4 2
户数 (户)
24 108 93 45 30 300
累计频数
24 132 225 270 300 —
QU = 一般
四分位数(位置的确定)
STAT
未分组数据:
n 1 Q L 位置 4 Q 位置 3( n 1) U 4
数值型未分组数据的四分位数 (9个数据的算例)
STAT
中位数和分位数
中位数(median)
STAT
1. 集中趋势的测度值之一 2. 排序后处于中间位置上的值
50%
Me 3. 不受极端值的影响
50%
4. 主要用于顺序数据,也可用数值型数据,但不能用于分 类数据
顺序数据的中位数
甲城市家庭对住房状况评价的频数 分布 回答类别 非常不满 意 不满意 一般 满意 非常满意
STAT
M i fi
580 1395 2640 4725 3700 3315 2050 1720 900 1175
组中值(Mi)
145 155 165 175 185 195 205 215 225 235
频数(fi)
4 9 16 27 20 17 10 8 4 5
x
M
i 1
k
i
fi
n 22200 120
3. 不受极端值的影响
4. 主要用于顺序数据,也可用于数值型数据,但 不能用于分类数据
顺序数据的四分位数
(例题分析)
STAT
甲城市家庭对住房状况评价的频数分布
回答类别 非常不满 意 不满意 一般 满意 非常满意 合计
甲城市
解:QL位置= (300)/4 =75 QU位置 =(3×300)/4 =225 从累计频数看, QL 在“ 不满意”这一组别中; QU 在“一般”这一组别中。因 此 QL = 不满意
合计 甲城市 户数 (户) 24 108 93 45 30 300 累计频数 24 132 225 270 300 — STAT
解:中位数的位置为 300/2=150 从累计频数看, 中位数在“一般”这 一组别中。因此
Me=一般
数值型未分组数据的中位数
(9个数据的算例)
STAT
• 【例】:9个家庭的人均月收入数据