统计学第六版贾俊平第4章(无水印)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
累计频数
24 132 225 270 300
解:中位数的位置为 300/2=150 从累计频数看, 中位数在“一般”这 一组别中。因此
合计
300
—
Me=一般
数值型数据的中位数
(9个数据的算例)
【例】:9个家庭的人均月收入数据
原始数据: 排 序: 位 置: 1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰态 (形状)
数据分布特征的测度
数据特征的测度
集中趋势
众 数 中位数 均 值
离散程度
异众比率
分布的形状
偏 态
四分位差 方差和标准差 离散系数
峰 态
4.1 集中趋势的测度
一. 二. 三. 四. 分类数据:众数 顺序数据:中位数和分位数 数值型数据:均值 众数、中位数和均值的比较
10 6
5 5
9 12 9 8
6 5
8 5
多于一个众数 原始数据: 25 28 28 36 42 42
分类数据的众数
(例题分析)
不同品牌饮料的频数分布 饮料品牌 频数 比例 百分比 (%) 解:这里的变量为“饮料 品牌”,这是个分类变量 ,不同类型的饮料就是变 量值 在 所 调 查 的 50 人 中 , 购买可口可乐的人数最多 , 为 15 人 , 占 总 被 调 查 人数的30%,因此众数为 “可口可乐”这一品牌, 即 Mo=可口可乐
i i i i i
原来只是计算 时使用了不同 的数据!
M f f
i i
i
调和平均数
(例题分析)
【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三 种蔬菜该日的平均批发价格
某日三种蔬菜的批发成交数据 蔬菜 名称 甲 乙 丙 合计 批发价格(元) Mi 1.20 0.50 0.80 — 成交额(元) Mi fi 18000 12500 6400 36900 成交量(公斤) fi 15000 25000 8000 48000
i
频数(fi) 4 9 16 27 20 17 10 8 4 5
Mi fi 580 1395 2640 4725 3700 3315 2050 1720 900 1175
155 165 175 185 195 205 215 225 235
x
M
i 1
k
i
fi
合计
—
120
22200
n 22200 185 120
3. 主要用于顺序数据,也可用数值型数据,但不能 用于分类数据
中位数
(位置的确定)
n 1 中位数位置 2 n 中位数位置 2
原始数据:
顺序数据:
顺序数据的中位数
(例题分析)
甲城市家庭对住房状况评价的频数分布 回答类别
非常不满意 不满意 一般 满意 非常满意 甲城市
户数 (户)
24 108 93 45 30
众数 中位数 均值
左偏分布
对称分布
右偏分布
众数、中位数和均值的特点和应用
1. 众数
不受极端值影响 具有不唯一性 数据分布偏斜程度较大时应用
不受极端值影响 数据分布偏斜程度较大时应用 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用
2. 中位数
3. 平均数
数据类型与集中趋势测度值
960 1080 中位数 1020 2
四分位数
(quartile)
1. 排序后处于25%和75%位置上的值
25%
QL
25%
25%
QM
25%
QU
2. 不受极端值的影响 3. 主要用于顺序数据,也可用于数值型数据, 但不能用于分类数据
四分位数
(位置的确定)
n 1 Q L 位置 4 Q 位置 3( n 1) U 4 n QL 位置 4 Q 位置 3n U 4
4. 低层次数据的测度值适用于高层次的测量数据,但高 层次数据的测度值并不适用于低层次的测量数据
分类数据:众数
众数
(mode)
1. 出现次数最多的变量值
2. 不受极端值的影响 3. 一组数据可能没有众数或有几个众数 4. 主要用于分类数据,也可用于顺序数据和 数值型数据
众数
(不唯一性)
无众数 原始数据: 一个众数 原始数据:
QU = 一般
数值型数据的四分位数
(9个数据的算例)
【例】:9个家庭的人均月收入数据
原始数据: 排 序: 位 置: 1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000
1
2
3
4
5
6
7
8
可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计
15 11 9 6 9 50
0.30 0.22 0.18 0.12 0.18 1
30 22 18 12 18 100
顺序数据的众数
(例题分析)
甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意 不满意 一般 满意 非常满意 甲城市 户数 (户) 24 108 93 45 30 百分比 (%) 8 36 31 15 10
1
2
3
4
5
6
7
8
9
n 1 9 1 位置 5 2 2 中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 位 序: 置: 660 750 780 850 960 1080 1250 1500 1630 2000
1 2
3
4
5
6
7
8
9
10
n 1 10 1 位置 5.5 2 2
解:这里的数据为 顺序数据。变量为 “回答类别”
甲城市中对住 房表示不满意的户 数 最 多 , 为 108 户 ,因此众数为“不 满意”这一类别, 即
Mo=不满意
合计
300
100.0
顺序数据:中位数和分位数
中位数
(median)
1. 排序后处于中间位置上的值
50%
2. 不受极端值的影响
Me
50%
5. 可看作是均值的一种变形
x
i 1
n
i
1 lg Gm (lg x1 lg x 2 lg x n ) n
lg x
i 1
n
i
n
几何平均数
(例题分析)
【例】某水泥生产企业 1999 年的水泥产量为 100 万 吨 , 2000 年 与 1999 年 相 比 增 长 率 为 9% , 2001 年与 2000 年相比增长率为 16%, 2002 年与 2001 年相比增长率为 20% 。求各年的年平均增 长率。
1 2
3
4
5
6
7
8
9
10
10 1 3(10 1) Q L 位置 2.75 QU 位置 8.25 4 4
Q L 750 0.75 (780 750) 772.5 QU 1500 0.25 (1630 1500) 1532.5
数值型数据:均值
均值
(mean)
1. 2. 3. 4. 5. 集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺 序数据
简单均值与加权均值
(simple mean / weighted mean)
设一组数据为: x1 ,x2 ,… ,xn 各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk
G 4 104.5% 102.1% 125.5% 101.9% 1 8.0787% 算术平均:
G 4.5% 2.1% 25.5% 1.9% 4 8.5%
众数、中位数和均值的比较
众数、中位数和均值的关系
均值 中位数 众数
均值 = 中位数 = 众数
加权均值
(权数对均值的影响)
甲乙两组各有10名学生,他们的考试成绩及其分布数据如下
甲组: 考试成绩(x ): 0 人数分布(f ):1
乙组: 考试成绩(x): 0 人数分布(f ):8
20 1
20 1
100 8
100 1
x甲
x
i 1
n
i
x乙
x
i 1Βιβλιοθήκη Baidu
n
n
i
0 1 20 1 100 8 82(分) 10
n
0 8 20 1 100 1 12(分) 10
均值
(数学性质)
1. 各变量值与均值的离差之和等于零
(x x) 0
i 1 i
n
调和平均数
(harmonic mean)
1. 均值的另一种表现形式 2. 易受极端值的影响 3. 计算公式为
Hm M f M f M
数据分布特征的和测度
(本节位置)
数据的特征和测度
集中趋势
众 数 中位数 均 值
离散程度
异众比率
分布的形状
偏 态
四分位差 方差和标准差 离散系数
峰 态
集中趋势
(Central tendency)
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值
数据类型和所适用的集中趋势测度值
数据类型 适 用 的 测 度 值 分类数据 ※众数 — — — — — 顺序数据 ※中位数 四分位数 众数 — — — 间隔数据 ※均值 众数 中位数 四分位数 — — 比率数据 ※均值 调和平均数 几何平均数 中位数 四分位数 众数
4.2 离散程度的测度
一.分类数据:异众比率 二.顺序数据:四分位差 三.数值型数据:方差及标准差 四.相对位置的测量:标准分数 五.相对离散程度:离散系数
数据的特征和测度
(本节位置)
数据的特征和测度
集中趋势
众 数 中位数 均 值
离散程度
异众比率
分布的形状
原始数据:
顺序数据:
顺序数据的四分位数
(例题分析)
甲城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意 合计
甲城市 户数 (户) 24 108 93 45 30 300 累计频数 24 132 225 270 300 —
解:QL位置= (300)/4 =75 QU位置 =(3×300)/4 =225 从累计频数看, QL 在“ 不满意”这一组别中; QU 在“一般”这一组别中。因 此 QL = 不满意
Hm
成交额 36900 0.769 (元) 成交额 48000 批发价格
几何平均数
(geometric mean)
1. n 个变量值乘积的 n 次方根 2. 适用于对比率数据的平均 3. 主要用于计算平均增长率 4. 计算公式为
Gm n x1 x 2 x n n
简单均值 加权均值
x1 x 2 x n x n
x
i 1
n
i
n
M 1 f1 M 2 f 2 M k f k x f1 f 2 f k
M
i 1
k
i
fi
n
加权均值
(例题分析)
某电脑公司销售量数据分组表
按销售量分组 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 组中值(M ) 已改至此!! 140~150 145
第 4 章 数据分布特征的测度
第 4 章 数据分布特征的测度
4.1 集中趋势的测度 4.2 离散程度的测度 4.3 偏态与峰度的测度
学习目标
1. 2. 3. 4. 5. 6. 集中趋势各测度值的计算方法 集中趋势各测度值的特点及应用场合 离散程度各测度值的计算方法 离散程度各测度值的特点及应用场合 偏态与峰态的测度方法 用Excel计算描述统计量并进行分析
9
9 1 3(9 1) Q L 位置 2.5 QU 位置 7 .5 4 4 780 850 1500 1630 QL 815 QU 1565 2 2
数值型数据的四分位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 位 序: 置: 660 750 780 850 960 1080 1250 1500 1630 2000
Gm n x1 x2 xn 3 109% 116% 120% 114.91%
年平均增长率=114.91%-1=14.91%
几何平均数
(例题分析)
【例】一位投资者购持有一种股票 ,在 2000 、 2001、2002和2003年收益率分别为4.5%、2.1% 、25.5%、1.9%。计算该投资者在这四年内的平 均收益率 几何平均: