第五章数据分布特征的描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第5章 数据分布特征 的描述
集中趋势 离散程度 分布形态
统计数据的集中趋势是指一组数据向某 一中心值靠拢的倾向。 对集中趋势的描述归纳起来有两大类: 一类是数值平均数,它是根据全部数值 计算得到的代表值;另一类是位置平均 数,是根据数据所处位置直接观察或根 据与所处位置有关的部分数据计算确定 的代表值。
. . . . . . %
平均年利率=106.82%-1=6.82
加权几何平均数
f fn f1 f 2 x x1 x2 xn
二、位置平均数 1.众数(Mode)
众数是指总体中出现次数最多或频率最大 的变量值。众数是一种位置平均数,且也不受 极端值的影响。
实际完成产值 x 计划产值
xf 1 xf x
26175 105.12% 24900
只知道实际产值, 缺少计划产值的情况
平均计划完成为105.12%
3.几何平均数
当标志总量等于各个标志值的乘积,而不 是之和时,计算平均数就采用几何平均数。
集中趋势的测度值之一 N 个变量值乘积的 N 次方根 主要用于计算平均速度、平均比率
105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计
14 8 M0 5 123 ( 个 ) 120 (14 8 ) (14 10 )
按成绩分 组(分) 60以下 60—70 70—80 80—90 90—100 合计
xf x 1 x xf
700 1100 4560 1950 1400 700 1100 4560 1950 1400 10 11 12 13 14
9710 1 2 .1 3 7 5(件) 800
某蔬菜批发市场三种蔬菜的日成交数据如 下表,计算三种蔬菜该日的平均批发价格
Mo
• 该公式假定众数组的频数在众数组内均匀分布
某车间50名工人日加工零件数分组表 按零件数分组
【 根 二 的 , 50 人 工 数 数 例 据 节 数 计 名 日 零 的 】 第 中 据 算 工 加 件 众
频数(人) 3 5 8 14 10 6 4 50
累积频数 3 8 16 30 40 46 50 —
x1 f1 x 2 f 2 x n f n xf x f1 f 2 f n f
fn f1 f x x1 xn x f f f
•
xw
比重权数更能够直接体现权数的实质:
组距数列如何计算平均数?
按成绩分组(分) 60以下 60—70 70—80 80—90 90—100 合计 学生人数(人) 2 15 19 15 3 54
70 100 380 150 100
加权平均数
x1 f 1 x 2 f 2 x n f n xf x f1 f 2 f n f 9710 1 2 .1 3 7 5 (件) 800
权数(权重)
——权衡轻重(影响)作用的数(变量)。 权数的两种形式——绝对数(次数)f; ——相对数(比重)
一、数值平均数
1.算术平均数
基本公式
总体标志总量 算术平均数 x 总体单位总量
例: 平均工资=工资总额/职工人数 平均成本=总成本/产量
(1)简单算术平均数——未分组时
5名学生的考试成绩分别为(分): 70、80、80、85、85, 他们的平均成绩是多少? (70+80+80+85+85)/5=80(分)
• • 主要用于定序数据,也可用数值型数据,但不能用于定 类数据 各变量值与中位数的离差绝对值之和最小,即
n
i 1
x i m e Min
例 某企业生产某种产品要经过三道工 序,各工序的合格品率分别为95%、96% 和98%。该产品三道工序的平均合格品率 为多少?
x n x1 x2 xn
三道工序的平均合格品率为96.32%. 思考平均废品率为多少?
【 例 】 一 位 投 资 者 持 有 一 种 股 票 , 1996 年、 1997 年、 1998 年和 1999 年收益率分别 为4.5%、2.0%、3.5%、5.4%。计算该投资 者在这四年内的平均收益率。
平均计划完成程度的计算只能是所有企 业的实际完成数与其计划任务数之比,不能 把各个企业的计划完成百分数简单平均。
实际完成产值 x 计划产值
xf 0.858000.9525001.05172001.154400 f 8002500172004400
26175 105.12% 24900
x) 0
( x x) f
0
2.变量值与算术平均数的离差平方和最小
2 2 ( x x ) ( x c )
2 2 ( x x ) f ( x c ) f
说明以算术平均数以外的任何数为中心, 其离差都大于以平均数为中心的离差。
相对数的算术平均数 符合相对数本身公式
某日三种蔬菜的批发成交数据 蔬菜名称 甲 乙 丙 合计 批发价格(元) 1.20 0.50 0.80 — 成交额(元) 18000 12500 6400 36900 成交量(公斤) 15000 25000 8000 48000
成交额 x 成交量
xf 1 xf x 18000 12500 6400 18000 12500 6400 1 .2 0 .5 0 .8
x1 x 2 x n x x n n
(2)加权算术平均数
——当数据已分组,形成了变量数列:
工人日产量 (件) x 10 11 12 13 14 合 计 工人人数 (人)f 70 150 380 150 100 850
10 11 12 13 14 60 工人平均量 12 (件) 5 5
某公司下属18个企业,计划完成相对数如 下:
产值计划 完成程度 (%) 80-90 90-100 100-110 110-120 合计 组中值 (%) x 85 95 105 115 —— 企业数 (个) 2 3 10 3 18 实际 产值
xf
计划 1 产值 xf x
680 2375 18060 5060 26175
某公司下属18个企业,计划完成相对数如下
产值计划完 成程度 (%) 80—90 90—100 100—110 110—120 合计 组中值 (%) 85 95 105 115 —— 企业数 (个) 2 3 10 3 18 计划产值 (万元) 800 2500 17200 4400 24900 实际产值 (万元)xf 680 2375 18060 5060 26175
学生人数 (人) 2 15 19 15 3 54
f f 1 M0 d L ( f f 1 ) ( f f 1 ) 19 15 70 10 (19 15) (19 15) 75分
f f 1 M0 d U ( f f 1 ) ( f f 1 ) 19 15 80 10 (19 15) (19 15) 75分
只有在总体单位充分多,且又有明显的集中趋 势时才可能确定众数。在较小的总体范围内, 确定众数没有意义。 可能没有众数或有几个众数 主要用于定类数据,也可用于定序数据和数值 型数据
无众数 原始数据: 8
一个众数 原始数据: 6
10
5
9 12
6
5
9
8
5
5
多于一个众数 原始数据: 25 28 28 36 42 42
定序数据的众数
【例】根据第二节中的数据计算众数
解:这里的数据为 定序数据。变量为“ 回答类别”。甲城市 中对住房表示不满 意的户数最多,为 108户,因此众数为 “ 不满意 ” 这一类别 ,即 Mo=不满意
甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意 不满意 一般 满意 非常满意 合计 甲城市 户数 (户) 24 108 93 45 30 300 百分比 (%) 8 36 31 15 10 100.0
定类数据的众数
【例】根据第二节数据,算众数
解:这里的变量为 “ 广 告类型 ” ,这是个定类 变量,不同类型的广告 就是变量值。我们看到 ,在所调查的 200 人当 中,关注商品广告的人 数最多,为 112 人,占 总被调查人数的56%, 因此众数为“商品广告” 这一类别,即 Mo=商品广告
某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广 告 其他广告 合计 人数(人) 112 51 9 16 10 2 200 比例 0.560 0.255 0.045 0.080 0.050 0.010 1 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
2、中位数(Median)
中位数是根据变量值的位置来确定的平均 数。将变量值按大小顺序排序,处于中间位置的 变量值(或数据)即中位数 M ,用 表示。由于中 e 位数是位置代表值,所以不会受极端值的影响, 具有较高的稳健性。
50%
Me
50%
2.中位数(Me)
中位数是根据变量值的位置来确定的平均 数。将变量值按大小顺序排序,处于中间位置的 变量值(或数据)即中位数,用Me表示。由于 中位数是位置代表值,所以不会受极端值的影 响,具有较高的稳健性。
2.调和平均数(倒数平均数)
计算算术平均数,有时只掌握了各组变量值之和 的资料,为了符合基本公式,应该首先经过除法 运算求得分母数据,再计算平均数。这样计算平 均数的方法称为“调和平均法”,得到的平均数称 为“调和平均数”。 工人日产量 工人日总产量
(件) x 10 11 12 13 14 合计 (件) xf 700 1100 4560 1950 1400 9710
组距式数列的众数
用于组距式数列 众数的值与相邻两组频数的分布有关
• 相邻两组的频数相等时,众数组的组中值 即为众数。
Mo
• 相邻两组的频数不相等时,众数采用 下列近似公式计算:
f f 1 M0 d L ( f f 1 ) ( f f 1 )
Mo o
f f 1 M0 d U ( f f 1 ) ( f f 1 )
55 2 65 15 75 19 85 15 95 3 平均成绩= 54 4070 75.37 (分) 54
原来只是用 组中值作为 各组的代表 值
从组距数列看,特别是开口数列计算算术平 均 指标 ,以组中值为各组变量值带有假定 性,结果只是实际平均值的近似值。
不符合基本公式,不是5个工人,而是800个工人; 工人人总产量不是60件,而是9710件 所以,应该这样计算:
10 10 1011 11 1112 12 1213 13 1314 14 14
原来只是计算 时使用了不同 的数据!
36900 0.769 (元) 48000
算术平均数的特点和数学性质
特点:
算术平均数受变量值和变量值出 现次数的共同影响; 算术平均数靠近出现次数最多的 变量值; 算术平均数受极端变量值的影 响;
数学源自文库质:
1.各变量值与算术平均数的离差和为零
(x
x n x1 x2 xn 4 104.5% 102.0% 103.5% 105.4% 103.84%
某金融机构以复利方式计息。近12年来的年利率 有4年为3%、2年为5%、2年为8%、3年为10%、 1 年为15%。则12年的平均年利率?
x
集中趋势 离散程度 分布形态
统计数据的集中趋势是指一组数据向某 一中心值靠拢的倾向。 对集中趋势的描述归纳起来有两大类: 一类是数值平均数,它是根据全部数值 计算得到的代表值;另一类是位置平均 数,是根据数据所处位置直接观察或根 据与所处位置有关的部分数据计算确定 的代表值。
. . . . . . %
平均年利率=106.82%-1=6.82
加权几何平均数
f fn f1 f 2 x x1 x2 xn
二、位置平均数 1.众数(Mode)
众数是指总体中出现次数最多或频率最大 的变量值。众数是一种位置平均数,且也不受 极端值的影响。
实际完成产值 x 计划产值
xf 1 xf x
26175 105.12% 24900
只知道实际产值, 缺少计划产值的情况
平均计划完成为105.12%
3.几何平均数
当标志总量等于各个标志值的乘积,而不 是之和时,计算平均数就采用几何平均数。
集中趋势的测度值之一 N 个变量值乘积的 N 次方根 主要用于计算平均速度、平均比率
105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计
14 8 M0 5 123 ( 个 ) 120 (14 8 ) (14 10 )
按成绩分 组(分) 60以下 60—70 70—80 80—90 90—100 合计
xf x 1 x xf
700 1100 4560 1950 1400 700 1100 4560 1950 1400 10 11 12 13 14
9710 1 2 .1 3 7 5(件) 800
某蔬菜批发市场三种蔬菜的日成交数据如 下表,计算三种蔬菜该日的平均批发价格
Mo
• 该公式假定众数组的频数在众数组内均匀分布
某车间50名工人日加工零件数分组表 按零件数分组
【 根 二 的 , 50 人 工 数 数 例 据 节 数 计 名 日 零 的 】 第 中 据 算 工 加 件 众
频数(人) 3 5 8 14 10 6 4 50
累积频数 3 8 16 30 40 46 50 —
x1 f1 x 2 f 2 x n f n xf x f1 f 2 f n f
fn f1 f x x1 xn x f f f
•
xw
比重权数更能够直接体现权数的实质:
组距数列如何计算平均数?
按成绩分组(分) 60以下 60—70 70—80 80—90 90—100 合计 学生人数(人) 2 15 19 15 3 54
70 100 380 150 100
加权平均数
x1 f 1 x 2 f 2 x n f n xf x f1 f 2 f n f 9710 1 2 .1 3 7 5 (件) 800
权数(权重)
——权衡轻重(影响)作用的数(变量)。 权数的两种形式——绝对数(次数)f; ——相对数(比重)
一、数值平均数
1.算术平均数
基本公式
总体标志总量 算术平均数 x 总体单位总量
例: 平均工资=工资总额/职工人数 平均成本=总成本/产量
(1)简单算术平均数——未分组时
5名学生的考试成绩分别为(分): 70、80、80、85、85, 他们的平均成绩是多少? (70+80+80+85+85)/5=80(分)
• • 主要用于定序数据,也可用数值型数据,但不能用于定 类数据 各变量值与中位数的离差绝对值之和最小,即
n
i 1
x i m e Min
例 某企业生产某种产品要经过三道工 序,各工序的合格品率分别为95%、96% 和98%。该产品三道工序的平均合格品率 为多少?
x n x1 x2 xn
三道工序的平均合格品率为96.32%. 思考平均废品率为多少?
【 例 】 一 位 投 资 者 持 有 一 种 股 票 , 1996 年、 1997 年、 1998 年和 1999 年收益率分别 为4.5%、2.0%、3.5%、5.4%。计算该投资 者在这四年内的平均收益率。
平均计划完成程度的计算只能是所有企 业的实际完成数与其计划任务数之比,不能 把各个企业的计划完成百分数简单平均。
实际完成产值 x 计划产值
xf 0.858000.9525001.05172001.154400 f 8002500172004400
26175 105.12% 24900
x) 0
( x x) f
0
2.变量值与算术平均数的离差平方和最小
2 2 ( x x ) ( x c )
2 2 ( x x ) f ( x c ) f
说明以算术平均数以外的任何数为中心, 其离差都大于以平均数为中心的离差。
相对数的算术平均数 符合相对数本身公式
某日三种蔬菜的批发成交数据 蔬菜名称 甲 乙 丙 合计 批发价格(元) 1.20 0.50 0.80 — 成交额(元) 18000 12500 6400 36900 成交量(公斤) 15000 25000 8000 48000
成交额 x 成交量
xf 1 xf x 18000 12500 6400 18000 12500 6400 1 .2 0 .5 0 .8
x1 x 2 x n x x n n
(2)加权算术平均数
——当数据已分组,形成了变量数列:
工人日产量 (件) x 10 11 12 13 14 合 计 工人人数 (人)f 70 150 380 150 100 850
10 11 12 13 14 60 工人平均量 12 (件) 5 5
某公司下属18个企业,计划完成相对数如 下:
产值计划 完成程度 (%) 80-90 90-100 100-110 110-120 合计 组中值 (%) x 85 95 105 115 —— 企业数 (个) 2 3 10 3 18 实际 产值
xf
计划 1 产值 xf x
680 2375 18060 5060 26175
某公司下属18个企业,计划完成相对数如下
产值计划完 成程度 (%) 80—90 90—100 100—110 110—120 合计 组中值 (%) 85 95 105 115 —— 企业数 (个) 2 3 10 3 18 计划产值 (万元) 800 2500 17200 4400 24900 实际产值 (万元)xf 680 2375 18060 5060 26175
学生人数 (人) 2 15 19 15 3 54
f f 1 M0 d L ( f f 1 ) ( f f 1 ) 19 15 70 10 (19 15) (19 15) 75分
f f 1 M0 d U ( f f 1 ) ( f f 1 ) 19 15 80 10 (19 15) (19 15) 75分
只有在总体单位充分多,且又有明显的集中趋 势时才可能确定众数。在较小的总体范围内, 确定众数没有意义。 可能没有众数或有几个众数 主要用于定类数据,也可用于定序数据和数值 型数据
无众数 原始数据: 8
一个众数 原始数据: 6
10
5
9 12
6
5
9
8
5
5
多于一个众数 原始数据: 25 28 28 36 42 42
定序数据的众数
【例】根据第二节中的数据计算众数
解:这里的数据为 定序数据。变量为“ 回答类别”。甲城市 中对住房表示不满 意的户数最多,为 108户,因此众数为 “ 不满意 ” 这一类别 ,即 Mo=不满意
甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意 不满意 一般 满意 非常满意 合计 甲城市 户数 (户) 24 108 93 45 30 300 百分比 (%) 8 36 31 15 10 100.0
定类数据的众数
【例】根据第二节数据,算众数
解:这里的变量为 “ 广 告类型 ” ,这是个定类 变量,不同类型的广告 就是变量值。我们看到 ,在所调查的 200 人当 中,关注商品广告的人 数最多,为 112 人,占 总被调查人数的56%, 因此众数为“商品广告” 这一类别,即 Mo=商品广告
某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广 告 其他广告 合计 人数(人) 112 51 9 16 10 2 200 比例 0.560 0.255 0.045 0.080 0.050 0.010 1 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
2、中位数(Median)
中位数是根据变量值的位置来确定的平均 数。将变量值按大小顺序排序,处于中间位置的 变量值(或数据)即中位数 M ,用 表示。由于中 e 位数是位置代表值,所以不会受极端值的影响, 具有较高的稳健性。
50%
Me
50%
2.中位数(Me)
中位数是根据变量值的位置来确定的平均 数。将变量值按大小顺序排序,处于中间位置的 变量值(或数据)即中位数,用Me表示。由于 中位数是位置代表值,所以不会受极端值的影 响,具有较高的稳健性。
2.调和平均数(倒数平均数)
计算算术平均数,有时只掌握了各组变量值之和 的资料,为了符合基本公式,应该首先经过除法 运算求得分母数据,再计算平均数。这样计算平 均数的方法称为“调和平均法”,得到的平均数称 为“调和平均数”。 工人日产量 工人日总产量
(件) x 10 11 12 13 14 合计 (件) xf 700 1100 4560 1950 1400 9710
组距式数列的众数
用于组距式数列 众数的值与相邻两组频数的分布有关
• 相邻两组的频数相等时,众数组的组中值 即为众数。
Mo
• 相邻两组的频数不相等时,众数采用 下列近似公式计算:
f f 1 M0 d L ( f f 1 ) ( f f 1 )
Mo o
f f 1 M0 d U ( f f 1 ) ( f f 1 )
55 2 65 15 75 19 85 15 95 3 平均成绩= 54 4070 75.37 (分) 54
原来只是用 组中值作为 各组的代表 值
从组距数列看,特别是开口数列计算算术平 均 指标 ,以组中值为各组变量值带有假定 性,结果只是实际平均值的近似值。
不符合基本公式,不是5个工人,而是800个工人; 工人人总产量不是60件,而是9710件 所以,应该这样计算:
10 10 1011 11 1112 12 1213 13 1314 14 14
原来只是计算 时使用了不同 的数据!
36900 0.769 (元) 48000
算术平均数的特点和数学性质
特点:
算术平均数受变量值和变量值出 现次数的共同影响; 算术平均数靠近出现次数最多的 变量值; 算术平均数受极端变量值的影 响;
数学源自文库质:
1.各变量值与算术平均数的离差和为零
(x
x n x1 x2 xn 4 104.5% 102.0% 103.5% 105.4% 103.84%
某金融机构以复利方式计息。近12年来的年利率 有4年为3%、2年为5%、2年为8%、3年为10%、 1 年为15%。则12年的平均年利率?
x