第六章 离散程度的测度
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Mi x M i x fi
40 30 20 10 0 10 20 30 40 50 —
160 270 320 270 0 170 200 240 160 250 2040
M
Md
i 1
k
i
x fi
2040 120
17(台)
n
含义:每一天的销售量平均数相比, 平均相差17台
x)
n 1 (10 8.5) (5 8.5) (8 8.5)
2 2 2
6 1
8.3
s
8.3 2.88
第四节 相对离散程度:离散系数
• • 一、离散系数(coefficient of variation)定义: 指标准差与其相应的均值之比。
对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 用于对不同组别数据离散程度的比较
第六章 离散程度的测度 (变异度指标)
第一节 分类数据:异众比率 第二节 顺序数据:四分位差 第三节 数值型数据:方差及标准差 第四节 相对离散程度:离散系数
离中趋势(变异度)
• • • 一、反映各变量值远离其中心值的程 度(离散程度) 二、从另一个侧面说明了集中趋势测 度值的代表程度 三、不同类型的数据有不同的离散程 度测度值
结论: 计算结果表明,v1<v2,说明产品销售额 的离散程度小于销售利润的离散程度
课堂练习1
• 男生的平均体重是60千克,标准差是5千 克; • 女生的平均体重是50千克,标准差是5千 克;
• 是男生的体重差异程度大还是女生的体 重差异程度大?
课堂练习2
• 对10名成年人和10名幼儿的身高进行抽样调查,结 果如下: • 计算各组的均值、方差、标准差? • 比较分析哪一组的身高差异大? 成年 166 169 172 177 180 170 172 174 168 173 组 幼儿 68 组
(二)计算公式
未分组数据
n
xi x n
Md
i 1
M
组距式分组数据
k
i
x fi
Md
i 1
n
例三:
某电脑公司销售量数据平均差计算表 按销售量分组 140—150 150—160 160—170 170—180 180—190 190—200 200—210 210—220 220—230 230—240 合计 组中值(Mi) 145 155 165 175 185 195 205 215 225 235 — 频数(fi) 4 9 16 27 20 17 10 8 4 5 120
300
24 132 225 270 300
—
• 解:设非常不满意为1,不满意为2, 一般 为3, 满意为 4, 非常满意为5 已知 • QL = 不满意 = 2 • QU = 一般 = 3 • 四分位差: • QD = QU = QL • =3 – 2 =1
第三节 数值型数据:方差和标准差
• 一、极差 • 二、平均差 • 三、方差和标准差
例如,
样本有3个数值,即x1=2,x2=4, x3=9,则 x = 5。 当 x = 5 确定后,x1,x2和x3有两个数 据可以自由取值,另一个则不能自 由取值,比如x1=6,x2=7,那么x3 则必然取2,而不能取其他值
原始数据: 10 5
例五:
9
2
13
6
8
(x
s
2 i 1
n
i
Vr
200 112 200 112 200
1
0.44 44%
在所调查的200人当中,关注非商品广告的人数 占44%,异众比率还是比较大。因此,用“商品 广告”来反映城市居民对广告关注的一般趋势, 其代表性不是很好
第二节 顺序数据:四分位差
一、四分位差(quartile deviation)定义
也称为内距或四分间距,是上四分位数与下 四分位数之差。 二、计算公式: QD = Q U - QL
反映了中间50%数据的离散程度
不受极端值的影响;用于衡量中位数的代表性
例二:
甲城市家庭对住房状况评价的频数分布
回答类别 甲城市 户数 (户) 累计频数
非常不满意 不满意 一般 满意 非常满意
合计
24 108 93 45 30
n 1
k
组距分组数据:
(M i x ) f i
2
k
组距分组数据:
s
2
i 1
n 1
(M i x ) f i
2
s
i 1
n 1
自由度(degree of freedom)
1. 一组数据中可以自由取值的数据的 个数 2. 当样本数据的个数为 n 时,若样本 均值x 确定后,只有n-1个数据可 以自由取值,其中必有一个数据则 不能自由取值.
Vr
f f f
i i
m
1
fm
f
i
例一:
某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计 人数(人) 112 51 9 16 10 2 200 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
解:
一、极差(range)
• (一)定义 • 极差是指:一组数据的最大值与最小值之 差 • 离散程度的最简单测度值 • 易受极端值影响 • 未考虑数据的分布 • (二)计算公式为 • R = max(xi) - min(xi)
二、平均差
(mean deviation)
• (一)定义
• 平均差是指各变量值与其均值离差绝对 值的平均数。 • 能全面反映一组数据的离散程度 • 数学性质较差,实际中应用较少
含义:每一天的销售量与平均数比, 平均相差21.49台
样本方差和标准差
(sample variance and standard deviation)
未分组数据:
注意:
2
•未分组数据:
( xi x )
s
2 i 1
n
样本方差用自 由度n-1去除!
(x
s
i 1
n
i
x)
2
n 1
69 68 70 71 73 72 73 74 75
数据类型与离散程度测度值
数据类型和所适用的离散程度测度值
数据类 型 适 用 的 测 度 值 分类数据 顺序数据 数值型数据 ※方差或标准差 ※离散系数(比较时 用) 平均差 极差
※异众比率 ※四分位差 — — — 异众比率 — —
— —
— —
四分位差 异众比率
M i 2
1600 900 400 100 0 100 400 900 1600 2500 —
M i
fi
2
6400 8100 6400 2700 0 1700 4000 7200 6400 12500 55400
(M
i 1
k
i
) fi
2
N 55400 120 21.49(台)
(population variance and standard deviation)
方差的计算公式
未分组数据:
N
标准差的计算公式
•未分组数据:
(x
2
i
)
2
i 1
( xi )
i 1
N
2
N
N
组距分组数据:
组距分组数据:
) fi
2
(M
2
K
i
i 1
数据的特征和测度
(本章位置)
数据的特征和测度
集中趋势
众 数 中位数
离散程度
分布的形状
偏 态
均 值
异众比率 四分位差 方差和标准差 离散系数
峰 态
第一节 分类数据:异众比 率
一、异众比率(variation ratio)定义: 指非众数组的频数占总频数的比率。 用于衡量众数的代表性 二、计算公式为:
二、计算公式
v
或
vs
s x
例六:某管理局抽查了所属的8家企
业,其产品销售数据如表。试比较产 品销售额与销售利润的离散程度。
某管理局所属8家企业的产品销售数据
企业编号 1 2 3 4 5 6 7 8 产品销售额(万元) 销售利润(万元)
x1
170 220 390 430 480 650 950 1000
三、方差和标准差
(variance and standard deviation)
• 1. 离散程度的测度值之一
• 2. 最常用的测度值 • 3. 反映了数据的分布 4. 反映了各变量值与均值的平均差异 5. 根据总体数据计算的,称为总体方差或标准差; 根据样本数据计算的,称为样本方差或标准差
总体方差和标准差
(M i ) f i
2 i 1
K
N
N
例四:
某电脑公司销售量数据平均差计算表 按销售量分组 140—150 150—160 160—170 170—180 180—190 190—200 200—210 210—220 220—230 230—240 合计 组中值(Mi) 145 155 165 175 185 195 205 215 225 235 — 频数(fi) 4 9 16 27 20 17 10 8 4 5 120
x2
8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0
x1 536.25(万元) s1 309.19(万元)
x 2 32.5215(万元) s 2 23.09(万元)
ห้องสมุดไป่ตู้
309.19 =0.577 v 1= 536.25
23.09 v 2= =0.710 32.5215
40 30 20 10 0 10 20 30 40 50 —
160 270 320 270 0 170 200 240 160 250 2040
M
Md
i 1
k
i
x fi
2040 120
17(台)
n
含义:每一天的销售量平均数相比, 平均相差17台
x)
n 1 (10 8.5) (5 8.5) (8 8.5)
2 2 2
6 1
8.3
s
8.3 2.88
第四节 相对离散程度:离散系数
• • 一、离散系数(coefficient of variation)定义: 指标准差与其相应的均值之比。
对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 用于对不同组别数据离散程度的比较
第六章 离散程度的测度 (变异度指标)
第一节 分类数据:异众比率 第二节 顺序数据:四分位差 第三节 数值型数据:方差及标准差 第四节 相对离散程度:离散系数
离中趋势(变异度)
• • • 一、反映各变量值远离其中心值的程 度(离散程度) 二、从另一个侧面说明了集中趋势测 度值的代表程度 三、不同类型的数据有不同的离散程 度测度值
结论: 计算结果表明,v1<v2,说明产品销售额 的离散程度小于销售利润的离散程度
课堂练习1
• 男生的平均体重是60千克,标准差是5千 克; • 女生的平均体重是50千克,标准差是5千 克;
• 是男生的体重差异程度大还是女生的体 重差异程度大?
课堂练习2
• 对10名成年人和10名幼儿的身高进行抽样调查,结 果如下: • 计算各组的均值、方差、标准差? • 比较分析哪一组的身高差异大? 成年 166 169 172 177 180 170 172 174 168 173 组 幼儿 68 组
(二)计算公式
未分组数据
n
xi x n
Md
i 1
M
组距式分组数据
k
i
x fi
Md
i 1
n
例三:
某电脑公司销售量数据平均差计算表 按销售量分组 140—150 150—160 160—170 170—180 180—190 190—200 200—210 210—220 220—230 230—240 合计 组中值(Mi) 145 155 165 175 185 195 205 215 225 235 — 频数(fi) 4 9 16 27 20 17 10 8 4 5 120
300
24 132 225 270 300
—
• 解:设非常不满意为1,不满意为2, 一般 为3, 满意为 4, 非常满意为5 已知 • QL = 不满意 = 2 • QU = 一般 = 3 • 四分位差: • QD = QU = QL • =3 – 2 =1
第三节 数值型数据:方差和标准差
• 一、极差 • 二、平均差 • 三、方差和标准差
例如,
样本有3个数值,即x1=2,x2=4, x3=9,则 x = 5。 当 x = 5 确定后,x1,x2和x3有两个数 据可以自由取值,另一个则不能自 由取值,比如x1=6,x2=7,那么x3 则必然取2,而不能取其他值
原始数据: 10 5
例五:
9
2
13
6
8
(x
s
2 i 1
n
i
Vr
200 112 200 112 200
1
0.44 44%
在所调查的200人当中,关注非商品广告的人数 占44%,异众比率还是比较大。因此,用“商品 广告”来反映城市居民对广告关注的一般趋势, 其代表性不是很好
第二节 顺序数据:四分位差
一、四分位差(quartile deviation)定义
也称为内距或四分间距,是上四分位数与下 四分位数之差。 二、计算公式: QD = Q U - QL
反映了中间50%数据的离散程度
不受极端值的影响;用于衡量中位数的代表性
例二:
甲城市家庭对住房状况评价的频数分布
回答类别 甲城市 户数 (户) 累计频数
非常不满意 不满意 一般 满意 非常满意
合计
24 108 93 45 30
n 1
k
组距分组数据:
(M i x ) f i
2
k
组距分组数据:
s
2
i 1
n 1
(M i x ) f i
2
s
i 1
n 1
自由度(degree of freedom)
1. 一组数据中可以自由取值的数据的 个数 2. 当样本数据的个数为 n 时,若样本 均值x 确定后,只有n-1个数据可 以自由取值,其中必有一个数据则 不能自由取值.
Vr
f f f
i i
m
1
fm
f
i
例一:
某城市居民关注广告类型的频数分布 广告类型 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 合计 人数(人) 112 51 9 16 10 2 200 频率(%) 56.0 25.5 4.5 8.0 5.0 1.0 100
解:
一、极差(range)
• (一)定义 • 极差是指:一组数据的最大值与最小值之 差 • 离散程度的最简单测度值 • 易受极端值影响 • 未考虑数据的分布 • (二)计算公式为 • R = max(xi) - min(xi)
二、平均差
(mean deviation)
• (一)定义
• 平均差是指各变量值与其均值离差绝对 值的平均数。 • 能全面反映一组数据的离散程度 • 数学性质较差,实际中应用较少
含义:每一天的销售量与平均数比, 平均相差21.49台
样本方差和标准差
(sample variance and standard deviation)
未分组数据:
注意:
2
•未分组数据:
( xi x )
s
2 i 1
n
样本方差用自 由度n-1去除!
(x
s
i 1
n
i
x)
2
n 1
69 68 70 71 73 72 73 74 75
数据类型与离散程度测度值
数据类型和所适用的离散程度测度值
数据类 型 适 用 的 测 度 值 分类数据 顺序数据 数值型数据 ※方差或标准差 ※离散系数(比较时 用) 平均差 极差
※异众比率 ※四分位差 — — — 异众比率 — —
— —
— —
四分位差 异众比率
M i 2
1600 900 400 100 0 100 400 900 1600 2500 —
M i
fi
2
6400 8100 6400 2700 0 1700 4000 7200 6400 12500 55400
(M
i 1
k
i
) fi
2
N 55400 120 21.49(台)
(population variance and standard deviation)
方差的计算公式
未分组数据:
N
标准差的计算公式
•未分组数据:
(x
2
i
)
2
i 1
( xi )
i 1
N
2
N
N
组距分组数据:
组距分组数据:
) fi
2
(M
2
K
i
i 1
数据的特征和测度
(本章位置)
数据的特征和测度
集中趋势
众 数 中位数
离散程度
分布的形状
偏 态
均 值
异众比率 四分位差 方差和标准差 离散系数
峰 态
第一节 分类数据:异众比 率
一、异众比率(variation ratio)定义: 指非众数组的频数占总频数的比率。 用于衡量众数的代表性 二、计算公式为:
二、计算公式
v
或
vs
s x
例六:某管理局抽查了所属的8家企
业,其产品销售数据如表。试比较产 品销售额与销售利润的离散程度。
某管理局所属8家企业的产品销售数据
企业编号 1 2 3 4 5 6 7 8 产品销售额(万元) 销售利润(万元)
x1
170 220 390 430 480 650 950 1000
三、方差和标准差
(variance and standard deviation)
• 1. 离散程度的测度值之一
• 2. 最常用的测度值 • 3. 反映了数据的分布 4. 反映了各变量值与均值的平均差异 5. 根据总体数据计算的,称为总体方差或标准差; 根据样本数据计算的,称为样本方差或标准差
总体方差和标准差
(M i ) f i
2 i 1
K
N
N
例四:
某电脑公司销售量数据平均差计算表 按销售量分组 140—150 150—160 160—170 170—180 180—190 190—200 200—210 210—220 220—230 230—240 合计 组中值(Mi) 145 155 165 175 185 195 205 215 225 235 — 频数(fi) 4 9 16 27 20 17 10 8 4 5 120
x2
8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0
x1 536.25(万元) s1 309.19(万元)
x 2 32.5215(万元) s 2 23.09(万元)
ห้องสมุดไป่ตู้
309.19 =0.577 v 1= 536.25
23.09 v 2= =0.710 32.5215