第4章 数据分布特征的测度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4章 数据分布特征的测度
数据分布特征的描述
Std. Dev = 1.09 Mean = -.04 N = 100.00
数据的“中间位置”
离散程度的度量
这两个数据“胖瘦”一样吗?
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰态 (形状)
数据分布特征的描述
数据的分布特征和测度
X1f1 X 2f2 X NfN X f1 f2 fN
X f
i1 K
K
ii
f
i1
i
.
例4-3:某厂工人各级别工资额和相应工人数资料如下表4-5:
表4-3 各组标志值
× 各组单位数
f
5 15 18 10 2 50
=
各组标志总量 工资总额(元)
注意:由组 x 距数列计算加
4.1
集中趋势的测度
集中趋势指标
集中趋势指标(也叫平均指标)反映同类现 象的一般水平或平均水平,是总体内各单位参差 不齐的标志值的代表值,也是对变量分布集中趋 势的测定。 数据集中位置
x
变量x
它是一个抽象值; 它是一个代表值; 它反映了总体(各单位标志值)分布的集中趋势。
算术平均数 按计算方 法不同 调和平均数 几何平均数 数 值 平均数
50%
Me
50%
2. 不受极端值的影响; 3. 主要用于定序数据,也可用定量数据,但不能用 于定类数据;
数值型数据的中位数(奇数个数据)
例4-1: 9个家庭的人均月收入数据
1080 850 960 2000 1250 1630 960 1080 1250 1500 1630 2000 原始数据: 1500 750 780 排 序: 750 780 850 位 置:
分布的形状与箱线图
QL 中位数 QU QL 中位数 QU Q L 中位数 QU
左偏分布
对称分布
不同分布的箱线图
右偏分布
未分组数据—箱线图(box plot)
箱式图包含的信息比直方图和茎叶图都少,所以 它的最佳用途是用来同时比较多个分布。 例如 , 为了解不同教育程度的人的收入差别,根 据某年 71512 个人的收入的抽样调查结果,得到的不 同受教育程度的人的收入分布如下图:
频数(fi)
4 9 16 27 20 17 10 8 4 5 120
Mi fi
580 1395 2640 4725 3700 3315 2050 1720 900 1175 22200
M f x f
i 1 i i k i
22200 185 120
平均每 天 电 脑 销 售 量
标志总量 电脑销售总量 单位数 天数
.
4.1.4 众数、中位数和均值ຫໍສະໝຸດ Baidu比较
众数、中位数和均值的关系 众数、中位数、平均数的特点和应用场合
众数、中位数和平均数的关系
均值
中位数 众数
均值 = 中位数 = 众数
众数 中位数 均值
左偏分布
对称分布
右偏分布
众数、中位数、平均数的特点和应用
众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 2. 中位数 不受极端值影响 数据分布偏斜程度较大时应用 3. 平均数 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用 n 各变量值与均值的离差之和等于零 (Xi X ) 0 各变量值与均值的离差平方和最小
百分比 (%) 8 36 31 15 10 100.0
解:这里的数据为定 序数据。变量为“回 答类别”
该城市中对住房 表示不满意的户数最 多 , 为 108 户 , 因 此 众数为“不满意”这 一类别,即
Mo=不满意
统计函数—MODE
4.1.2
中位数(median)
1. 按数值大小排序后处于中间位置上的值;
箱线图的构成
箱线图的构成:
X 最小值 QL 中位数 QU X 最大值
4
6
8
10
12
Median/Quart./Range箱线图
单批数据箱线图
最小值 141
下四分位数 中位数 170.8 182
上四分位数 197
最大值 237
140
150
160
170
180
190
200
210
220
230 240
某电脑公司销售量数据的 Median/Quart./Range箱线图
集中趋势
位置 平均数 众 数 中位数 算术平均数 数值 平均数 几何平均数
离散程度
全距 方差 标准差 变异系数
分布的形状
偏态 系数 峰度 系数
数据分布特征的测度
4.1 4.2 4.3
集中趋势的测度 离中趋势的测度 偏度和峰度的测度
学习目标
了解集中趋势指标的概念、特点和作用,掌握各 种平均数的计算方法、应用条件以及几种平均数之间 的关系。 了解离中趋势指标的概念、种类和作用及与平均 指标的区别。其中重点是标准差与离散系数的计算。 了解数据的分布形态测定方法。 了解各项指标的应用原则,能结合实际调查资料 计算有关指标和进行初步的分析。
不同品牌饮料的频数分布 饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 频数 15 11 9 6 9 比例 0.30 0.22 0.18 0.12 0.18 百分比 (%) 30 22 18 12 18
解:
vr
50 15 50 15 1 50 0.7 70%
合计
50
1
n i 1 2 ( X X ) min i i 1
1.
数据类型和所适用的集中趋势测度值
表4-5 数据类型和所适用的集中趋势测度值 数据 类型 适 用 的 测 度 值 定类数据 众数 — — — — — — — 定序数据 中位数 众数 定距数据 定比数据
算术平均数 算术平均数 众数 中位数 调和平均数 几何平均数 中位数 众数
频数
15 11 9 6 9 50
比例
0.30 0.22 0.18 0.12 0.18 1
百分比 (%) 30 22 18 12 18 100
Mo=可口可乐
定序数据的众数(例题分析)
表4-1 某城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意 合计
户数 (户) 24 108 93 45 30 300
.
G x1 x2 x3 xn
n
n
x
.
几何平均数(例题分析)
例4-4:某产品需经三个车间加工,已知第一个 车间加工合格率为95%,第二个车间加工合格率为 90%,第三个车间加工合格率为98%,求三个车间平 均加工合格率。
.
G n x1.x2 .x3 ...xn 3 95% 90% 98% 94.275%
100
在所调查的50人当中,购 买其他品牌饮料的人数占 70% ,异众比率比较大。因 此,用“可口可乐”代表消 费者购买饮料品牌的状况, 其代表性不是很好。
极差(range)
1. 2. 3. 4. 5. 一组数据的最大值与最小值之差; 离散程度的最简单测度值; 易受极端值影响; 未考虑数据的分布。 计算公式为:
n为奇数 n为偶数
未分组数据—箱线图(box plot)
1. 2.
3.
用于显示未分组的原始数据的分布; 由一组数据的 5 个特征值绘制而成,它由一个箱子 和两条线段组成; 绘制方法:
首先找出一组数据的 5 个特征值,即最大值、最小值、 中位数Me和两个四分位数 (下四分位数QL和上四分位数 Q U ); 连接两个四分位数画出箱子,再将两个极值点与箱子相 连接; 该箱线图也称为Median/Quart./Range箱线图 。
?试计算 工人平均 工资。
工资额(元)
工人数(人)
xf
2300 7800 10800 7000 1700 29600
460 权算术平均数, 520 可用组中值代 600 700 表各组变量值。 850 合 计
单 位标志总量 算术平均数 单位数
工资总额 各组工资总额xf 29600 50 工人总数 各组工人数f 592 .
7
8
9
10
n 1 10 1 位置 5.5 2 2
960 1080 中位数 1020 2
箱式图
中位数(位置和数值的确定)
n 1 位置确定 中位数位置 2 x n1 2 数值确定 M e 1 x n x n 1 2 2 2
4.2
离中趋势的测度
离中趋势
1. 数据分布的另一个重要特征; 2. 反映各变量值远离其中心值的程度,因此也称为离散趋势。 3. 从另一个侧面说明了集中趋势测度值的代表程度; 4. 不同类型的数据有不同的离散程度测度值;
甲组:80 80 乙组:70 75 丙组:2 18
80 80 25
80 85 96
R = max(xi) - min(xi)
平均差
1. 各变量值与其平均数离差绝对值的平均数; 2. 能全面反映一组数据的离散程度; 3. 数学性质较差,实际中应用较少。 4. 计算公式为:
.
表4-4 某电脑公司销售量数据分组表
按销售量分组
140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 合计
组中值(Mi)
145 155 165 175 185 195 205 215 225 235 —
数值型数据
众数 中位数
定类数据
(位置平均数)
定序数据
低层次数据的集中趋势测度值适用于高层次 的测量数据,反过来,高层次数据的集中趋 势测度值并不适用于低层次的测量数据
4.1.1 众数(mode)
1. 一组数据中出现次数最多的变量值; 2. 适合于数据量较多时使用; 3. 不受极端值的影响; 4. 一组数据可能没有众数或有几个众数; 5. 主要用于分类数据,也可用于顺序数据和数值 型数据。
4.1.3
算术平均数
N
设一组数据为:X1 ,X2 ,… ,XN 简单算术平均数的计算公式为(未分组数据)
X1 X 2 X N i1 X N N
X
i
各单位标 设分组后的数据为:X1 ,X2 ,… ,XK 志值的和 相应的频数为: f1 , f2,… ,fK 总单 加权算术平均数的计算公式为(分组数据) 位数
众数
一个众数 原始数据:
无众数 原始数据:
6 10
5 5
9 9 12
8 6
5 8
5
多于一个众数 原始数据: 25 28 28 36 42 42
定类数据的众数 (例题分析)
不同品牌饮料的频数分布 饮料品牌
可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计 解:这里的变量为“饮 料品牌”,这是个定类 变量,不同类型的饮料 就是变量值 所调查的 50 人中, 购买可口可乐的人数最 多,为15人,占被调查 总人数的 30% ,因此众 数为“可口可乐”这一 品牌,即
1
2
3
4
5
6
7
8
9
n 1 9 1 位置 5 2 2 中位数Me 1080
统计函数—MEDIAN
数值型数据的中位数(偶数个数据)
例4-2:10个家庭的人均月收入数据
排
位
序:
置:
660 750 780 850 960 1080 1250 1500 1630 2000
1 2
3
4
5
6
.
几何平均数(例题分析)
例4-5:一位投资者持有一支股票,在2000、2001、 2002、2003年的收益率分别为4.5%、2.1%、25.5%和 1.9%。计算该股票在这四年中的平均收益率。
.
G n x1.x2 .x3 ...xn 4 104.5% 102.1% 125.5% 101.9% 1 8.0787%
80 90 259
平均数为80 平均数为80 平均数为80
异众比率(variation ratio)
1. 对分类数据离散程度的测度; 2. 非众数组的频数占总频数的比例; 3. 计算公式为:
vr
f f f
i i
m
fm 1 fi
4. 用于衡量众数的代表性。
异众比率 (例题分析)
.
调和平均数
调和平均数的概念: 也叫倒数平均数, 一般认为是算术平均数的变形。
m1 m2 ... mn xH mn m1 m2 ... x1 x2 xn
.
m m x
.
几何平均数
几何平均数(G)的概念: 它是分布数列中n个 单位标志值连乘积的n次方根。 适用于计算时间上相互衔接的比率的平均数 ; 主要用于计算平均发展速度; 计算公式为:
数据分布特征的描述
Std. Dev = 1.09 Mean = -.04 N = 100.00
数据的“中间位置”
离散程度的度量
这两个数据“胖瘦”一样吗?
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰态 (形状)
数据分布特征的描述
数据的分布特征和测度
X1f1 X 2f2 X NfN X f1 f2 fN
X f
i1 K
K
ii
f
i1
i
.
例4-3:某厂工人各级别工资额和相应工人数资料如下表4-5:
表4-3 各组标志值
× 各组单位数
f
5 15 18 10 2 50
=
各组标志总量 工资总额(元)
注意:由组 x 距数列计算加
4.1
集中趋势的测度
集中趋势指标
集中趋势指标(也叫平均指标)反映同类现 象的一般水平或平均水平,是总体内各单位参差 不齐的标志值的代表值,也是对变量分布集中趋 势的测定。 数据集中位置
x
变量x
它是一个抽象值; 它是一个代表值; 它反映了总体(各单位标志值)分布的集中趋势。
算术平均数 按计算方 法不同 调和平均数 几何平均数 数 值 平均数
50%
Me
50%
2. 不受极端值的影响; 3. 主要用于定序数据,也可用定量数据,但不能用 于定类数据;
数值型数据的中位数(奇数个数据)
例4-1: 9个家庭的人均月收入数据
1080 850 960 2000 1250 1630 960 1080 1250 1500 1630 2000 原始数据: 1500 750 780 排 序: 750 780 850 位 置:
分布的形状与箱线图
QL 中位数 QU QL 中位数 QU Q L 中位数 QU
左偏分布
对称分布
不同分布的箱线图
右偏分布
未分组数据—箱线图(box plot)
箱式图包含的信息比直方图和茎叶图都少,所以 它的最佳用途是用来同时比较多个分布。 例如 , 为了解不同教育程度的人的收入差别,根 据某年 71512 个人的收入的抽样调查结果,得到的不 同受教育程度的人的收入分布如下图:
频数(fi)
4 9 16 27 20 17 10 8 4 5 120
Mi fi
580 1395 2640 4725 3700 3315 2050 1720 900 1175 22200
M f x f
i 1 i i k i
22200 185 120
平均每 天 电 脑 销 售 量
标志总量 电脑销售总量 单位数 天数
.
4.1.4 众数、中位数和均值ຫໍສະໝຸດ Baidu比较
众数、中位数和均值的关系 众数、中位数、平均数的特点和应用场合
众数、中位数和平均数的关系
均值
中位数 众数
均值 = 中位数 = 众数
众数 中位数 均值
左偏分布
对称分布
右偏分布
众数、中位数、平均数的特点和应用
众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 2. 中位数 不受极端值影响 数据分布偏斜程度较大时应用 3. 平均数 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用 n 各变量值与均值的离差之和等于零 (Xi X ) 0 各变量值与均值的离差平方和最小
百分比 (%) 8 36 31 15 10 100.0
解:这里的数据为定 序数据。变量为“回 答类别”
该城市中对住房 表示不满意的户数最 多 , 为 108 户 , 因 此 众数为“不满意”这 一类别,即
Mo=不满意
统计函数—MODE
4.1.2
中位数(median)
1. 按数值大小排序后处于中间位置上的值;
箱线图的构成
箱线图的构成:
X 最小值 QL 中位数 QU X 最大值
4
6
8
10
12
Median/Quart./Range箱线图
单批数据箱线图
最小值 141
下四分位数 中位数 170.8 182
上四分位数 197
最大值 237
140
150
160
170
180
190
200
210
220
230 240
某电脑公司销售量数据的 Median/Quart./Range箱线图
集中趋势
位置 平均数 众 数 中位数 算术平均数 数值 平均数 几何平均数
离散程度
全距 方差 标准差 变异系数
分布的形状
偏态 系数 峰度 系数
数据分布特征的测度
4.1 4.2 4.3
集中趋势的测度 离中趋势的测度 偏度和峰度的测度
学习目标
了解集中趋势指标的概念、特点和作用,掌握各 种平均数的计算方法、应用条件以及几种平均数之间 的关系。 了解离中趋势指标的概念、种类和作用及与平均 指标的区别。其中重点是标准差与离散系数的计算。 了解数据的分布形态测定方法。 了解各项指标的应用原则,能结合实际调查资料 计算有关指标和进行初步的分析。
不同品牌饮料的频数分布 饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 频数 15 11 9 6 9 比例 0.30 0.22 0.18 0.12 0.18 百分比 (%) 30 22 18 12 18
解:
vr
50 15 50 15 1 50 0.7 70%
合计
50
1
n i 1 2 ( X X ) min i i 1
1.
数据类型和所适用的集中趋势测度值
表4-5 数据类型和所适用的集中趋势测度值 数据 类型 适 用 的 测 度 值 定类数据 众数 — — — — — — — 定序数据 中位数 众数 定距数据 定比数据
算术平均数 算术平均数 众数 中位数 调和平均数 几何平均数 中位数 众数
频数
15 11 9 6 9 50
比例
0.30 0.22 0.18 0.12 0.18 1
百分比 (%) 30 22 18 12 18 100
Mo=可口可乐
定序数据的众数(例题分析)
表4-1 某城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意 合计
户数 (户) 24 108 93 45 30 300
.
G x1 x2 x3 xn
n
n
x
.
几何平均数(例题分析)
例4-4:某产品需经三个车间加工,已知第一个 车间加工合格率为95%,第二个车间加工合格率为 90%,第三个车间加工合格率为98%,求三个车间平 均加工合格率。
.
G n x1.x2 .x3 ...xn 3 95% 90% 98% 94.275%
100
在所调查的50人当中,购 买其他品牌饮料的人数占 70% ,异众比率比较大。因 此,用“可口可乐”代表消 费者购买饮料品牌的状况, 其代表性不是很好。
极差(range)
1. 2. 3. 4. 5. 一组数据的最大值与最小值之差; 离散程度的最简单测度值; 易受极端值影响; 未考虑数据的分布。 计算公式为:
n为奇数 n为偶数
未分组数据—箱线图(box plot)
1. 2.
3.
用于显示未分组的原始数据的分布; 由一组数据的 5 个特征值绘制而成,它由一个箱子 和两条线段组成; 绘制方法:
首先找出一组数据的 5 个特征值,即最大值、最小值、 中位数Me和两个四分位数 (下四分位数QL和上四分位数 Q U ); 连接两个四分位数画出箱子,再将两个极值点与箱子相 连接; 该箱线图也称为Median/Quart./Range箱线图 。
?试计算 工人平均 工资。
工资额(元)
工人数(人)
xf
2300 7800 10800 7000 1700 29600
460 权算术平均数, 520 可用组中值代 600 700 表各组变量值。 850 合 计
单 位标志总量 算术平均数 单位数
工资总额 各组工资总额xf 29600 50 工人总数 各组工人数f 592 .
7
8
9
10
n 1 10 1 位置 5.5 2 2
960 1080 中位数 1020 2
箱式图
中位数(位置和数值的确定)
n 1 位置确定 中位数位置 2 x n1 2 数值确定 M e 1 x n x n 1 2 2 2
4.2
离中趋势的测度
离中趋势
1. 数据分布的另一个重要特征; 2. 反映各变量值远离其中心值的程度,因此也称为离散趋势。 3. 从另一个侧面说明了集中趋势测度值的代表程度; 4. 不同类型的数据有不同的离散程度测度值;
甲组:80 80 乙组:70 75 丙组:2 18
80 80 25
80 85 96
R = max(xi) - min(xi)
平均差
1. 各变量值与其平均数离差绝对值的平均数; 2. 能全面反映一组数据的离散程度; 3. 数学性质较差,实际中应用较少。 4. 计算公式为:
.
表4-4 某电脑公司销售量数据分组表
按销售量分组
140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 合计
组中值(Mi)
145 155 165 175 185 195 205 215 225 235 —
数值型数据
众数 中位数
定类数据
(位置平均数)
定序数据
低层次数据的集中趋势测度值适用于高层次 的测量数据,反过来,高层次数据的集中趋 势测度值并不适用于低层次的测量数据
4.1.1 众数(mode)
1. 一组数据中出现次数最多的变量值; 2. 适合于数据量较多时使用; 3. 不受极端值的影响; 4. 一组数据可能没有众数或有几个众数; 5. 主要用于分类数据,也可用于顺序数据和数值 型数据。
4.1.3
算术平均数
N
设一组数据为:X1 ,X2 ,… ,XN 简单算术平均数的计算公式为(未分组数据)
X1 X 2 X N i1 X N N
X
i
各单位标 设分组后的数据为:X1 ,X2 ,… ,XK 志值的和 相应的频数为: f1 , f2,… ,fK 总单 加权算术平均数的计算公式为(分组数据) 位数
众数
一个众数 原始数据:
无众数 原始数据:
6 10
5 5
9 9 12
8 6
5 8
5
多于一个众数 原始数据: 25 28 28 36 42 42
定类数据的众数 (例题分析)
不同品牌饮料的频数分布 饮料品牌
可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计 解:这里的变量为“饮 料品牌”,这是个定类 变量,不同类型的饮料 就是变量值 所调查的 50 人中, 购买可口可乐的人数最 多,为15人,占被调查 总人数的 30% ,因此众 数为“可口可乐”这一 品牌,即
1
2
3
4
5
6
7
8
9
n 1 9 1 位置 5 2 2 中位数Me 1080
统计函数—MEDIAN
数值型数据的中位数(偶数个数据)
例4-2:10个家庭的人均月收入数据
排
位
序:
置:
660 750 780 850 960 1080 1250 1500 1630 2000
1 2
3
4
5
6
.
几何平均数(例题分析)
例4-5:一位投资者持有一支股票,在2000、2001、 2002、2003年的收益率分别为4.5%、2.1%、25.5%和 1.9%。计算该股票在这四年中的平均收益率。
.
G n x1.x2 .x3 ...xn 4 104.5% 102.1% 125.5% 101.9% 1 8.0787%
80 90 259
平均数为80 平均数为80 平均数为80
异众比率(variation ratio)
1. 对分类数据离散程度的测度; 2. 非众数组的频数占总频数的比例; 3. 计算公式为:
vr
f f f
i i
m
fm 1 fi
4. 用于衡量众数的代表性。
异众比率 (例题分析)
.
调和平均数
调和平均数的概念: 也叫倒数平均数, 一般认为是算术平均数的变形。
m1 m2 ... mn xH mn m1 m2 ... x1 x2 xn
.
m m x
.
几何平均数
几何平均数(G)的概念: 它是分布数列中n个 单位标志值连乘积的n次方根。 适用于计算时间上相互衔接的比率的平均数 ; 主要用于计算平均发展速度; 计算公式为: