第4章数据的概括性度量.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
报考人数 600 200 200 400
第1节 分布集中趋势的测度
一、众数 二、中位数 三、四分位数 四、均值 五、几何均值 六、切尾均值 七、众数、中位数和均值的比较
众数 (mode)
1. 一组数据中出现次数最多的变量值 2. 适合于数据量较多时使用 3. 不受极端值的影响 4. 一组数据可能没有众数或有几个众数 5. 主要用于分类数据,也可用于顺序数据和数
1.离散程度的测度值之一
x = 8.3
2.最常用的测度值
3.反映了数据的分布
4 6 8 10 12
4.反映了各变量值与均值的平均差异
5.根据总体数据计算的,称为总体方差或标准差; 根据样本数据计算的,称为样本方差或标准差
31
总体方差和标准差 (Population vari ance and Standard deviation)
去掉一个最高分和一个最低分,取1/11
x x x 1/11
111/111
111/112
x 11111/11
11 2 111 / 11
x( 2) x(3)
x(10)
11 2
9.2 9.22 9
9.3 9.26
值型数据
5
众数 (不惟一性)
无众数 原始数据: 11 3 7 12 9 8 一个众数 原始数据: 7 4 6 13 4 4 多于一个众数 原始数据: 17 25 25 33 24 24
6
中位数 (median)
1.排序后处于中间位置上的值
50%
50%
Me
2.不受极端值的影响
3.主要用于顺序数据,也可用数值型数据,但不 能用于分类数据
33
样本方差和标准差 (simple variance and standard deviation)
方差的计算公式
未分组数据:
n
(xi x )2
s2 i1 n 1
注意:样本 方差用自由 度n-1去除!
组距分组数据:
k
(Mi x)2 fi
s2 i1 n 1
标准差的计算公式
10
130~135
132.5
6
135~140
137.5
4
XiFi
322.5 562.5 940.0 1715.0 1275.0 795.0 550.0
K
X
X i Fi
i 1 K
Fi
6160 50
i 1
123.( 2 个)
合计
—
50
6160.0
18
均值 (数学性质)
1. 各变量值与均值的离差之和等于零
数据
15
简单均值 (simple mean)
设一组数据为: x1 ,x2 ,… ,xn
总体均值 样本均值
n
x1 x2 xN i1 xi
N
N
n
x
x1 x2
xn
xi
i 1
n
n
16
加权均值 (weighted mean)
设一组数据为: 相应的频数为: 总体均值
9.22,9.25,9.20,9.30,9.65,9.30, 9.27,9.20,9.28,9.25,9.24
经整理得到顺序统计量值为
x(1), x(2) , x(3), x(4), x(5), x(6), x(7) , x(8) , x(9) , x(10) , x(11)
9.20, 9.20, 9.22, 9.24, 9.25, 9.25, 9.27, 9.28, 9.30, 9.30, 9.65
5. 可看作是均值的一种变形
lg
Gm
1 n
(lg
x1
lg
x2
i1 n
lg xi
lg xn)
i1
n
20
案例分析 几何均值
【例】 一位投资者购持有一种股票,在19 97年、1998年、1999年和2000年收益率分 别为 4.5%、2.0%、3.5%、5.4%。计算该 投资者在这四年内的平均收益率
246.49 114.49 32.49
0.49 18.49 86.49 204.49
(Xi- X )2Fi
739.47 572.45 259.92
6.86 184.90 518.94 817.96
合计
—
50
—
3100.5
K
( X i X )2 Fi
i 1 K
Fi
i 1
3100.5 7.8( 7 个) 50
QL= 23
QU = 30
13
案例分析(四分位数10个数据的算例)
【例】 10个家庭的人均月收入数据
排 序: 500 650 760 780 940 1060 1350 1680 1790 1900
位 置: 1 2 3 4 5 6
7
8
9
10
QL位置
10 4
1
2.75
QU位置
3
(10 4
2
2
中位数 930 1078 1004 2
10
四分位数 (quartile)
1.排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
2.不受极端值的影响
3.主要用于顺序数据,也可用于数值型数据,但不 能用于分类数据
11
四分位数 (位置的确定)
QL 位置
n 1 4
不能自由取值
3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以 自由取值,另一个则不能自由取值,比如x1=6,x2=7, 那么x3则必然取2,而不能取其他值
位置 n 1 9 1 5 22
中位数 = 1050
9
案例分析 (10个数据的算例)
【例】 10个家庭的人均月收入数据
排 序: 635 690 770 820 930 1078 1230 1450 1690 2150 位 置: 1 2 3 4 5 6 7 8 9 10
位置 n 1 10 1 5.5
价的比赛项目中已得到广泛应用 3. 计算公式为:
x x(n1) x(n2) x(nn )
n 2 n
n 表示观察值的个数;α 表示切尾系数,0 1
2
22
案例分析 切尾均值
【例】某次求职面试中共有11名评委,对某位求职
者的给分分别是:
x1, x2, x3, x4, x5, x6, x7 , x8 , x9 , x10 , x11
1)
8.25
QL 650 0.75 (760 650) 732.5
QU 1680 0.25 (1790 1680) 1707.5
统计函数—QUARTILE
14
均值 (mean)
1. 集中趋势的最常用测度值 2. 一组数据的均衡点所在 3. 体现了数据的必然性特征 4. 易受极端值的影响 5. 用于数值型数据,不能用于分类数据和顺序
17
案例分析 加权均值
【例】根据表中的数据,计算50 名 工人日加工零件数的均值
表2-5 某车间50名工人日加工零件均值计算表
按零件数分组 组中值(Xi) 频数(Fi)
105~110
107.5
3
110~115
112.5
5
115~120
117.5
8
120~125
122.5
14
125~130
127.5
GM N X1 X 2 X N 4 104.5% 102.0% 103.5% 105.4% 103.84%
平均收益率=103.84%-1=3.84%
21
切尾均值 (trimmed Mean)
1. 去掉大小两端的若干数值后计算中间数据的均值 2. 在电视大奖赛、体育比赛及需要人们进行综合评
4.各变量值与中位数的离差绝对值之和最小,即
n
xi M e min
i1
7
中位数 (位置的确定)
中位数位置 n 1 2
8
案例分析 (9个数据的算例)
【例】 9个家庭的人均月收入数据
原始数据: 1400 750 760 1050 870 950 2100 1450 1540 排 序: 750 760 870 950 1050 1400 1450 1540 2100 位 置: 1 2 3 4 5 6 7 8 9
第4章 数据的概括性度量
1
集中趋势的度量
2
离散程度的度量
3
偏态与峰态的度量
引例:
某高校只有两个系,财经系和工程系。 该校报考及录取的总体情况如下:
录取 未录取 报考人数
男生 350 450 800
女生 200 400 600
工程系
财经系
男生 女生 男生 女生
录取
300 100 50 100
未录取 300 100 150 300
n
(xi x) 0
i1
2. 各变量值与均值的离差平方和最小
n
(xi x)2 min
i1
3. 统计分布的均衡点
19
几何均值 (geometric mean)
1. n 个变量值乘积的 n 次方根
2. 适用于对比率数据的平均
3. 主要用于计算平均增长率
4. 计算公式为:
n
Gm n x1 x2 xn n xi
样本均值
x1 ,x2 ,… ,xn
f1 ,f2 ,… ,fk
K
x1 f1 x2 f2 xK f1 f2 fK
fK
xi fi
i1 K
fi
i1
k
x
x1 f1 x2 f2 xk fk f1 f2 fk
xi fi
i1 n
fi
i1
27
第2节 分布离散程度的测度
一、极差 二、内距 三、方差和标准差 四、离散系数
极差 (range)
1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响 4. 未考虑数据的分布 7 8 9 10
7 8 9 10
5. 计算公式为:
R = max(xi) - min(xi)
29
内距 (Inter-Quartile Range,IQR)
1. 也称四分位差 2. 上四分位数与下四分位数之差
内 距 = Q3 – Q1
3. 反映了中间50%数据的离散程度 4. 不受极端值的影响 5. 可用于衡量中位数的代表性
30
方差和标准差 (Variance and Standard deviation)
23
众数、中位数和均来自百度文库的关系
均值 中位数 众数 均值 = 中位数 = 众数
众数 中位数 均值
左偏分布
对称分布
右偏分布
24
众数、中位数、均值的特点和应用
1. 众数 -不受极端值影响 -具有不惟一性 -数据分布偏斜程度较大时应用
2. 中位数 -不受极端值影响 -数据分布偏斜程度较大时应用
3. 均值 -易受极端值影响 -数学性质优良 -数据对称分布或接近对称分布时应用
方差的计算公式
未分组数据:
N
(xi )2
2 i1
N
组距分组数:
K
(Mi )2 fi
2 i1 N
标准差的计算公式 未分组数据:
N
(xi )2
i1
N
组距分组数:
K
(Mi )2 fi
i1
N
32
案例分析 总体标准差的计算
【例】根据表中的数据,计算工人日加工零件数的标准差
某车间50名工人日加工零件标准差计算表
按零件数分组
105~110 110~115 115~120 120~125 125~130 130~135 135~140
组中值(Xi)
107.5 112.5 117.5 122.5 127.5 132.5 137.5
频数(Fi)
3 5 8 14 10 6 4
(Xi- X )2
未分组数据:
n
(xi x )2
s i1 n 1
组距分组数据:
k
(Mi x)2 fi
s i1 n 1
34
样本方差 自由度(degree of freedom)
1.一组数据中可以自由取值的数据的个数
2.当样本数据的个数为 n 时,若样本均值x 确定后, 只有n-1个数据可以自由取值,其中必有一个数据则
25
数据类型
适 用 的 测 度 值
数据类型和所适用的集中趋势测度值
定类数据
定序数据
定距数据
定比数据
众数
中位数
均值
均值
—
四分位数
众数
调和平均数
—
众数
中位数
几何平均数
—
—
四分位数
中位数
—
—
—
四分位数
—
—
—
众数
本节提问
Q1 一组数据的分布特征可以从哪几个方面进行测度? Q2 怎样理解均值在统计学中的地位? Q3 对于比率数据的平均,为什么采用几何平均? Q4 简述众数、中位数和均值的特点和应用场合。
QU 位置
3(n 1) 4
12
案例分析 (四分位数7个数据的算例)
原始数据: 23 21 30 32 28 25 26
排 序: 21 23 25 26 28 30 32
位 置: 1 2 3 4 5 6 7
QL位置
N+1 =4
=
7+1 4
=2
3(N+1) 3(7+1)
QU位置 = 4 = 4 = 6