第四章统计数据的描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1040 )2 10
69090 .91
i 1
S=262.85
四、离散系数(coefficient of variation) 1. 标准差与其相应的均值之比 2. 对数据相对离散程度的测度 3. 消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为
分组数据:
QL位置

n 4
QU位置

3n 4
四分位数的求法
(9个数据的算例)
• 【例】:9个家庭的人均月收入数据
• 原始数据: 1500 750 780 1080 850 960 2000 1250 1630
• 排 序: 750 780 850 960 1080 1250 1500
xi
i 1
N
N
样本均值
n
x
x1 x2 xn

xi
i 1
n
n
2、加权均值(weighted mean)
设一组数据为: 相应的频数为:
x1 ,x2 ,… ,xn f1 , f2 ,… ,fk
总体均值
K

x1 f1 x2 f2 xK fK f1 f2 fK
二、中位数(median)
(一)中位数的概念
1. 排序后处于中间位置上的值
Байду номын сангаас
50%
50%
Me
2. 不受极端值的影响
3. 各变量值与中位数的离差绝对值之和最小,即
n
xi M e min
i 1
(二)中位数的位置
原始数据: 中 位 数 位 置 n 1 2
分组数据: 中 位 数 位 置 n 2
x x(n 1) x(n 2 ) x(n n )
n 2 n
n 表示观察值的个数;α表示切尾系数,0 1
2
切尾均值
(例题分析)

【例】某次比赛共有11名评委,对某位歌手的给分
分x1 别, 是x:2 , x3 , x 4 , x5 , x6 , x7 , x8 , x9 , x10 , x11
v


vs

s x
离散系数
(例题分析)
【 例 】某管理局抽查了所属的8家企业,其产品销售数 据如表。试比较产品销售额与销售利润的离散程度
企业编号
1 2 3 4 5 6 7 8
某管理局所属8家企业的产品销售数据
产品销售额(万元)
销售利润(万元)
x1
x2
170
8.1
220
12.5
390
18.0
430
s i1 n 1
• 单变量分组的样本方差和标准差
k
(xi x)2 fi
s2 i1 n 1
k
(xi x)2 fi
s i1 n 1
注:在分 组数据里
n=∑fi
注解:样本方差自由度(degree of freedom)
1. 一组数据中可以自由取值的数据的个数
当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其
i 1
5. 可看作是均值的一种变形
n
lg G m

1 (lg n
x1 lg
x2
lg xn )
lg
i 1
n
xi
几何平均数的求法
(例题分析)
• 【例】一位投资者购持有一种股票,在2000年、 2001年、2002年和2003年收益率分别为4.5%、 2.1%、25.5%、1.9%。计算该投资者在这四年内 的平均收益率
1.总体方差的计算公式
未分组数据:
2.总体标准差的计算公式
未分组数据:
N
(xi )2
2 i1
N
组距分组数据:
N
(xi )2
i1
N
组距分组数据:
K
(M i )2 fi
2 i1
N
K
(M i )2 fi
i1
N
(三)样本方差和标准差的计算公式
去掉一个最高分和一个最低分,取1/11
x x x 1/11
111 /111
111 /112
x 11111/11
11 2111/11
x(2) x(3) x(10) 11 2
9.2 9.22 9.3 9.26 9
众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数
众数 中位数 均值
左偏分布
对称分布
右偏分布
众数、中位数、均值的特点和应 用
1. 众数
– 不受极端值影响 – 具有不惟一性 – 数据分布偏斜程度较大时应用
2. 中位数
– 不受极端值影响 – 数据分布偏斜程度较大时应用
3. 均值
– 易受极端值影响 – 数学性质优良 – 数据对称分布或接近对称分布时应用
位置 n1 91 5
2
2
中位数 1080
中位数的求法
(10个数据的算例)
• 【例】:10个家庭的人均月收入数据
• 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
• 位 置: 1 2 3 4 5 6 7 8 9
10
位 置 n 1 10 1 5.5
二、内距(Inter-Quartile Range,IQR) 1.也称四分位差 2.上四分位数与下四分位数之差
内 距= QU – QL
3. 反映了中间50%数据的离散程度 4. 不受极端值的影响 5. 可用于衡量中位数的代表性
三、方差与标准差(Variance and Standard deviation)
30
组中值 85 95
105 115 125 —
Mifi 255 665 1365 575 250 3110
加权均值 (例题分析)
k
xi fi
x
i 1 k
fi
i 1
3110 103.6( 7 件) 30
(三)均值的数学性质
1. 各变量值与均值的离差之和等于零
n
(xi x) 0
统计函数—QUARTILE
四、均值(mean) (一)均值的概念 • 集中趋势的最常用测度值 • 一组数据的均衡点所在(重心) • 易受极端值的影响
(二)均值的算法
1、简单均值(simple mean)
设一组数据为: x1 ,x2 ,… ,xn
总体均值
n


x1 x2 xN

2
2
中 位 数 960 1080 1020 2
三、四分位数(quartile) (一)四分位数的概念 1.将一组数据(排序后)四等分的数据
25% 25% 25% 25%
QL
QM
QU
2.不受极端值的影响
(二)四分位数的位置
原始数据:
QL 位置

n 1 4
QU 位置

3(n 1) 4
i 1
2. 各变量值与均值的离差平方和最小
n
(xi x)2 min
i 1
五、几何平均数(geometric mean)
• 1. n 个变量值乘积的 n 次方根
• 2. 适用于对比率数据的平均
• 3. 主要用于计算平均增长率
• 4. 计算公式为
n
G m n x1 x 2 x n n xi
第四章 统计数据的描述
第一节 分布集中趋势的描述
一、众数(mode) • 一组数据中出现次数最多的变量值 • 适合于数据量较多时使用 • 不受极端值的影响 • 一组数据可能没有众数或有几个众数
众数
(不惟一性)
无众数 原始数据: 10 5 9 12 6 8
一个众数 原始数据:
659855
多于一个众数 原始数据: 25 28 28 36 42 42
第二节 分布离散程度的测度
一、极差 二、内距 三、方差和标准差 四、离散系数
一、极差(range) • 一组数据的最大值与最小值之差 • 离散程度的最简单测度值 • 极差越大,说明离散程度越大 • 易受极端值影响 • 未考虑数据的分布 7 8 9 10 7 8 9 10
计算公式为
R = max(xi) - min(xi)
中位数的求法
(9个数据的算例)
• 【例】 9个家庭的人均月收入数据
• 原始数据: 1500 750 780 1080 850 960 2000 1250 1630
• 排 序: 750 780 850 960 1080 1250 1500 1630 2000
• 位 置:
9
1 2 3 4 5 6 7 8
i 1 K
fi
i 1
组距式分组
k
x
M1 f1 M 2 f2 M k fk f1 f2 fk

Mi fi
i 1 n
fi
i 1
加权均值计算表
零件数 80-90 90-100 100-110 110-120 120-130 合计
工人数 3 7
13 5 2

xi fi
i 1 K
fi
i 1
样本均值
k
x
x1 f1 x2 f2 xk fk f1 f2 fk

xi fi
i 1 n
fi
i 1
单变量分组
K
x
x1 f1 x2 f2 xK fK f1 f2 fK

xi fi
1630 2000
• 位 置: 1 2 3 4 5 6 7 8
9
QL位 置

91 4

2.5
QU位 置

3(9 1) 4

7.5
780 850
1500 1630
QL 2 815 QU
2
1565
四分位数的求法
(10个数据的算例)
• 【例】:10个家庭的人均月收入数据
• 排 序: 660 750 780 850 960 1080 1250 1500
中必有一个数据则不能自由取值(举例)
2.样本方差用自由度去除,其原因可从多方 面解释,从实际应用角度看,在抽样估计
中,当用样本方差去估计总体方差σ2时, 它是σ2的无偏估计量
某市 100 户家庭的月收入资料如下:
月收入(元)
组中值
户数
600 以下
500
5
600~800
700
15
800~1000
900
(一)方差与标准差的概念 1. 离散程度的测度值之一
x = 8.3
2. 最常用的测度值 3. 反映了数据的分布
4 6 8 10 12
4. 反映了各变量值与均值的平均差异
5. 根据总体数据计算的,称为总体方差或标准 差;根据样本数据计算的,称为样本方差或 标准差
6. 可用于衡量均值的代表性大小
(二)总体方差和标准差的计算公式
1630 2000
• 位 置: 1 2 3 4 5 6 7 8 9
10
QL位 置
10 1 2.75 4
QU位


3
(1 0 4
1)

8.25
QL 750 0.75 (780 750) 772.5 Q U 1 5 0 0 0 .2 5 (1 6 3 0 1 5 0 0 ) 1 5 3 2 .5
9.22, 9.25, 9.20, 9.30, 9.65, 9.30, 9.27,9.20,9.28,9.25,9.24
经整理得到顺序统计量值为
x(1) , x(2) , x(3) , x(4) , x(5) , x(6) , x(7 ) , x(8) , x(9) , x(10) , x(11)
9.20, 9.20, 9.22, 9.24, 9.25, 9.25, 9.27, 9.28, 9.30, 9.30, 9.65
几何平均:
G 4 104.5% 102.1% 125.5% 101.9% 1 8.0787%
六、切尾均值(trimed mean)
• 1. 去掉大小两端的若干数值后计算中间数 据的均值
• 2. 在电视大奖赛、体育比赛及需要人们进 行综合评价的比赛项目中已得到广泛应用
• 3. 计算公式为
22.0
480
26.5
650
40.0
950
64.0
1000
69.0
离散系数
(例题分析)
x1 536.25(万 元 )
s1 309.19(万 元 )
20
1000~1200
1100
35
1200~1400
1300
15
1400 以上
1500
10
k
x

xi fi
i1 k
fi
104000 1040 100
i1
k
s2

( xi
i 1 k
x)2 fi 1
fi

(500 1040 )2 5 (700
1040 )2 15 (1500 100 1
1、样本方差的计算公式
未分组数据:
n
(xi x)2
s 2 i1 n 1
组距分组数据:
注意:
样本方差用自 由度n-1去除!
2、样本标准差的计算公式
未分组数据:
n
(xi x)2
s i1 n 1
组距分组数据:
k
(M i x)2 fi
s 2 i1 n 1
k
(M i x)2 fi
相关文档
最新文档