第三章平均数、标准差和变异系数

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

不同的平均数适合于不同的数据资料。
例如：不同国家、地区、种族之间身高、体重等
的比较；不同品种的家畜、家禽之间生产性能的比较
3.1.1 算术平均数
集中趋势的度量
一、定义
一组资料中，所有观测值的总和除以其个数所得到的商，称为算术平均数，简称平均数或均数。
是最常用的一种集中趋势度量指标。
样本的平均数记为 x
3.2.1 标准差的定义
离散趋势的度量
如果一个样本有n个观察值 x1，x2 …… xn，设其
算术平均数为 x ，则该样本的标准差为：
s
2 xi x n 1
标准差考虑了每个变数与平均数的离差。
每个变数与平均数相差愈小，样本变异程度愈小，反之，
愈大。
因此，标准差是离散程度的度量
表性就小。
因此，单靠平均数不能全面、正确地了解样本。也不能了解平均数作为样本的变异程度。
3.2 范围（全距）
离散趋势的度量
定义：全部变数的最大值与最小值之差 R= Max(x) -Min(x)
范围或全距可以反映变异程度的一部分，但是不能代表样本内各变数之间的变异程度。
目前，被广泛使用的是以标准差来度量变异程度。
解：首先排序：1.0，1.2，1.3，1.4， 1.6； (n+1)/2=(5+1)/2=3；Md=X3=1.3
如果增加一头仔猪，出生重为1.8kg，计算中位数： n/2=6/2=3 (n/2)+1=3+1=4； Md=(X3+X4)/2=(1.3+1.4)/2=1.35
3.1.2 中位数（Md）
加权法，即计算时先将各个变数乘上它的权数，再经过总和，然后除以权数的总合，称为加权平均数。
二、加权法
集中趋势的度量
计算公式：
x f i xi f
i
xi = 变数值 fi =变数值xi出现的频数
二、加权法
集中趋势的度量
例：一个有1000个个体的群体，等位基因 A 的频率为0.6，另一个400个个体的群体，等位基因 A 的频率为0.3，这两个群体的混合在一起，整个混合群体的等位基因 A 的频率为：
三、方差和标准差的计算公式
离散趋势的度量
1. 直接法
s
xx 2
Xi2

Xi
n
2
n 1
n 1
2. 加权法
f (x x)2 fx 2 ( fx)2 / f
S

f 1
f 1
3.2.6 标准差的性质
标准差的大小，受资料中每个观测值的影响，如观测值间变异大，求得的标准差也大，反之则小。在计算标准差时，在各观测值加上或减去一个常数，其数值不变。
复习
连续性资料分组方法集中趋势（平均数）有哪几种表示方式？算术平均数的性质
2.2.3 百分位数（百分位点）
指将一组 n 个数据由小到大排列，如果小于某数值的数据个数为全体数据个数的x%，则称该数为第 x 百分位数或 x% 分位数。
25%分位数或下四分位数：0.25n个数的后一个数。 50%分位数或中位数：0. 5n个数的后一个数。 75%分位数或上四分位数：0.75n个数的后一个数。
3.2.5 自由度：
离散趋势的度量
例如：有3个变数,平均数等于5。
问着三个变数可能是多少？（4、5、6）（2、4、9）（3、5、7）……
他们的共同特点：前两个数可以自由选择，为了使平均数等于5，第三个数不用选就确定了。这时（3 －1）＝2就是所谓自由度。
自由度：消除限制性因数后，所剩余的独立变数的个数，用df表示。
◈ 进一步观察各个变数，二者变异程度并不相同。甲：最小为4，最大为22；乙：最小为8，最大为14
甲的变异程度大于乙甲的平均数的代表性小于乙的平均数所以，应该测定其变异程度
3.2标准差
离散趋势的度量
1.如果各个变数相同或者变异程度比较小，则平
均数能够代表整个样本。
2.如果各个变数的变异程度比较大，则平均数的代
3.2标准差
离散趋势的度量
即使两个样本的平均数相同，但是样本内变数的变异程度不一定相同。
产仔数
总和 xi
甲 8，4，16，12，22，17，6，14，6，5 110 11
乙 14，8，11，9，11，12，10，14，13，8 110 11
从以上统计结果可知：
离散趋势的度量
◈ 甲、乙两品种的平均产仔数相同，都是11头。从平均数来看，两个品种没有差异。
0.61000 0.3 400 0.5131 1000 400
二、加权法
集中趋势的度量
例：200头大白猪的仔猪的一月窝重的资料
组别
81624324048566472808896104112-
总合
组中值
12 20 28 36 44 52 60 68 76 84 92 100 108 116
12 1 (100 66) 35
12.09
3.1.3 几何平均数
集中趋势的度量
定义：n个非负数的乘积开n次方的根称为几何平均数，用 G 表示。
G n X1 X2 Xn n Xi
3.1.3 几何平均数
集中趋势的度量
为了计算方便，各变数先取对数，再相加除以n，即为logG，再求其反对数，即为G值。
3.1.5 调和平均数
集中趋势的度量
例：用某药物救治12只中毒的小鼠，它们的存活天数记录如下：8、8、8、10、10、7、13、10、9、 14，另有两只一直未死亡，求平均存活天数。
H 12 / (1/ 8 1/ 8 1/ 9 1/ 1/ ) 11.14
由于数据极端右偏态，用调和平均数较为合理。
3、中位数
集中趋势的度量
适用于非参数检验，如卡方检验。
4、几何平均数和调和平均数
适用于右偏态分布。
偏态：是指大部分数值落在平均数的哪一边，若分配较多的集中在低数值的方面视为正偏态，或称为右偏态
3.2标准差
离散趋势的度量
平均数的代表程度与样本的变异程度有关
一个样本内有很多的变数，用平均数作为样本的代表，其代表程度决定于样本内各个变数的变异程度。
3.1.2 中位数（Md）
集中趋势的度量
定义：将n个观察值从小到大依次排队，位于中间的那个观察值称为中位数。
当n为奇数时，M d X n1
2
X n X n 1
当n为偶数时，M d
2
2
2
n：观察值个数
3.1.2 中位数（Md）
集中Байду номын сангаас势的度量
例：2.5 现有一窝仔猪的出生重资料为：1.4，1.0， 1.3，1.2，1.6kg，试求其中位数。
离散趋势的度量 3.2.2 标准差公式的来源
1.离均差=（x- x ） 2.离均差之和= ∑（x- x）=0
虽然离均差可以衡量变异程度，但是离均差之和为0，所以不是理想的指标
3.离均差平方和 SS= ∑(x- x )2
为了合理地计算平均差异，用平方和的办法来消除离均差的正负号，离均差平方相加，得到平方和（SS），但是由于不同样本的观察值个数不同，所以离均差平方和也不是理想指标
x 12 4 20 6 ......116 3 4 6 ...... 3
13120 65.6(kg) 200
三、算术平均数的性质
集中趋势的度量
（一）离均差之和为零：一个样本观察值与平均数之差简称离均差。
∑（xi- x）
=（x1- x）+(x2- x )+……+(xn-x )
1
25
集中趋势的度量一、各个集中趋势度量指标之间的关系
1.在完全对称分布情况下，算数平均数、中位数和众数三者相等。
2、算术平均数
集中趋势的度量
适用于正态分布资料。
家畜的大多数数量性状都是正态分布，因此算术平均数是最常用的，也是最重要的。

但是当分布不对称时，呈偏态时，用算术平均数则难以表示资料的集中趋势。
总体平均数记为
3.5.1 算术平均数计算公式：
集中趋势的度量
x x x x

1 n

1
x
2
n

xi
n
x ：第i个观察值或变数 i
n：观察值或变数的个数
∑：求和符号（sigma）
Σ的性质
一、直接法
集中趋势的度量
例2.1：5头猪的体重分别为70、72、80、83、 88kg，问 5头猪的算术平均数是多少？
x 2
n
x 2 n
总体是未知的，用样本标准差估计和推断总体标准差
3.2.5 自由度： df，n-1
2
s2 x x n 1
如果一个样本含有n个变数，从理论上讲，n个变数都同样用以计算标准差，n个变数与平均数相减有n个离均差。
表面上虽有n个比较，但实质上仅有n-1个可以自由变动，最后一个离均差受到离均差之和这个条件的限制，所以不能自由。
第三章平均数、标准差与变异系数
3.1 平均数：
在数理统计中，平均数是用来反映一组变数的集中趋势，即变数分布的中心位置。常用的度量指标有：
1. 算术平均数 2. 中位数（M） 4. 几何平均数（Mg） 3. 众数（Mo） 5. 调和平均数（H）
平均数的意义
集中趋势的度量
作为一个资料的代表，指资料中各变数集中较多的中心位置，用来与另一资料相比较。
一组的组中值。
！！有的资料可出现多个众数，即多个数具有相同
的最高频数；有的资料没有众数，即所有数出现的频数都相同。
3.1.5 调和平均数
集中趋势的度量
定义：各观察值倒数的算术平均数的倒数简单调和平均数
H
1
n
1
n

1 x1

1 x2

1 xn

1 Xi
适用于极端右偏态
G 3 23 4.5 3 27 3
◈ 1998年的奶牛头数为： 100×2×3×4.5＝2700头或者100×33＝2700头
3.1.4 众数
集中趋势的度量
定义：在资料中某一个变数出现次数最多，就称之为众数。
1. 离散性资料：出现频数最多的数。 2. 连续性资料：频数分布表中，频数出现最多的
G lg 1(lg G)

lg 1
1 n
lg
X1
lg
X2
lg
Xn
几何平均数用于以百分率、比例表示的数据资
料，如：增长率、利率、药物效价、抗体滴度等。
能够消弱数据中个别过分偏大值的影响。
3.1.3 几何平均数
集中趋势的度量
例：某奶牛场在1995年有100头奶牛，已知在1996、 1997、1998年的奶牛头数分别为前一年的2，3和 4.5倍，求其年平均增加率。
x

1 5
70

72

80

83

88

78.6(kg)
从计算结果看5头猪都距78.6（kg）不远，所以平均数是数量资料的代表值。
上述计算方法称为直接法，适用于样本小，即资料内包含变数个数不多，一般在30个变数以下未经分组的资料。
二、加权法
集中趋势的度量
1. 分类资料：每个类别在某个指标上取相同的值。 2. 计数资料和连续性资料：频率分布表
当每个观测值乘以或除以一个常数a，则所得的标准差是原来标准差的a倍或1/a
频数（f）
4 6 9 10 13 17 26 35 28 21 16 8 4 3
200
fx
48 120 252 360 572 884 1560 2380 2128 1764 1472 800 432 348
13120
二、加权法
集中趋势的度量
x f i xi f
i
xi=组中值 fi=组中值出现的频数
= x1+x2+……+xn+n• x
= ∑xi- n‧∑xi/n =0
三、算术平均数的性质
集中趋势的度量
（二）离均差平方和最小：
一个样本的各个观察值与平均数之差的平方和比各个观察值与任意其他数之差的平方和小。
xi x 2 xi A2
所以：平均数是与各个观察值最接近的数值。所以：平均数代表这个样本的集中趋势。
离散趋势的度量 3.2.3 样本方差和样本标准差
2
s2 x x n 1
将离均差平方和求平均数，称为样本方差，目的是消除观察值个数的影响
s x x2 n 1
样本方差开方，目的是使变异还原，即标准差。
离散趋势的度量 3.2.4 总体方差和样本标准差
2
集中趋势的度量
对于频数分布的资料，公式如下：
Md
Lmd

i fm
(n C) 2
Lmd：中位数所在组的组下限； fm：中位数所在组的频数； C：从第一组到中位数所在组前一组的累计频数 n：样本含量； i：组距；
例：表2－5
3.1.2 中位数（Md）
集中趋势的度量
in
Md
Lmd

fm
( C) 2