第三章平均数、标准差和变异系数

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不同的平均数适合于不同的数据资料。
例如:不同国家、地区、种族之间身高、体重等
的比较;不同品种的家畜、家禽之间生产 性能的比较
3.1.1 算术平均数
集中趋势的度量
一、定义
一组资料中,所有观测值的总和除以其个数所 得到的商,称为算术平均数,简称平均数或均数。
是最常用的一种集中趋势度量指标。
样本的平均数记为 x
3.2.1 标准差的定义
离散趋势的度量
如果一个样本有n个观察值 x1,x2 …… xn,设其
算术平均数为 x ,则该样本的标准差为:
s
2 xi x n 1
标准差考虑了每个变数与平 均数的离差。
每个变数与平均数相差愈小, 样本变异程度愈小,反之,
愈大。
因此,标准差是离散程度的 度量
表性就小。
因此,单靠平均数不能全面、正确地了解样 本。也不能了解平均数作为样本的变异程度。
3.2 范围(全距)
离散趋势的度量
定义:全部变数的最大值与最小值之差 R= Max(x) -Min(x)
范围或全距可以反映变异程度的一部分,但 是不能代表样本内各变数之间的变异程度。
目前,被广泛使用的是以标准差来度量变异 程度。
解:首先排序:1.0,1.2,1.3,1.4, 1.6; (n+1)/2=(5+1)/2=3;Md=X3=1.3
如果增加一头仔猪,出生重为1.8kg,计算中位数: n/2=6/2=3 (n/2)+1=3+1=4; Md=(X3+X4)/2=(1.3+1.4)/2=1.35
3.1.2 中位数(Md)
加权法,即计算时先将各个变数乘上它 的权数,再经过总和,然后除以权数的总 合,称为加权平均数。
二、加权法
集中趋势的度量
计算公式:
x f i xi f
i
xi = 变数值 fi =变数值xi出现的频数
二、加权法
集中趋势的度量
例:一个有1000个个体的群体,等位基因 A 的 频率为0.6,另一个400个个体的群体, 等位基因 A 的频率为0.3,这两个群体的混 合在一起,整个混合群体的等位基因 A 的 频率为:
三、方差和标准差的计算公式
离散趋势的度量
1. 直接法
s
xx 2
Xi2

Xi
n
2
n 1
n 1
2. 加权法
f (x x)2 fx 2 ( fx)2 / f
S

f 1
f 1
3.2.6 标准差的性质
标准差的大小,受资料中每个观测值的 影响,如观测值间变异大,求得的标准 差也大,反之则小。 在计算标准差时,在各观测值加上或减 去一个常数,其数值不变。
复习
连续性资料分组方法 集中趋势(平均数)有哪几种表示 方式? 算术平均数的性质
2.2.3 百分位数(百分位点)
指将一组 n 个数据由小到大排列,如果 小于 某数值的数据个数为全体数据个数的x%, 则称该数为第 x 百分位数或 x% 分位数。
25%分位数或下四分位数:0.25n个数的后一个数。 50%分位数或中位数:0. 5n个数的后一个数。 75%分位数或上四分位数:0.75n个数的后一个数。
3.2.5 自由度:
离散趋势的度量
例如:有3个变数,平均数等于5。
问着三个变数可能是多少? (4、5、6)(2、4、9)(3、5、7)……
他们的共同特点:前两个数可以自由选择,为了使 平均数等于5,第三个数不用选就确定了。这时(3 -1)=2就是所谓自由度。
自由度: 消除限制性因数后,所剩余的独立变数的 个数,用df表示。
◈ 进一步观察各个变数,二者变异程度并不相同。 甲:最小为4,最大为22;乙:最小为8,最大为14
甲的变异程度大于乙 甲的平均数的代表性小于乙的平均数 所以,应该测定其变异程度
3.2标准差
离散趋势的度量
1.如果各个变数相同或者变异程度比较小,则平
均数能够代表整个样本。
2.如果各个变数的变异程度比较大,则平均数的代
3.2标准差
离散趋势的度量
即使两个样本的平均数相同,但是样本内变 数的变异程度不一定相同。
产仔数
总和 xi
甲 8,4,16,12,22,17,6,14,6,5 110 11
乙 14,8,11,9,11,12,10,14,13,8 110 11
从以上统计结果可知:
离散趋势的度量
◈ 甲、乙两品种的平均产仔数相同,都是11头。 从平均数来看,两个品种没有差异。
0.61000 0.3 400 0.5131 1000 400
二、加权法
集中趋势的度量
例:200头大白猪的仔猪的一月窝重的资料
组别
81624324048566472808896104112-
总合
组中值
12 20 28 36 44 52 60 68 76 84 92 100 108 116
12 1 (100 66) 35
12.09
3.1.3 几何平均数
集中趋势的度量
定义:n个非负数的乘积开n次方的根称为几何平均 数,用 G 表示。
G n X1 X2 Xn n Xi
3.1.3 几何平均数
集中趋势的度量
为了计算方便,各变数先取对数,再相加 除以n,即为logG,再求其反对数,即为G值。
3.1.5 调和平均数
集中趋势的度量
例:用某药物救治12只中毒的小鼠,它们的存活天 数记录如下:8、8、8、10、10、7、13、10、9、 14,另有两只一直未死亡,求平均存活天数。
H 12 / (1/ 8 1/ 8 1/ 9 1/ 1/ ) 11.14
由于数据极端右偏态,用调和平均 数较为合理。
3、中位数
集中趋势的度量
适用于非参数检验,如卡方检验。
4、几何平均数和调和平均数
适用于右偏态分布。
偏态:是指大部分数值落在平均数的哪一边,若 分配较多的集中在低数值的方面视为正偏态,或 称为右偏态
3.2标准差
离散趋势的度量
平均数的代表程度与样本的变异程度有关
一个样本内有很多的变数,用平均数作为样本 的代表,其代表程度决定于样本内各个变数的变异 程度。
3.1.2 中位数(Md)
集中趋势的度量
定义:将n个观察值从小到大依次排队,位于中间 的那个观察值称为中位数。
当n为奇数时,M d X n1
2
X n X n 1
当n为偶数时,M d
2
2
2
n:观察值个数
3.1.2 中位数(Md)
集中Байду номын сангаас势的度量
例:2.5 现有一窝仔猪的出生重资料为:1.4,1.0, 1.3,1.2,1.6kg,试求其中位数。
离散趋势的度量 3.2.2 标准差公式的来源
1.离均差=(x- x ) 2.离均差之和= ∑(x- x)=0
虽然离均差可以衡量变 异程度,但是离均差之 和为0,所以不是理想的 指标
3.离均差平方和 SS= ∑(x- x )2
为了合理地计算平均差异,用平方和的办法来消除离均差的 正负号,离均差平方相加,得到平方和(SS),但是由于不 同样本的观察值个数不同,所以离均差平方和也不是理想指 标
x 12 4 20 6 ......116 3 4 6 ...... 3
13120 65.6(kg) 200
三、算术平均数的性质
集中趋势的度量
(一)离均差之和为零: 一个样本观察值与平均数之差简称离均差。
∑(xi- x)
=(x1- x)+(x2- x )+……+(xn-x )
1
25
集中趋势的度量 一、各个集中趋势度量指标之间的关系
1.在完全对称分布情况下,算数平均数、中位数 和众数三者相等。
2、算术平均数
集中趋势的度量
适用于正态分布资料。
家畜的大多数数量性状都是正态分布,因此算 术平均数是最常用的,也是最重要的。

但是当分布不对称时,呈偏态时,用算术平均 数则难以表示资料的集中趋势。
总体平均数记为
3.5.1 算术平均数 计算公式:
集中趋势的度量
x x x x

1 n

1
x
2
n

xi
n
x :第i个观察值或变数 i
n:观察值或变数的个数
∑:求和符号(sigma)
Σ的性质
一、直接法
集中趋势的度量
例2.1:5头猪的体重分别为70、72、80、83、 88kg,问 5头猪的算术平均数是多少?
x 2
n
x 2 n
总体是未知的,用样本标准 差估计和推断总体标准差
3.2.5 自由度: df,n-1
2
s2 x x n 1
如果一个样本含有n个变数,从理论上讲,n个 变数都同样用以计算标准差,n个变数与平均数相 减有n个离均差。
表面上虽有n个比较,但实质上仅有n-1个可以 自由变动,最后一个离均差受到离均差之和这个条 件的限制,所以不能自由。
第三章 平均数、标准差 与变异系数
3.1 平均数:
在数理统计中,平均数是用来反映一组变数 的集中趋势,即变数分布的中心位置。常用的度 量指标有:
1. 算术平均数 2. 中位数(M) 4. 几何平均数(Mg) 3. 众数(Mo) 5. 调和平均数(H)
平均数的意义
集中趋势的度量
作为一个资料的代表,指资料中各变数集中 较多的中心位置,用来与另一资料相比较。
一组的组中值。
!!有的资料可出现多个众数,即多个数具有相同
的最高频数;有的资料没有众数,即所有数出现的频 数都相同。
3.1.5 调和平均数
集中趋势的度量
定义:各观察值倒数的算术平均数的倒数 简单调和平均数
H
1
n
1
n

1 x1

1 x2

1 xn

1 Xi
适用于极端右偏态
G 3 23 4.5 3 27 3
◈ 1998年的奶牛头数为: 100×2×3×4.5=2700头 或者100×33=2700头
3.1.4 众数
集中趋势的度量
定义:在资料中某一个变数出现次数最多,就称 之为众数。
1. 离散性资料:出现频数最多的数。 2. 连续性资料:频数分布表中,频数出现最多的
G lg 1(lg G)

lg 1
1 n
lg
X1
lg
X2
lg
Xn
几何平均数用于以百分率、比例表示的数据资
料,如:增长率、利率、药物效价、抗体滴度等。
能够消弱数据中个别过分偏大值的影响。
3.1.3 几何平均数
集中趋势的度量
例:某奶牛场在1995年有100头奶牛,已知在1996、 1997、1998年的奶牛头数分别为前一年的2,3和 4.5倍,求其年平均增加率。
x

1 5
70

72

80

83

88

78.6(kg)
从计算结果看5头猪都距78.6(kg)不远, 所以平均数是数量资料的代表值。
上述计算方法称为直接法,适用于样本小, 即资料内包含变数个数不多,一般在30个变数以 下未经分组的资料。
二、加权法
集中趋势的度量
1. 分类资料:每个类别在某个指标上取相同的值。 2. 计数资料和连续性资料:频率分布表
当每个观测值乘以或除以一个常数a,则 所得的标准差是原来标准差的a倍或1/a
频数(f)
4 6 9 10 13 17 26 35 28 21 16 8 4 3
200
fx
48 120 252 360 572 884 1560 2380 2128 1764 1472 800 432 348
13120
二、加权法
集中趋势的度量
x f i xi f
i
xi=组中值 fi=组中值出现的频数
= x1+x2+……+xn+n• x
= ∑xi- n‧∑xi/n =0
三、算术平均数的性质
集中趋势的度量
(二)离均差平方和最小:
一个样本的各个观察值与平均数之差的平方和 比各个观察值与任意其他数之差的平方和小。
xi x 2 xi A2
所以:平均数是与各个观察值最接近的数值。 所以:平均数代表这个样本的集中趋势。
离散趋势的度量 3.2.3 样本方差和样本标准差
2
s2 x x n 1
将离均差平方和求平均数,称为样 本方差,目的是消除观察值个数的 影响
s x x2 n 1
样本方差开方,目的是使变异还原, 即标准差。
离散趋势的度量 3.2.4 总体方差和样本标准差
2
集中趋势的度量
对于频数分布的资料,公式如下:
Md
Lmd

i fm
(n C) 2
Lmd:中位数所在组的组下限; fm:中位数所在组的频数; C:从第一组到中位数所在组前一组的累计频数 n:样本含量; i:组距;
例:表2-5
3.1.2 中位数(Md)
集中趋势的度量
in
Md
Lmd

fm
( C) 2
相关文档
最新文档