生物统计学第四章 抽样分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
差的分布
服从t分布
t n1 n2 2
( X 1 X 2 ) ( 1 2 )
2 (n1 1) s12 (n2 1) s 2 1 1 ( ) (n1 1) (n2 1) n1 n2
自由度为df1+df2=n1+n2-2 其中
2 (n1 1)s12 (n2 1)s2 (n1 1) (n2 1)
1.总体标准差已知
从平均数为μ、标准差为σ的正态总体中,随机、
独立抽取含量为n的样本,有
样本平均数服从正态分布,即:
n 称为“平均数的标准误差”,又称标准误
(standard error of mean)。 注意与“标准差”(standard deviation)区别开来。
当总体服从正态分布N (μ, 2 n)时,样本均值的
.3 .2 .1 0 P(x)
抽样分布
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
= 2.5
σ2 =1.25
x 2.5
x2 0.625
由于正态总体是最常见的总体,故重点介绍正
态总体的几个抽样分布.
第二节
样本平均数的分布
一、从一个正态总体中抽样
生物学中常见的为无限总体,呈正态分布。
2 F 2 2
第四节
二项总体抽样
例如在棉田棉铃为害,根据总体内个体的某
种性状出现与否分为两组,受害株,未受害
株,赋第一组个体变量值x=1 ,第二组个体
变量取值x=0.
假定总体包括N株,受害株频率以p代表,则
总体内受害株理论次数为Np。
二项总体的平均数和方差计算
fx Np p
2.0 2.5
1.5 2.0
2.5 3.0
2.0 2.5
3.0 3.5
2.5 3.0
3.5 4.0
0.2
0. 1 0 1. 1. 2. 2. 3. 3. 4. 0 5 0 5 0 5 0 x
样本均值的抽样分 布
样本均值的分布与总体分布的比较
x 的分布形式与原有总体和样本容量n的大小
有关
总体分布
.3 .2 .1 0
2.总体标准差未知
σ未知,则用样本所得的标准差s代替
σ(或称估计σ),则有
t
x
n
服从自由度为n-1的t 分布。
t
分布也是对称分布,只有自由度这一参数, 随自由度的增加而接近标准正态分布。
t分布的特征数:平均数μt =0
v 标准差 σ t v2
(v即df)
v>30 时接近标准正态分布。(随着v的增加, σt减少,趋近1)
为 s 2 、s 2 的加权平均值 1 2
特别当n1=n2 =n 时,
2 2 (n1 1)s12 (n2 1)s2 s12 s2 (n1 1) (n2 1) 2
第三节
样本方差的分布
一、卡平方分布 从方差为σ2 的正态总体中,随机抽取含量 为n的样本,得样本的s2. 抽取多个样本,则得 到一系列的s2. s2是带有单位的。 标准化s2 , 得到一个随机变量χ2
的正态分布即n→∞时,
将该定理应用到抽样调查:如果抽样总
体的数学期望a和方差σ2是有限的,无论总体 服从什么分布,从中抽取容量为n的样本时,
只要n足够大,其样本平均数的分布就趋于数
学期望为a,方差为σ2 / n的正态分布。
李亚普洛夫中心极限定理
如果一个变量是由大量相互独立的随 机因素影响所造成的,而每一个别因素在
生物统计学
第四章 抽样分布
第一节 抽样分布概述
三种不同性质的分布
1、总体分布:总体频率或概率分布;已知或未知 2、样本分布:一个样本中各观察值的形成的相 对频数(频率)分布,也称经验分布;当样本容 量n逐渐增大时,样本分布逐渐接近总体的分布。
3、抽样分布
抽样分布:从已知的总体中,独立随机地
抽取含量为n的样本,研究所得样本及其统计 量的概率分布。
个正态总体中,抽出含量分别为 n1和n2 的样本,标
准化的样本方差之比称为F,服从F分布。
s Fv1 , v2
2 1
Baidu Nhomakorabea
12
2 2
2 s2
F分布也是由一对自由度 v1 和 v 2 确定的:
v2 F , v2 2 v2 1 2v (v1 v 2 2) , v2 4 2 v1 (v 2 2) (v 2 4)
74 ˆ p 37.04 200
p(1 p) 0.352 0.348 0.4776或47.76%
现从这一总体抽样,以株为单位,用简
单随机抽样,调查200株棉株,获得74株受害, 则观察受害率为
74 ,试问获得这种 ˆ p 37.04 200
抽样平均数与总体真值的差数的概率为多少?
1 2
( X X )
1 2
12
n1
2 2
n2
小结:若两个总体是正态分布总体,
X 1 ~ 1, ),X 2 ~ 2, ) ( (
2 1 2 2
则
X 1 X 2 也服从正态分布:
N[ 1 2)( ( ,
12
n1
2 2
n2
)]
2、总体σi未知但相等时,样本平均数的和或
2
dfs2
2
(n 1) s 2
2
Χ2 的概率密度函数:
其中,k是常数。
f ( 2 ) 分布在第一象限。分布的概率密度
曲线随自由度而变化。随着 df 增加, 近
似于正态分布。
三、两个样本方差比的分布——F分布
2 ( 从平均数和方差分别为 1, 12)和 2, 2) 的两 (
查t分布表,有两尾表和单侧分位数表等。
上述结论是对正态总体而言的,不过实际 上,即使对于非正态总体而言,随着样本容量 的增加(事实上,只要样本足够大,通常要求样 本容量不小于45),即使是从非正态分布的总 体中抽样,样本均值的抽样分布与从正态分布
总体中抽样所得到的结果也近似相同。
中心极限定理(central limit theorem)是概
抽样分布仍然是服从正态分布的,其样本均值的 数学期望仍为 μ ,方差为 2 n ,即样本均值的 方差比原总体的方差要小,而且样本容量n越大, 方差越小。
2 =1.25
= 2.5
X
总体分布
将随机变量
x
标准化:
u
x
n
其中,U~N(0,1),即:U服从于μ=0,σ=1 的正态分布(标准正态分布)。
总影响中所起的作用不很大,则这个变量
服从或近似服从正态分布。
二、 从两个正态总体中抽取样本
1、总体标准差已知,样本平均数的和与差的分 布
( X1 X 2 ) 1 2
(X X )
1 2
12
n1
2 2
n2
这是因为将
X1
X2
看成是独立的随机变量。
同理,
( X X ) 1 2
x
2
n
pq / n , x
pq / n
ˆ ˆ p (1 p ) 如果总体方差未知,则由 s n 来估计总体方差。
2 ˆ p
练习题
棉田盲蝽为害, 棉株分为受害株与未受害株。现
假定调查2000株作为一个总体,受害株为704株,这是
一个二项总体。计算出受害率 p=35.2% 或 0.352
率论中最著名的结果之一。它提出,大量的独立
随机变量之和具有近似于正态的分布 。常见中心 极限定理的表现形式有以下几种。
棣莫佛-拉普拉斯定理 参数为n, p的二项分布以np为均值、
np(1-p)为方差的正态分布为极限。
设μn是n次独立试验中事件A发生的次数,事件A在
每次试验中发生的概率为p,则当n无限大时,频率
μn / n 趋于服从参数为 的正态分布。即:
该定理是辛钦中心极限定理的特例。在抽样调
查中,不论总体服从什么分布,只要n充分大,那 么频率就近似服从正态分布。
辛钦中心极限定理
设随机变量x1x2·· n 相互独立,服从同一分布 x ·
且有有限的数学期望a和方差σ2,则随机变 量 ,在n无限增大时,服从参数为a和
总体分布
N
x
i 1
N
i
N
i
2.5
2
.3 .2
2
(x )
i 1
.1 0
1 2 3 4
N
1.25
现从总体中抽取n=2的简单随机样本,在重复抽样条 件下,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个) 第一个 观察值 1 2 3
第二个观察值
1)样本统计量的概率分布,是一种理论分布在重复
选取容量为n的样本时,由样本统计量(样本均值,
样本方差等)的所有可能取值形成的相对频数分 布 ; 2)样本统计量是样本的函数,依据不同的样本计算 出来的值是不同的,所以样本统计量是随机变量;
3)是进行统计推断的理论基础和依据.
【例】设一个总体,含有4个元素(个体) ,即 总 体 单 位 数 N=4。 4 个 个 体 分 别 为 x1=1, x2=2,x3=3,x4=4 。总体分布、总体的均值 、方差及分布如下
2
N f (x )2 N N Np(1 p) p(1 p) pq N
若从二项总体抽样,样本容量为n,n1表示样
本中具某种性状(如受害株)的个体数;
样本平均数:
(x ) ( n ) x
i 1
n
n
2
X ˆ (或 p x ) n
x p ,
1 1,1 2,1 3,1 2 1,2 2,2 3,2 3 1,3 2,3 3,3 4 1,4 2,4 3,4
4
4,1
4,2
4,3
4,4
计算出各样本的均值,如下表。并给出样 本均值的抽样分布
16个样本的均值( x
第一个 观察值
x
n
)
P(x )
第二个观察值 1 2 3 4
0. 3
1 2
3 4
1.0 1.5