第03章抽样误差

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 3 章 抽样误差
3.1 抽样误差的概念
医学科研中通常采用抽样研究的方法,从某总体中随机抽取一个样本来进行研究,而 所得样本统计量与总体参数常不一致,这种由抽样引起的样本统计量与总体参数间的差异 属于抽样误差(sampling error),这在抽样研究中是不可避免的。
例如,假设某地成年男子血红蛋白的总体均数()为 13.76(g/100ml),随机抽查了 360 名男子,算得平均血红蛋白含量 X =13.45(g/100ml),若用此 X 作为该地区成年男子血红 蛋白的总体均数()的一个估计值,则(13.76-13.45)=0.31(g/100ml),此差值属于抽样误差。
P(t≤-2.228)+P(t≥2.228)=0.05 或:P(-2.228<t<2.228)=1-0.05=0.95。
3.5 2 分布
设从正态分布 N(,2)中随机抽取含量为 n 的样本,样本均数和标准差分别为 X 和 s,
且:
2 (n 1)s2 2
(3.4)
则2 值服从自由度为 n-1 的2 分布(2-distribution),是小写希腊字母,读作 chi。可见,
2 分布说明,从正态分布的总体中随机抽样,所得样本的方差 s2 接近于总体方差2 的可能性大,远离总体方差的可能性小。即2 值接近其均数 n-1 的可能性大,远离 n-1 的 可能性小。自由度=10 时,20.025,10=20.48,20.975,10=3.25,说明,从正态分布的总体中 随机样本含量为 n=11 的样本,得到的2 值大于等于 20.48 的概率为 0.025,小于等于 3.25 的概率亦为 0.025。可表示为:
由图可见,样本均数的分布不再显示原来的非正态分布之特征,且随着样本含量 n 的 增大,样本均数的分布很快接近正态分布,并显示均匀分布接近正态分布的速度快于偏态
分布,单峰分布快于双峰分布。因此,根据中心极限定理,即使对于总体的精确分布并不
清楚(这种情况在分析实际资料时较为常见),我们也可以利用这一特性对样本均数的抽样 误差进行各种分析。
3.3 均数的抽样误差及标准误
虽然均数的抽样误差可表现为样本均数与总体均数之差值,但由于总体均数往往是未
知的,故这个差值实际上是得不到的,只能估计。均数的抽样误差也可用多个样本均数间
的离散度表示,但由于对同一问题很少做多次同样的抽样研究,所以这个离散度一般也是
得不到的。那么,如何衡量抽样误差的大小,揭示抽样误差的规律呢?这就要应用数理统
X
分布。
X n
(3.1)
在统计理论上将样本统计量的标准差称为统计量的标准误(standard error,SE),用来衡 量抽样误差的大小。据此,样本均数的标准差 称为均数的标准误,简称标准误。由上
X
式可见,此标准误与个体变异 成正比,与样本含量 n 的平方根成反比。 实际工作中, 往往是未知的,一般可用样本标准差 s 代替 ,求得 X 的估计值 s X 。
0.50000.2041 0.50000.1443 0.50000.0913 0.50000.0577
0.99920.7065 1.00010.5041 1.00260.3154 0.99620.1985
1.00000.7071 1.00000.5000 1.00000.3162 1.00000.2000
下面介绍从正态分布总体中随机抽样,均数和方差的有关抽样分布。
X
总体分布 A n=2
x
n=4
x
n=10
x
n=25
X
总体分布 B n=2
x
n=4
x
n=10
x
n=25
x
X 的抽样分布
图 3.1 中心极限定理图示(a)
x X 的抽样分布
X
总体分布 C n=2
x
n=4
x
n=10
x
n=25
x X 的抽样分布
抽样误差有两种表现形式,其一是:样本统计量与总体参数间的差异,如样本均数与 总体均数间的差异;其二是:不同样本的统计量间的差异,如从同一总体中抽取含量相等 的两样本得到的两个样本均数之间的差异。
从理论上讲,若进行 K 次抽样,所得的 K 个样本统计量(例如 X )则很可能各不相同, 若将这些样本统计量编制成频率分布表或绘制成频率分布图,则可看出样本统计量的抽样 分布是有规律的。
设从正态分布 N(,2)中随机抽取含量为 n 的样本,样本均数和标准差分别为 X 和 s, 且:
t X X
sX
sn
(3.3)
则 t 值服从自由度为 n-1 的 t 分布(t-distribution)。Gosset 于 1908 年在《Biometrika》(生物 统计)杂志第 6 卷第 1 期上发表了题为《The probable error of a mean》(平均数的概率误差) 的论文,当时用的是笔名“Student”,故 t 分布又称 Student t 分布。
1.00690.5486 1.00740.3945 0.99650.2472 0.99970.1560
பைடு நூலகம்
1.00000.5477 1.00000.3873 1.00000.2450 1.00000.1549
表 3.1 中 12 个抽样分布的均数及标准误与理论值均非常接近。实际工作中,常用 X SE 表示某指标的均数及其抽样误差。同时,中心极限定理通过图 3.1 显示:从不同分 布类型的总体抽样时,达到样本均数趋向正态分布所需的最小样本含量之参考数。一般而 言,样本含量大于 10 时,其均数分布趋向正态的效果已经比较明显。
(3) =1 时2 分布实际上是标准正态分布变量之平方。自由度为的2 分布实际上是
个标准正态分布变量之平方和。可表示为:
2=u12+ u22+……+ uv2
(3.6)
其中,ui 为标准正态变量。该性质说明,2 分布具有可加性。 (4) 每一自由度下的2 分布曲线都有其自身分布规律,这个规律可见于2 界值表(附
P(2≤3.25)+P(2≥20.48)=0.05 或:P(3.25<2<20.48)=1-0.05=0.95。
0.5 =1
0.4 f(2)
0.3
0.2
0.1
=2
=3
=4
=5
=6
0.0
0
2
4
6
8
10
12
2
图 3.3 2 分布曲线(自由度为 1~6)
3.6 F 分布
设从两个方差相等的正态分布 N(1,2)和 N(2,2)总体中随机抽取含量分别为 n1 和 n2
表 3),表中横标目为自由度,纵标目为概率 P,表中数据为相应的2 界值,常记为2,。
当自由度确定后,2 与 P 的关系如该表右上角插图所示:图中阴影部分表示大于2,的
尾部面积的百分数,即概率。例如,自由度为 1 时,20.05,1=3.84,表示当 =1,右侧 =0.05 时,2 的界值为 3.84,也即按2 分布规律, =1 时,理论上2≥3.84 的概率为 0.05。
t 分布曲线可用图 3.2 表示。
f(t)
=∞(标准正态曲线)
=5
0.3
=1
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4 t
图 3.2 自由度分别为 1、5、∞时的 t 分布
t 分布有以下的特征: (1) t 分布为一簇单峰分布曲线。 (2) t 分布以 0 为中心,左右对称。 (3) t 分布与自由度有关,自由度越小,t 分布的峰越低,而两侧尾部翘得越高;自 由度逐渐增大时,t 分布逐渐逼近标准正态分布;当自由度为无穷大时,t 分布就是标准正
态分布。 每一自由度下的 t 分布曲线都有其自身分布规律,这个规律可见于 t 界值表(附表 2),
表中横标目为自由度,纵标目为概率 P,表中数据为相应的 t 界值,常记为 t,。 t 分布表明,从正态分布总体中随机抽取的样本,由样本计算的 t 值接近 0 的可能性较
大,远离 0 的可能性较小。t0.05,10=2.228,表明,从正态分布总体中抽取样本含量为 n=11 的样本,则由该样本计算的 t 值大于等于 2.228 的概率为 0.025,小于等于-2.228 的概率亦 为 0.025。可表示为:
2 分布是方差的抽样分布。
统计学家 Karl Pearson 在研究定性资料时指出,可以用2 分布近似描述具有某种属性
的实际频数 Ai 与理论频数 Ti 之间的抽样误差,即:
2
( Ai Ti )2 Ti
(3.5)
并指出,如果样本含量和理论频数均较大(如 n≥40,Ti≥5),或自由度大于 1 时,近似程 度较好。因此,2 分布除用于方差的抽样分布研究外,还可用于样本分布与理论分布的拟
总体 A n=2 n=4 n=10 n=25
总体 B n=2 n=4 n=10 n=25
总体 C n=2 n=4 n=10 n=25
总体 D n=2 n=4 n=10 n=25
表 3.1 4 个总体不同样本含量时 10000 个模拟样本的均数和标准误 与相应理论值的比较
10000 个样本
均数标准误, X SE
3.2 抽样误差产生的条件
抽样误差产生的两个必备条件: (1) 抽样研究。抽样研究是产生抽样误差的必备条件之一。只有对总体中的部分个体 进行研究,才可能导致样本指标与总体指标的不一致,而且在从同一总体进行抽样的研究 中,样本含量越少的研究,理论上抽样误差必然越大。 (2) 个体变异。个体变异是产生抽样误差的另一必备条件。在医学科研领域,许多被 研究对象都存在着变异现象,如血压、疗效、药物反应等。在抽样方法和样本含量不变的 条件下,变异大的研究样本其抽样误差也大,反之则小。 以上是产生抽样误差的必备条件,缺一不可。若进行普查,则被研究对象的个体变异 将不会产生抽样误差;若个体间无变异,当然无需作抽样研究,也无抽样误差可言。
合优度检验(见第 9 章)、率或构成比的比较(见第 7 章),等。
2 分布有以下的特征:
(1) 2 分布为一簇单峰正偏态分布曲线,2 取值范围为 0~∞。=1 时分布最为偏斜。
随的逐渐加大,分布趋于对称。图 3.3 给出了 6 个不同自由度时的2 分布。
(2) 自由度为的2 分布,其均数为,方差为 2。
理论值
均数标准误, X
1.33400.3357 1.33280.2355 1.33220.1493 1.33250.0937
1.33330.3333 1.33330.2357 1.33330.1491 1.33330.0943
0.49650.2042 0.50070.1454 0.50130.0919 0.50020.0576
本节描述了来自不同总体的样本均数之抽样误差和抽样分布规律。事实上,任何一个 样本统计量均有其抽样分布规律,如来自正态分布总体的样本方差服从2 分布;方差之比 服从 F 分布;相关系数作适当变换后近似服从正态分布;率的分布与样本含量 n 和率的大 小有关,在样本含量较小时服从二项分布,在 n 足够大时,近似服从正态分布;等。统计 量的抽样分布规律是进行统计推断的理论基础。
的样本,样本均数和标准差分别为 X 1 、s1 和 X 2 和 s2,且:
F s12
计中的中心极限定理(central limit theorem)了。 中心极限定理的涵义:
(1) 从均数为、标准差为 的正态总体中独立、重复、随机抽取含量为 n 的样本, 样本均数的分布仍为正态分布,其均数为,标准差为 X 。
(2) 即使从非正态总体(均数为、标准差为 )中独立、重复、随机抽取含量为 n 的样 本,只要样本含量足够大(如 n≥50),样本均数也近似服从均数为、标准差为 的正态
X
总体分布 D n=2
x
n=4
x
n=10
x
n=25
x X 的抽样分布
图 3.1 中心极限定理图示(b)
3.4 t 分布
中心极限定理表明,从任何总体中随机抽样,当样本含量较大时,其均数的抽样分布
将趋于正态分布。如果是从正态分布总体中抽样,英国统计学 W.S.Gosset (1908)导出了样 本均数的确切分布。
即:
s s
X
n
(3.2)
因为标准差 s 随样本含量的增加而趋于稳定,故增加样本含量可以降低抽样误差。 为了形象地展示中心极限定理,表 3.1 设计了 4 个非正态分布的总体,其中,总体 A
是偏三角分布,总体 B 是均匀分布,总体 C 是指数分布,总体 D 为双峰分布。分别从各 总体中抽取 10000 个样本含量为 n 的样本,计算每个样本的均数,并根据 10000 个样本均 数绘制频率分布图(图 3.1)。
相关文档
最新文档