均数的抽样误差

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1）大样本可信区间估计--正态近似法：
当样本含量较大时，例如n>100，t分布近似正态分布，此时可用标准正态分布（u分布）代替t分布作为可信区间的
近似计算。
总体均数95％可信区间：
X 1.96SX
总体均数99％可信区间
X 2.58SX
16
例题：
•
随机抽查120名21岁女大学生体重，得X＝ 48.83kg，Sx＝0.32kg，估计21岁女大学生体重均数的95％可信区间。
ｔ分布是英国统计学家W.S.Gosset 于1909年以 “Student”为笔名在其发表的论文中首次提出来的，故ｔ分布又称 Student t分布（英国生物统计杂志发表）。
ｔ分布图形的特征：
f(x)
0.40
ν ─>∞ (标准正态曲线)
ν =5 ν =1
0.30
0.20
0.10
0.00
-5.0
-4.0
X1.96Sx＝48.831.96×0.32 ＝48.20～49.46(kg)
21岁女大学生体重平均值的95%可信区间为： (48.20---49.46)kg
17
x
2）小样本可信区间估计--t分布法：总体均数95％可信区间估计计算公式：
X t 0.05， SX
总体均数99％可信区间估计计算公式：
可能性可能性可能性
24
二、t 检验
统计分析
统计描述
是用统计指标、统计表和统计图描述资料的分析规律及其数量特征。
统计推断
包括“总体参数估计”和“ 假设检验”两个内容。
（一）假设检验的概念与意义
假设检验（hypothesis test)也称显著性检验（significance test)。由于存在抽样误差，从总体
x ±1.96 S （标准误）估计总体均数95％的可信区间。 X
8
ｔ分布（三）
前面介绍：从总体中进行抽样，如果样本含量较大时，其均数的抽样分布将趋于正态分布[z(u)分布]，进行u变换公式为：[U= ( X- X) /s]，求得u的估计值后再查表可求面积。但当样本含量较少时，对正态变量 X 采取的就不是 z(u)变换，而是t变换，进行t变换公式为：
表。因t分布是以0为中心的对称分布，故只列
正值，如算得t值为负值，可取其绝对值查表。
表中左侧标目为自由度ν，右侧标目为概率P，表中数字为不同ν和P值下相应的ｔ界值，记做tα,ν 。
（四）总体均数的区间估计
医学研究的一个目的就是对未知的总体参数进行估计。由样本信息估计总体参数称为参数估计。
参数估计
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
图2-2 不同自由度下t分布图
标准正态分布曲线下面积为95％的双侧界值是？
2.5％
2.5％
-1.96
0
1.96
11
如果双侧界值是1：面积为68.27%；如果为2.58？
为了方便使用，统计学家根据自由度（v）
大小与t分布曲线下面积的关系，推算出t界值
中随机抽样所得的样本均数与总体均数之间存在误差，
从同一总体中抽取的样本均数之间也有误差。 __ __ __
x
x1 x 2
的原因？
①完全由抽样误差引起，比较的均数来源于同一总体； ②来自于不同的总体，均数之间存在本质差别。
μ
＝
μ0
X
①差异完全由抽样误差引起
27
μ
≠
μ0
X
②来自于不同的总体
28
点估计区间估计
1.点估计
点估计是直接用样本统计量作为对应的总体参数的估计值。
例如，某市1982年所有7岁男童身高是一个总体，但总体参数(平均身高)未知，为此，随机抽取该市1982年110名7岁男童，
测量他们的平均身高为123.62(cm);标准差为4.74(cm),这两个均
为样本的统计量。如果你用这个样本平均数和标准差作为总体均数和标准差的估计，就可以认为该市所有7岁男孩的平均身高为123.62(cm); 标准差为4.74(cm)，这就是点估计。
SX
S 11.9 2.38 （g/L) n 25
=n1=251=24, 取双尾0.05，查附表2，t值表得：
t0.05 2,24 2.064
123.7 2.064 2.38， 123.7 2.064 2.38
结论：婴儿血红蛋白平均值95%的可信区间为 (118.79---128.61)g/L。
X t 0.01， SX
例题：
x
随机抽取某地25名正常成年男子，测得该样本的脉搏数为 73.6次/分，标准差为6.5次/分，求该地正常男子脉搏总体均数 95%的可信区间。本例自由度：ν-1=25-1=24； t0.05,24，经查表得t0.05,24 = 2.064 则
X + t0.05,24 × SX =73.6 + 2.064×6.5/ 25 = 76.3次/分
1）误差大小的指标，标准误越大
则说明样本均数的代表性越差！
举例说明：例如：某大学有20000名同质学生，空腹血糖
值(mmol/L）均值为4.655（μ＝4.655）。如果我们对这些学生作132次抽样调查，每次抽100个学生，平均空腹血糖值X1、X2、…。
为10的样本，每个样本均按 x t0.05,9S x 建立可信区间，则在100个可信区间中，理论上有95个包含总体均数，有5个不包括总体均数。

（2）可信区间的两个要素：
第一个要素是“准确性”，又称可靠性，反映为可信度1- 的
大小，显然可信度越接近1越好。准确性常根据研究目的和实际问题的背景由研究者自行决定，常用的有95%和99%。第二个要素是“精确性”，常用可信区间的长度(CL,CU)来表示，当然长度越小越好。精确性与变量的变异度大小、样本例数和1- 的取值
例题：大规模调查表明健康成年男子血清总胆固醇的均数为4.6mmol/L，今随机调查某单位食堂成年男性炊事员25名，测得血清总胆固醇均数为5.1mmol/L，标准差为0.88mmol/L，试问该单位食堂炊事员血清总胆固醇的均数与健康男子血清总胆固醇均数有无差别？条件：本例中已有一个总体均值（ 0 = 4.6mmol/L）, 样本均值和标准差分别为5.1mmol/L和0.88mmol/L，现在
有关。当1- 的取值确定后，可信区间的长度受限于个体变异和样本含
量，个体变异越大区间越宽，样本越小区间越宽，反之区间越窄。
例:某年级学生总人数800人，通过计算其中50人的医学统计学考试成绩来估计其总体均数。
抽样n＝50， X ＝75.00。估计μ＝？。
①μ＝75.00 ②μ＝70.00～80.00 ③μ＝65.00～85.00
第二节：均数的抽样误差和t检验
1
一、抽样误差与标准误
（一）抽样误差的概念
由于抽样的原因所造成的样本指标与总体指标之间的差异就叫抽样误差。
例：某地成年男子血红蛋白的总体均数（μ）为138.2g/L,随机抽取
了400名男子算得平均血红蛋白含量为X =134.8g/L,如果用这个样本均数
作为该地区“成年男子血红蛋白的总体均数（μ）的估计值，它的抽样误差是多少？
确定检验水准：
确定检验水准（水平），检验水准常用α表示，习惯上确定为 α= 0.05。 α＝0.05是指发生第一类错误的概率，即H0实际成立，但拒绝H0的概率为0.05。
第一类错误出现的概率与样本含量大小与试验所定的检验水准有
关，即假设检验中假阳性的概率，其相当于显著性检验中的α值。
显著性水准一般取0.05或0.01，表示假阳性出现的可能性在5%或 1%的水平。α愈小则所需样本愈大。
思考标准误和标准差的区别？
①标准差描述样本中个体值间的变异；标准误描述样本均数的抽样误差。
②当样本量足够大时，标准差趋向稳定；而标准误则随样
本量的增大而减小，甚至趋于零。 ③标准差可用于制定参考正常值的范围；标准误用于估计总体均数范围和不同组之间的参数比较。
x ±1.96S（标准差）
估计95％的正常值范围；
X - t0.05,24 × SX = 73.6 - 2.064×6.5/ 25 = 70.9次/分
即该地区正常男子脉搏总体均数的95%可信区间为： 70.9～76.3（次/分）
课堂练习：现测得某地25名1岁婴儿血红蛋白的平均
值为123.7（g/L）, S=11.9g/L求其95%可信区间。
本例n=25, S=11.9g/L, 按公式算得其标准误为：
可信区间意义：
用样本均数估计总体均数，总体均
数在该范围的可能性（概率）是95％或
99％。
可信区间通常有两个可信限构成，小的称“下可
信限”(或称下限)，记为CL；大的称“上可信限”（或
称上限）,记为CU。严格地讲，可信区间并不包括上下限的值，即可信区间（CL，CU）是一个“开区间”。
21
如果
μ＝4.655
μ
这些均数不相等，但其分布有一定规律：大多数集中在总体均数(4.655)附近，离总体均数越远，样本均数的个数越少。
5
如果把132（N）个样本均数看着132
（N）个“变量值”，也可求其标准差，
即样本均数的标准差，它说明样本均数间
的变异程度，即样本均数的抽样误差。
样本均数的标准差称为标准误（standard error),用σX表示。标准误越大，样本均数的抽样误差越大。标准误计算公式如下：
6
标准误计算公式： s __ X x n
s n
计算总体均数标准误公式计算样本均数标准误公式由于总体标准差(σ)往往不可知，所以一般用样本标
准差(s)代替，得总体标准误的估计值…样本标准误 S X 。
计算上述资料的标准误：如果计算的标准差为0.401，如何计算标准误？
s 0.401 s_ 0.0349 (m m ol/ L) x n 132
样本的统计指标（统计量）与总体的统计指标（统计量）的差别称抽样误差。
抽样误差有两种表现形式：
1）样本统计量与总体参数之间的差异（如样本均数与总体均数差异）； 2）样本统计量之间的差异（如两次抽样得到的两个样本均数也不会相等）。这均是由于总体中每个个体存在变异引起的！
抽样误差产生的两个基本条件：
2.区间估计
指按预先给定的概率，计算出一个区间，使它能够包含未知的总体均数。事先给定的概率（1- α）称为可信度，通
常取1-α=0.95。
可信度又称置信度、置信率。区间估计既是按一定的概率或可信度（1- α）用一个区间估计总体参数所在范围，这个范围称可信度1-α的可信区间,又称置信区间，它的理论基础是抽样分布规律。
样本均数与总体均值不同。
两均数不相等的原因有两种可能： ①由于抽样误差所致； ②样本来自另一总体（由于环境条件的影响，炊事人员血清总胆固醇确实高于一般）。这就需要通过建立“假设检验”来进行判断！
假设检验的目的：
假设检验的目的就是分辨两个样本是否属于两个不同的总体，并根据检验假设成立的概率对总体作出适当的结论。与此类似，假设检验也包括分辨一个样本是否属于某一特定总体、三个及三个以上的样本是
Ｎ=? Ｎ=132
n= ?
n= 100
X1
X X X X
n１=100，Ｘ１＝4.623 n２=100，Ｘ２＝4.412 样本均数也呈正态分布！ n =100，Ｘ＝4.661 ３３ n４=100，Ｘ４＝5.022 n５=100，Ｘ５＝4.682 n６=100，Ｘ６＝4.089 n７=100，Ｘ７＝4.193 … X2 X3 X4 … nN=100，ＸN＝4.754 __ __ __ __ 单位:(mmol/L) 1 2 3 4
3）关于区间估计的几点说明：
（1）可信区间的含义
可信度为1- 的可信区间涵义是：如果重复若干次样本含
量的相同抽样，每个样本均按同一方法构建100（1区间，则在这些可信区间中，理论上有100（1体参数，还有100 × 个未估计到总体均数。如果
)个包含了总
）%可信
=
0.05，从同一已知的总体中重复抽取100个样本含量
否属于相同的总体等。
操作程序—步骤：
1）建立假设和确定检验水准建立假设：统计学中的假设有两方面的内容：
一是无效假设(零假设)，符号记为 H0：=0 即误差是因抽样引起二是备择假设（对立假设），符号记为 H1： 0 即两者确有差别后者的意义在于备选！在这里备选其实包含了：> 0 或 < 0