均数的抽样误差
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1)大样本可信区间估计--正态近似法:
当样本含量较大时,例如n>100,t分布近似正态分布, 此时可用标准正态分布(u分布)代替t分布作为可信区间的
近似计算。
总体均数95%可信区间:
X 1.96SX
总体均数99%可信区间
X 2.58SX
16
例题:
•
随机抽查120名21岁女大学生体重,得X= 48.83kg,Sx=0.32kg,估计21岁女大学生体重均 数的95%可信区间。
t分布是英国统计学家W.S.Gosset 于1909年以 “Student”为笔名在其发表的论文中首次提出来的,故 t分布又称 Student t分布(英国生物统计杂志发表)。
t分布图形的特征:
f(x)
0.40
ν ─>∞ (标准正态曲线)
ν =5 ν =1
0.30
0.20
0.10
0.00
-5.0
-4.0
X1.96Sx=48.831.96×0.32 =48.20~49.46(kg)
21岁女大学生体重平均值的95%可信区间为: (48.20---49.46)kg
17
x
2)小样本可信区间估计--t分布法: 总体均数95%可信区间估计计算公式:
X t 0.05, SX
总体均数99%可信区间估计计算公式:
可能性 可能性 可能性
24
二、t 检验
统计分析
统计描述
是用统计指 标、统计表和统 计图描述资料的 分析规律及其数 量特征。
统计推断
包括“总体 参数估计”和“ 假设检验”两个 内容。
(一)假设检验的概念与意义
假设检验(hypothesis test)也称显著性检验 (significance test)。由于存在抽样误差,从总体
x ±1.96 S (标准误) 估计总体均数95%的可信区间。 X
8
t分布 (三)
前面介绍:从总体中进行抽样,如果样本含量较大 时,其均数的抽样分布将趋于正态分布[z(u)分布],进 行u变换公式为:[U= ( X- X) /s],求得u的估计值后再查 表可求面积。 但当样本含量较少时,对正态变量 X 采取的就不是 z(u)变换,而是t变换,进行t变换公式为:
表。因t分布是以0为中心的对称分布,故只列
正值,如算得t值为负值,可取其绝对值查表。
表中左侧标目为自由度ν,右侧标目为概 率P,表中数字为不同ν和P值下相应的t界值, 记做tα,ν 。
(四)总体均数的区间估计
医学研究的一个目的就是对未知的总体参 数进行估计。由样本信息估计总体参数称为参 数估计。
参数估计
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
图2-2 不同自由度下t分布图
标准正态分布曲线下面积为95%的双侧界值是?
2.5%
2.5%
-1.96
0
1.96
11
如果双侧界值是1:面积为68.27%;如果为2.58?
为了方便使用,统计学家根据自由度(v)
大小与t分布曲线下面积的关系,推算出t界值
中随机抽样所得的样本均数与总体均数之间存在误差,
从同一总体中抽取的样本均数之间也有误差。 __ __ __
x
x1 x 2
的原因?
①完全由抽样误差引起,比较的均数来源于同一总体; ②来自于不同的总体,均数之间存在本质差别。
μ
=
μ0
X
①差异完全由抽样误差引起
27
μ
≠
μ0
X
②来自于不同的总体
28
点估计 区间估计
1.点估计
点估计是直接用样本统计量作为对应的 总体参数的估计值。
例如,某市1982年所有7岁男童身高是一个总体,但总体参 数(平均身高)未知,为此,随机抽取该市1982年110名7岁男童,
测量他们的平均身高为123.62(cm);标准差为4.74(cm),这两个均
为样本的统计量。 如果你用这个样本平均数和标准差作为总体均数和标准差 的估计,就可以认为该市所有7岁男孩的平均身高为123.62(cm); 标准差为4.74(cm),这就是点估计。
SX
S 11.9 2.38 (g/L) n 25
=n1=251=24, 取双尾0.05,查附表2,t值表得:
t0.05 2,24 2.064
123.7 2.064 2.38, 123.7 2.064 2.38
结论:婴儿血红蛋白平均值95%的可信区间为 (118.79---128.61)g/L。
X t 0.01, SX
例题:
x
随机抽取某地25名正常成年男子,测得该样本的脉搏数为 73.6次/分,标准差为6.5次/分,求该地正常男子脉搏总体均数 95%的可信区间。 本例自由度:ν-1=25-1=24; t0.05,24,经查表得t0.05,24 = 2.064 则
X + t0.05,24 × SX =73.6 + 2.064×6.5/ 25 = 76.3次/分
1)误差大小的指标,标准误越大
则说明样本均数的代表性越差!
举例说明: 例如:某大学有20000名同质学生,空腹血糖
值(mmol/L)均值为4.655(μ=4.655)。 如果我们对这些学生作132次抽样调查,每次抽100个 学生,平均空腹血糖值X1、X2、…。
为10的样本,每个样本均按 x t0.05,9S x 建立可信区间,则在100个 可信区间中,理论上有95个包含总体均数,有5个不包括总体均数。
(2)可信区间的两个要素:
第一个要素是“准确性”,又称可靠性,反映为可信度1- 的
大小,显然可信度越接近1越好。准确性常根据研究目的和实际问题的 背景由研究者自行决定,常用的有95%和99%。 第二个要素是“精确性”,常用可信区间的长度(CL,CU)来表示,当 然长度越小越好。精确性与变量的变异度大小、样本例数和1- 的取值
例题:大规模调查表明健康成年男子血清总胆固醇的 均数为4.6mmol/L,今随机调查某单位食堂成年男性炊 事员25名,测得血清总胆固醇均数为5.1mmol/L,标准 差为0.88mmol/L,试问该单位食堂炊事员血清总胆固醇 的均数与健康男子血清总胆固醇均数有无差别? 条件:本例中已有一个总体均值( 0 = 4.6mmol/L), 样本均值和标准差分别为5.1mmol/L和0.88mmol/L,现在
有关。当1- 的取值确定后,可信区间的长度受限于个体变异和样本含
量,个体变异越大区间越宽,样本越小区间越宽,反之区间越窄。
例:某年级学生总人数800人,通过计算其中50人 的医学统计学考试成绩来估计其总体均数。
抽样n=50, X =75.00。估计μ= ?。
①μ=75.00 ②μ=70.00~80.00 ③μ=65.00~85.00
第二节: 均数的抽样误差 和t检验
1
一、抽样误差与标准误
(一)抽样误差的概念
由于抽样的原因所造成的样本 指标与总体指标之间的差异就叫抽 样误差。
例:某地成年男子血红蛋白的总体均数(μ)为138.2g/L,随机抽取
了400名男子算得平均血红蛋白含量为X =134.8g/L,如果用这个样本均数
作为该地区“成年男子血红蛋白的总体均数(μ)的估计值,它的抽样 误差是多少?
确定检验水准:
确定检验水准(水平),检验水准常用α表示, 习惯上确定为 α= 0.05。 α=0.05是指发生第一类错误的概率,即H0实际 成立,但拒绝H0的概率为0.05。
第一类错误出现的概率与样本含量大小与试验所定的检验水准有
关,即假设检验中假阳性的概率,其相当于显著性检验中的α值。
显著性水准一般取0.05或0.01,表示假阳性出现的可能性在5%或 1%的水平。α愈小则所需样本愈大。
思考标准误和标准差的区别?
①标准差描述样本中个体值间的变异;标准误描述样本均 数的抽样误差。
②当样本量足够大时,标准差趋向稳定;而标准误则随样
本量的增大而减小,甚至趋于零。 ③标准差可用于制定参考正常值的范围;标准误用于估计 总体均数范围和不同组之间的参数比较。
x ±1.96S(标准差)
估计95%的正常值范围;
X - t0.05,24 × SX = 73.6 - 2.064×6.5/ 25 = 70.9次/分
即该地区正常男子脉搏总体均数的95%可信区间为: 70.9~76.3(次/分)
课堂练习:现测得某地25名1岁婴儿血红蛋白的平均
值为123.7(g/L), S=11.9g/L求其95%可信区间。
本例n=25, S=11.9g/L, 按公式算得其标准误为:
可信区间意义:
用样本均数估计总体均数,总体均
数在该范围的可能性(概率)是95%或
99%。
可信区间通常有两个可信限构成,小的称“下可
信限”(或称下限),记为CL;大的称“上可信限”(或
称上限),记为CU。严格地讲,可信区间并不包括上下 限的值,即可信区间(CL,CU)是一个“开区间”。
21
如果
μ=4.655
μ
这些均数不相等,但其分布有一定规律:大多数集中在总体均 数(4.655)附近,离总体均数越远,样本均数的个数越少。
5
如果把132(N)个样本均数看着132
(N)个“变量值”,也可求其标准差,
即样本均数的标准差,它说明样本均数间
的变异程度,即样本均数的抽样误差。
样本均数的标准差称为标准误(standard error),用σX表示。标准误越大,样本均数的抽 样误差越大。标准误计算公式如下:
6
标准误计算公式: s __ X x n
s n
计算总体均数标准误公式 计算样本均数标准误公式 由于总体标准差(σ)往往不可知,所以一般用样本标
准差(s)代替,得总体标准误的估计值…样本标准误 S X 。
计算上述资料的标准误:如果计算的标准差为0.401,如 何计算标准误?
s 0.401 s_ 0.0349 (m m ol/ L) x n 132
样本的统计指标(统计量)与总体的统计指标(统计量)的差别 称抽样误差。
抽样误差有两种表现形式:
1)样本统计量与总体参数之间的差异(如样本均 数与总体均数差异); 2)样本统计量之间的差异(如两次抽样得到的两 个样本均数也不会相等)。 这均是由于总体中每个个体存在变异引起的!
抽样误差产生的两个基本条件:
2.区间估计
指按预先给定的概率,计算出一个区间,使它能够包含 未知的总体均数。事先给定的概率(1- α)称为可信度,通
常取1-α=0.95。
可信度又称置信度、置信率。 区间估计既是按一定的概率或可信度(1- α)用一个区 间估计总体参数所在范围,这个范围称可信度1-α的可信区 间,又称置信区间,它的理论基础是抽样分布规律。
样本均数与总体均值不同。
两均数不相等的原因有两种可能: ①由于抽样误差所致; ②样本来自另一总体(由于环境条件的影响,炊事人员血清总 胆固醇确实高于一般)。 这就需要通过建立“假设检验”来进行判断!
假设检验的目的:
假设检验的目的就是分辨两个样本是否属 于两个不同的总体,并根据检验假设成立的概率 对总体作出适当的结论。 与此类似,假设检验也包括分辨一个样本是 否属于某一特定总体、三个及三个以上的样本是
N=? N=132
n= ?
n= 100
X1
X X X X
n1=100,X1=4.623 n2=100,X2=4.412 样本均数也呈正态分布! n =100,X =4.661 3 3 n4=100,X4=5.022 n5=100,X5=4.682 n6=100,X6=4.089 n7=100,X7=4.193 … X2 X3 X4 … nN=100, XN=4.754 __ __ __ __ 单位:(mmol/L) 1 2 3 4
3)关于区间估计的几点说明:
(1)可信区间的含义
可信度为1- 的可信区间涵义是:如果重复若干次样本含
量的相同抽样,每个样本均按同一方法构建100(1区间,则在这些可信区间中,理论上有100(1体参数,还有100 × 个未估计到总体均数。 如果
)个包含了总
)%可信
=
0.05,从同一已知的总体中重复抽取100个样本含量
否属于相同的总体等。
操作程序—步骤:
1)建立假设和确定检验水准 建立假设: 统计学中的假设有两方面的内容:
一是无效假设(零假设),符号记为 H0:=0 即误差是因抽样引起 二是备择假设(对立假设),符号记为 H1: 0 即两者确有差别 后者的意义在于备选!在这里备选其实包含了:> 0 或 < 0