抽样误差和可信区间

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
MEDICAL STATISTICS
医学统计学
抽样误差和可信区间
Sampling Error & Confidence Intervals
主要内容(Content) 主要内容(Content)
抽样误差及其规律性 标准误 抽样分布与t 抽样分布与t分布 统计推断与参数估计 总结
一.均数的抽样误差(sampling 一.均数的抽样误差(sampling error) 与标准误(standard 与标准误(standard error, SE)
Βιβλιοθήκη Baidu
例:
【例4.1】 随机抽取某地25名正常成年男子, 随机抽取某地25名正常成年男子 名正常成年男子, 测得该样本的脉搏均数为73. 测得该样本的脉搏均数为 73.6 次 / 分 , 标准 差为6 差为6.5次/分,求该地正常成年男子脉搏总 体均数95%的可信区间。 体均数95%的可信区间。 某市2001 年 120名 【 例 4.2】 某市 2001年 120 名 7 岁男童的身高 =123.62(cm) , 标 准 差 s=4.75(cm) , 计 算 该 123.62(cm) 75(cm) 岁男童总体均数90%的可信区间。 市7岁男童总体均数90%的可信区间。
t= X1 − X 2 s X1 − X 2 ~ t n1 + n2 − 2
X1 , 2 样本含量较大时,服从标准正态分布。 样本含量较大时− X服从标准正态分布。 t= s X1 − X 2 ~ N (0,1)
计算
11 × 9.77 2 + 12 × 12.17 2 2 sC = = 122.93 12 + 13 − 2 sX1 − X 2 = 1 1 122.93 × ( ) = 4.439 + 12 13
-t
0
t
统计推断
所谓统计推断(statistical inference), 是指如何抽样,以及如何用样本 是指如何抽样, 性质推断总体特征。 性质推断总体特征。
参数估计(parameter 参数估计(parameter estimation) 假设检验(hypothesis 假设检验(hypothesis testing)
二.t 二.t分布
t分布的演化
由于总体标准差往往是未知的, 由于总体标准差往往是未知的,此时 往往用样本标准差代替总体标准差, 往往用样本标准差代替总体标准差,
X −µ t= ~ tν s n
这里, 为自由度,取值为n 这里,ν为自由度,取值为n-1
由W.S. Gosset提出 Gosset提出
双 侧 t 0.05 , 23 = 2.069 ( 273.18 − 231.86) m 2.069 × 4.439 = 32.14, 50.50
可信区间的两个要素
可信度(Confidence) 准确性, 可信度(Confidence):准确性,可靠 性,即1 -α。
一般取90%,95 一般取90%,95%,可人为控制 90%,95%
既然抽样误差是有规律的, 既然抽样误差是有规律的, 那么到底它的分布规律到底 是怎样的? 是怎样的?
A Simulation Study
SAMPLE 1:x11 x12 x13 x14...x1n
X1
原始 总体 μ
SAMPLE 2:x21 x22 x23 x24...x2n
X2
SAMPLE k:xk1 xk2 xk3 xk4...xkn
α/2 α/2
-tα/2, v
0
tα/2, v
均数的95%可信区间 均数的95%可信区间
样本含量不是很大时, 样本含量不是很大时,
(X
− t 0.025 ,ν s X , X + t 0.025 ,ν s X
)
样本含量较大时,t分布逼近u分布 样本含量较大时, 分布逼近u
(X −u
0.025 X
s , X + u0.025 s X )
X =118.21cm s=4.45cm
µ=119.41cm σ= 4.38cm
X = 120.18cm s=4.90cm
X = 120.81cm s =4.33cm
三次抽样得到了不同的结果,原因何在? 三次抽样得到了不同的结果,原因何在?
不同男童的 身高不同 每次抽到的 人几乎不同
个体变异
随机抽样
抽样误差的表现
抽 样 误 差 的 表 现
样本均数和 样本均数间 的差别 X i − X j 样本均数和 总体均数间 的差别 X − µ
i
抽样误差的重要性
总体
同质个体、个体变异 随机 抽样
样本
代表性、抽样误差
总体参数
未知 统计 推断
样本统计量
已知


2. 抽样误差的规律性(分布) 抽样误差的规律性(分布)
均数的(1- )100%可信区间 均数的(1-α)100%可信区间
P ( t > tα / 2,ν ) = α
P ( − tα / 2,ν < t < tα / 2,ν ) = 1 − α
1-α
P ( − tα / 2,ν
x−µ < < tα / 2,ν ) = 1 − α sx
P ( x − tα / 2,ν s x < µ < x + tα / 2,ν s x ) = 1 − α
s sX = n
标准误的意义
反映了样本统计量(样本均数,样本率)分布的 反映了样本统计量(样本均数,样本率) 离散程度,体现了抽样误差的大小。 离散程度,体现了抽样误差的大小。 标准误越大,说明样本统计量(样本均数,样本 标准误越大,说明样本统计量(样本均数, 率)的离散程度越大,即用样本统计量来直接估 的离散程度越大, 计总体参数越不可靠。反之亦然。 计总体参数越不可靠。反之亦然。 标准误的大小与标准差有关,在例数n一定时, 标准误的大小与标准差有关,在例数n一定时, 从标准差大的总体中抽样,标准误较大; 从标准差大的总体中抽样,标准误较大;而当总 体一定时,样本例数越多,标准误越小。 体一定时,样本例数越多,标准误越小。说明我 们可以通过增加样本含量来减少抽样误差的大小。 们可以通过增加样本含量来减少抽样误差的大小。
2 2 ( n1 − 1) s1 + ( n2 − 1) s2 2 sC = n1 + n2 − 2
均数之差的标准误
s X1 − X 2 1 1 = s ( + ) n1 n2
2 C
与均数之差有关的抽样分布
“均数之差”与“均数之差的标准误”之 均数之差” 均数之差的标准误” 比, 分布。 服从自由度ν = n1+n2 -2的 t 分布。
t分布曲线下的面积
n +1 Γ − ( n +1) 2 x2 2 1 + f ( x) = n n nπ Γ 2
-t
0
t
t界值表
单侧: 单侧: P(t <-tα,ν)= α或 P(t P(t >tα,ν)= α P(t 双侧: 双侧: P(t <-tα/2,ν)+ P(t >tα/2,ν)= α P(t P(t :P(1即:P(-tα/2,ν<t <tα/2,ν)= 1-α [例] 查t界值表得t值表达式 界值表得t t 0.05,10=2.228 (双侧) (双侧 双侧) t 0.05,10=1.812 (单侧) (单侧 单侧)
error)。 error)。
样本统计量的标准差反映了从某个总体中随机 抽样所得样本之均数分布的离散程度。 抽样所得样本之均数分布的离散程度。
标准误的计算
σX = 计算公式为 n σ
其中, 为总体标准差, 其中,σ为总体标准差,n为抽样的样 本例数 在研究工作时 由于总体标准差 工作时, 总体标准差常常 在研究工作时,由于总体标准差常常 未知,可以利用样本标准差近似估计 未知,
抽样研究的目的是要用样本信息推断总 体特征, 体特征,称统计推断
1. 抽样误差的定义
假如事先知道某地七岁男童的平均身高为 119.41cm。为了估计七岁男童的平均身高( 119.41cm。为了估计七岁男童的平均身高(总体 均数), ),研究者从所有符合要求的七岁男童中每 均数),研究者从所有符合要求的七岁男童中每 次抽取100人 共计抽取了三次。 次抽取100人,共计抽取了三次。
精确性(Precision) 区间的大小, 精确性(Precision):区间的大小,越 小越好。 小越好。 必须二者兼顾
可信区间的宽度及影响因素
均数的(1均数的(1-α)可信区间为
三. 参数估计
点估计( 点估计(Point Estimation) 区间估计 (Interval Estimation)
参数估计之一: 参数估计之一:点估计
用样本统计量作为总体参数的估计 例如: 例如: 用样本均数作为总体均数的一个估计
ˆ µ=x
区间估计
可信区间的定义 总体均数之可信区间的求解 均数之差的可信区间 可信区间的要素 正确理解可信区间的含义
k个样本均数的频数分布图
Xk
从正态总体中随机抽样, 从正态总体中随机抽样,其样本均数 服从正态分布 从任意总体中随机抽样, 从任意总体中随机抽样,当样本含量 足够大时, 足够大时,其样本均数的分布逐渐逼 近正态分布
均数的抽样误差 x -µ的分布
3. 标准误的定义
抽 样 误 差 的 标 准 差 称 为 标 准 误 (standard
可信区间的定义
按一定的概率或可信度(1 α)用一个区间 按一定的概率或可信度(1-α)用一个区间 (1来估计总体参数所在的范围, 来估计总体参数所在的范围,该范围通 常称为参数的可信区间或者置信区间 常称为参数的可信区间或者置信区间 可信区间或者 interval,CI), ),预先给定的概 (confidence interval,CI),预先给定的概 (1-α)称为可信度或者 称为可信度或者置信度 率(1-α)称为可信度或者置信度 level),常取95% 99%。 ),常取95%或 (confidence level),常取95%或99%。 可信区间( 可信区间(CL, CU )是一开区间 CL、CU 称 为可信限
t分布的图形
自由度分别为1、5、 ∞时的 t 分布 f(t) ν =∞(标准正态曲线)
ν =5 ν =1
0.3
0.2
0.1
-4
-3
-2
-1
0
1
2
3
4
t分布的性质
t分布为一簇单峰分布曲线,高峰在0的位置上,说明 分布为一簇单峰分布曲线,高峰在0的位置上, 从正态总体中随机抽样所得样本计算出的t值接近0 从正态总体中随机抽样所得样本计算出的t值接近0的 可能性较大。 可能性较大。 t分布以0为中心,左右对称。 分布以0为中心,左右对称。 分布低,尾部高。 分布的高峰位置比 u 分布低,尾部高。 t分布与自由度ν有关,自由度越小,t分布的峰越低, 有关,自由度越小, 分布的峰越低, 而两侧尾部翘得越高;自由度逐渐增大时, 而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐 逼近标准正态分布;当自由度为无穷大时, 逼近标准正态分布;当自由度为无穷大时,t分布就是 标准正态分布。 标准正态分布。 每一自由度下的t分布曲线都有其自身分布规律。 每一自由度下的t分布曲线都有其自身分布规律。t界值 表。
抽样误差
抽样误差的定义
【定义】由于个体变异的存在,在抽样 定义】由于个体变异的存在, 研究中产生样本统计量和总体参数之 间的差异,称为抽样误差 抽样误差( 间的差异,称为抽样误差(sampling error) error)。
各种参数都有抽样误差,这里我们以均数为 各种参数都有抽样误差, 研究对象
均数之差可信区间的计算
正常组
µ 1=?
肝炎组
µ 2=?
µ 1- µ 2 =?
均 数:273.18ug/dL 标准差:9.77ug/dL
均 数: 231.86ug/dL 标准差:12.17ug/dL
X 1 − X 2 = 42.32
合并方差与均数之差的标准误
合并方差(方差的加权平均) 合并方差(方差的加权平均)
区间估计
【例4.1】 随机抽取某地25名正常成年 4.1】 随机抽取某地25名正常成年 男子,测得该样本的脉搏均数为73.6 男子,测得该样本的脉搏均数为73.6 标准差为6.5次 次/分,标准差为6.5次/分,估计正常 成年男子脉搏总体均数。 成年男子脉搏总体均数。
区间估计的实质
假设某个总体的均数为 ,需要找到两 个量A 个量A和B,使得在一个比较高的可信 度下( 95%),区间(A,B)能包含 度下(如95%),区间(A,B)能包含 。 即 P(A< <B)=0.95
相关文档
最新文档