05 抽样误差 可信区间估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2019年6月18日4时58分
14
2、中心极限定理 central limit theorem
①即使从非正态总体中抽取样本,所得均数分布仍近似呈正态。 ②随着样本量的增大, 样本均数的变异范围也逐渐变窄。
2019年6月18日4时58分
15
t分布与可信区间
一、t分布
二、总体均数的估计 总体均数的点估计(point estimation)与区间 估计 总体均数的可信区间(confidence interval, CI) 大样本总体均数的可信区间
13
标准差与标准误的区别与联系
标准差
标准误
1意义: 描述一组变量值之间的离散

程度(个体差异)
描述样本统计量间的离散 程度(抽样误差)

可用于估计某变量的正常值 估计总体参数所在的可信
2应用: 范围,n越大,标准差越趋于 区间,n越大,标准误越
稳定→σ
小→ 0
联 系
二者均是表示变异度大小的统计指标, n一定时,标准误与标准差成正比。
①一簇单峰分布曲线,在
t=0 处最高,并以t=0为
中心左右对称
②与正态分布相比,曲线 最高处较矮,两尾部翘得 高(见绿线)
③ 随自由度增大,曲线逐 渐接近正态分布;分布的 2 3 4 极限为标准正态分布。
2019年6月18日4时58分
19
t分布曲线下面积(附表2)
2019年6月18日4时58分
双侧t0.05/2,9=2.262 =单侧t0.025,9
均数
450 400 350 300 250 200 150 100 50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
9
抽样实验小结
均数的均数围绕总体均数上下波动。
均数的标准差即标准误 X 与总体标准差 相差
25
(三)σ未知且n较大时(n>100)
可信区间:
(X z 2
S ,X n
z 2
S) n
2019年6月18日4时59分
26
参考值范 围(%)
80
90
95
99
常用u值表
α 0.20 0.10 0.05 0.01
单侧
0.842 1.282 1.645 2.326
双侧
1.282 1.645 1.960 2.576
包括:点估计与 区间估计
2. 假设检验(test of hypothesis)
2019年6月18日4时58分
2
一、均数的抽样误差
抽取部分观察单位
总体
样本
参数
统计推断
如:总体均数
总体标准差
总体率
统计量 如:样本均数 X
样本标准差S 样本率 P
抽样误差 (sampling error) :由于 抽样和变异引 起的样本统计 量与总体参数 间的差异或者 来自同一总体 的不同样本统 计量之间的差 异。
2019年6月18日4时59分
27
例 1 某市120名7岁男童的身高均数为 123.62cm,标准差为4.75cm,计算该市7岁 男童总体均数90%的可信区间
X 123.62, S 4.75, Sx 0.4336
本例σ未知,但是n=120>100,大样本,可以用 正态近似法
90%可信区间为:
三、可信区间的解释
2019年6月18日4时58分
16
一、t分布(t distribution)
随机变量X N(,2)
u X
u变换
均数
X
N (, 2 n)
u X n
t变换
t X X , v n 1
S n SX
实际:s , sx x 或n较小时
均数
n 30; S X 0.0920
2019年6月18日4时58分
频数
频数
450
400 350 300
n 10; S X
0.1580
250
200
150
100
百度文库
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
2019年6月18日4时58分
4
抽样试验(n=5)
2019年6月18日4时58分
5
抽样试验(n=10)
2019年6月18日4时58分
6
抽样试验(n=30)
2019年6月18日4时58分
7
1000份样本抽样计算结果
总体的 总体标 均数的 均数 准差s 均数
n=5 5.00 0.50 4.99
n=10 5.00 0.50 5.00
0.025
t0.052( )
0 t分布曲线
t0.052( )
95%可信区间:(X
t0.052( )
S ,X n
t0.052( )
S) n




α/2
可信区间: (X
t 2( )
S ,X n
t 2( )
S) n
t 2( )
1-α
0 t分布曲线
α/2 t 2( )

小(0.01)
30
区别点
总体均数可信区间
参考值范围
按预先给定的概率(可信度),确定的未知参数 的可能范围。 “正常人”的解剖,生理,
含 实际上一次抽样算得的可信区间要么包含了总体均数,要么 生化某项指标的波动范围。
不包含,二者必居其一,无概率可言;所谓 95%的可信度是
义 针对可信区间的构建方法而言。
2019年6月18日4时58分
3
1、抽样试验
从正态分布总体N(5.00,0.502)中,每次随 机抽取样本含量n=5,并计算其均数与标
准差;重复抽取1000次,获得1000份样本; 计算1000份样本的均数与标准差,并对1000 份样本的均数作直方图。
按上述方法再做样本含量n=10、样本含量 n=30的抽样实验;比较计算结果。
参数的估计
点估计:由样本统计量 X、S、p 直接估计 总体参数 、、
区间估计:按照预先给定的概率 (可信度),同时考虑抽样误差, 计算出一个区间,使它能够包含 未知的总体参数。
2019年6月18日4时58分
21
Confidence interval
可信度:事先给定的概率1-α称为可信度 一般,α取0.05 or 0.01,则1-α为0.95 or 0.99 可信区间(confidence interval,CI):计算得到的区 间称为可信区间。 可信限(confidence limit,CL):界定可信区间的两 个数值,上限和下限 总体均数估计的95%可信区间:表示该区间包括 总体均数μ的概率(可能性)为95%,即若作100 次抽样算的100个可信区间,则平均有95个可信区 间包括μ(估计正确),只有5个可信区间不包括μ (估计错误)。
一个常数的倍数,即 / n X
实替,际得工到作标中准,误的未估知计时值,s可X用,样即本 标准差s代
s s/ n X
从正态总体N(μ,σ2)中抽取样本,获得均数的分 布仍近似呈正态分布N(μ,σ2/n) 。
2019年6月18日4时58分
10
标准误的应用
表示抽样误差大小:同质的资料标准误越小,表 明样本均数越接近于总体均数,抽样误差越小, 说明由样本均数推断总体均数的可靠性越大。反 之,标准误越大,表明样本均数远离总体均数, 抽样误差大,说明由样本均数推断总体均数的可 靠性小。医学文献中常以 x sx 表示资料的均 数及可靠程度。 确定总体均数的可信区间:结合样本均数对总体 均数做区间估计。 进行均数的t检验。
某项指标的分布范围
2019年6月18日4时59分
31
2019年6月18日4时58分
12
标准差与标准误的联系与区别
2. 随着样本量不断增大,样本标准差随机波 动的幅度越来越小,并且稳定在总体标准 差附近;随着样本量不断增大,样本均数 的标准误越来越小,并且趋向于0;
3. 样本含量n相同时,标准差越大,标准误相 对越大;标准差越小,标准误也相对越小。
2019年6月18日4时58分
均数的抽样误差 和总体均数估计
2019年6月18日4时58分
1
统计推断 (statisticalinference)
统计推断内容:
抽取部分观察单位
总体
样本
参数 如:总体均数
统计推断
统计量
如:样本均数
X
总体标准差
样本标准差S
总体率
样本率 P
1. 参数估计 (estimation of parameters)
标准正态分布
N(0,1)
标准正态分布
N(0,1)
Student t分布 自由度:n-1
17
t分布的概率密度函数
f (t) ( 1) 2 (1 t 2 / )( 1) 2
( 2)
式中 () 为伽玛函数; 圆周率(Excel函数为
PI( ))
为自由度(degree of freedom),是t分布
总体均数的波动范围
计算
未知:
X

t ,
S X
*
公式 已知或未知但 n>100: X u X 或 X u SX **
用途 总体均数的区间估计
个体值的波动范围
正态分布: X u S **
偏态分布:PX~P100X
绝大多数(如 95%)观察对象
* t, 也可用 t /2, (对应于双尾概率时) ** u, 也可用 u /2, (对应于双尾概率时)
通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服从著
名的t 分布。
William Gosset
图6-1 不同自由度的 t 分布图
(二)σ未知且n较小时
t

X SX

X S
n
P(X
t0.052( )
S n
X
t0.052( )
S) n
0.95 0.025
单侧t0.05,9=1.833 双侧t0.01/2,9=3.250
=单侧t0.005,9 单侧t0.01,9=2.821 双侧t0.05/2,∞=1.96
=单侧t0.025,∞ 单侧t0.05,∞ =1.64
20
二、总体均数的估计
1. 总体均数的点估计(point estimation)与 区间估计(interval estimation)
2019年6月18日4时58分
11
标准差与标准误的联系与区别
1. 标准差s是描述个体资料分布的离散程度指 标。S越小,个体资料的离散程度就越小; 标准误是描述统计量的平均抽样误差大小 的指标,标准误越小,统计量的平均抽样 误差就越小,即从同一总体中抽样所得的 各个样本均数间的差异以及和总体均数间 的差异就越小。
n=30 5.00 0.50 5.00
均数标准差
Sn
0.2212
0.1580
0.0920
n
0.2236 0.1581 0.0913
2019年6月18日4时58分
8
3个抽样实验结果图示
频数
450
400 350
n 5; S X 0.2212
300
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
的唯一参数;t为随机变量。 以t为横轴,f(t)为纵轴,可绘制t分布曲线。
2019年6月18日4时58分
18
t分布曲线
0.4 f( t) 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 -4 -3 -2 -1 0 1
t
t 分布有如下性质:
自由度为1的t分布 自由度为9的t分布 标准正态分布
2019年6月18日4时58分
22
三、总体均数的区间估计
(一)σ已知
68.27%
z X X
n
X
95.00%
-2.58 -1.96 -1
99.00% 0
z
1 1.96 2.58
95%可信区间:
一般情况
其中 为标准正态分布的双侧界值。
Confidence interval (二)σ未知且n较小时
括μ(估计正确),只有5个可信区间不包括 μ(估计错误)。
95%可信区间
公式 X

t 0.05 / 2,
S X
,
X t S 0.05 / 2, X
区间范围

估计错误的概率 大(0.05)
2019年6月18日4时59分
99%可信区间
X

t0.01 / 2,
S X
,
X t S 0.01/ 2, X
(123.62 1.645 0.4336, 123.62 1.645 0.4336) (122.91,124.33)
2019年6月18日4时59分
t分布法
2019年6月18日4时59分
29
可信区间的解释
95%可信区间:从总体中作随机抽样,作 100次抽样,每个样本可算得一个可信区间, 得100个可信区间,平均有95个可信区间包
相关文档
最新文档