抽样误差与区间估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 抽样误差与区间估计
第一节 均数的抽样误差与标准误
例如,从总体均数 =4.83×1012/L、标准差 =0.52×1012/L 的正态分布总体 N(4.83, 0.522)中,随机抽取 10 人为一个样本(n=10) ,并计算该样本的均数、标 准差。如此重复抽取 100 次(
g
=100) ,可得到 100 份样本,可得到 100 对均数
随机变量X
Z X
N(,2)
均数 X
Z变换
标准正态分布
N(0,12)
标准正态分布
N ( , n)
2
X Z n
N(0,12)
Student t分布
X X t , v n 1 自由度:n-1 SX S n
f(t)
ν─>∞ (标准正态曲线) ν =5
单侧t0.01,9=2.821
双侧t0.05/2,∞=1.96 =单侧t0.025,∞ 单侧t0.05,∞ =1.64
第三节 总体均数的可信区间估计
总体均数的点估计(point estimation)与区间估计
第四军医大学卫生统计学教研室
2018年8月20日
中心极限定理 central limit theorem
①即使从非正态总体中抽取样本,所得均数分布仍近似呈正态。 ②随着样本量的增大, 样本均数的变异范围也逐渐变窄。
第四军医大学卫生统计学教研室
2018年8月20日
第二节 t 分布(t-distribution)
X 和标准差 S ,见表 4-1 所示。
100份样本的均数和标准差
X
1. 2.
S
4.58, 0.38 4.90, 0.45 4.76, 0.49 ┆ 100 个
正态总体
=4.83 =0.52 样本含 量 n =10
3.
99.
4.87, 0.59
100. 4.79, 0.39
将这100份样本的均数看成新变量值,按第二章 的频数分布方法,得到这 100 个样本均数得直方图 见图4-1。
② 10,双 =0.05,t
2,
t0.05 / 2,10 2.228 ,则有
P (t 2.228) P (t 2.228) 0.05
t0.10/ 2,30 t0.05,30
t分布曲线下面积(附表2)
双侧t0.05/2,9=2.262 =单侧t0.025,9 单侧t0.05,9=1.833 双侧t0.01/2,9=3.250 =单侧t0.005,9
均数
2018年8月20日
6.
19
抽样实验小结
均数的均数围绕总体均数上下波动。 均数的标准差即标准误 X 与总体标 准差 相差一个常数的倍数,即 X / n 样本均数的标准误(Standard Error) =样本标准差/ 样本含量=S n 从正态总体N(,2)中抽取样本,获得 均数的分布仍近似呈正态分布N(,2/n) 。
3个抽样实验结果图示
450 400 350 300
450
n 5; S X 0.2212
频数
400 350 300 250 200 150 100 50 0
n 10; S X 0.1580
频数
250 200 150 100 50 0
71
92
12
33
54
74
95
15
36
57
77
98 5.
ν =1
( 1) 2 f (t ) (1 t 2 / ) ( 1) 2 ( 2)
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
图4-2 不同自由度下的t 分布图
t分布的特征
①以0为中心,左右对称的单峰分布; ②t分布曲线是一簇曲线,其形态变化与自 由度的大小有关。 自由度越小,则t值越分散,曲线越低平; 自由度逐渐增大时,t分布逐渐逼近Z分 布(标准正态分布);当趋于∞时,t分布即 为Z分布。
30 25 20
频数
15 10 5 0 4.2~ 4.3~ 4.4~ 4.5~ 4.6~ 4.7~ 4.8~ 4.9~ 5.0~ 5.1~ 5.2~ 红细胞数(×1012 /L)
图4-1 随机抽样所得100个样本均数的分布
100个样本均数的抽样分布特点:
① 4.83 X 4.8276 ② 100个样本均数中,各样本均数间存在差异, 但各样本均数在总体均数周围波动。 ③样本均数的分布曲线为中间高,两边低, 左右对称,近似服从正态分布。 ④样本均数的标准差明显变小:
71
92
12
33
54
74
95
15
36
57
77
98
19
3.
源自文库
3.
4.
4.
4.
4.
4.
5.
5.
5.
5.
3.
3.
4.
4.
4.
4.
4.
5.
5.
5.
5.
5.
6.
均数
450 400 350 300
均数
n 30; S X 0.0920
频数
250 200 150 100 50 0
第四军医大学卫生统计学教研室
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
t 界值表
(P406,附表2)
ν =10的t分布图
f ( t)
问单侧t0.025,10 ?
举例:
t
1.812 -2.228 2.228
① 10,单 =0.05,t , t0.05,10 1.812 ,则有
P(t 1.812) 0.05 或 P(t 1.812) 0.05
0.52 0.52 S X 0.1772 0.1644 X 10
标准误(standard error, SE)
即样本均数的标准差,可用于衡量抽样误 差的大小。
X
因通常σ 未知,计算标准误采用下式:
n
SX
S n
通过增加样本 含量n来降低抽
样误差。
表4-1计算了100个样本的标准差S,由此可 计算每一样本的抽样误差大小。
第1个样本S X 第2个样本S X 第3个样本S X S 0.38 =0.120 n 10 S 0.45 =0.142 n 10 S 0.49 =0.155 n 10 S 0.39 =0.123 n 10
第100个样本S X
0.52 X 0.1644 n 10
第一节 均数的抽样误差与标准误
例如,从总体均数 =4.83×1012/L、标准差 =0.52×1012/L 的正态分布总体 N(4.83, 0.522)中,随机抽取 10 人为一个样本(n=10) ,并计算该样本的均数、标 准差。如此重复抽取 100 次(
g
=100) ,可得到 100 份样本,可得到 100 对均数
随机变量X
Z X
N(,2)
均数 X
Z变换
标准正态分布
N(0,12)
标准正态分布
N ( , n)
2
X Z n
N(0,12)
Student t分布
X X t , v n 1 自由度:n-1 SX S n
f(t)
ν─>∞ (标准正态曲线) ν =5
单侧t0.01,9=2.821
双侧t0.05/2,∞=1.96 =单侧t0.025,∞ 单侧t0.05,∞ =1.64
第三节 总体均数的可信区间估计
总体均数的点估计(point estimation)与区间估计
第四军医大学卫生统计学教研室
2018年8月20日
中心极限定理 central limit theorem
①即使从非正态总体中抽取样本,所得均数分布仍近似呈正态。 ②随着样本量的增大, 样本均数的变异范围也逐渐变窄。
第四军医大学卫生统计学教研室
2018年8月20日
第二节 t 分布(t-distribution)
X 和标准差 S ,见表 4-1 所示。
100份样本的均数和标准差
X
1. 2.
S
4.58, 0.38 4.90, 0.45 4.76, 0.49 ┆ 100 个
正态总体
=4.83 =0.52 样本含 量 n =10
3.
99.
4.87, 0.59
100. 4.79, 0.39
将这100份样本的均数看成新变量值,按第二章 的频数分布方法,得到这 100 个样本均数得直方图 见图4-1。
② 10,双 =0.05,t
2,
t0.05 / 2,10 2.228 ,则有
P (t 2.228) P (t 2.228) 0.05
t0.10/ 2,30 t0.05,30
t分布曲线下面积(附表2)
双侧t0.05/2,9=2.262 =单侧t0.025,9 单侧t0.05,9=1.833 双侧t0.01/2,9=3.250 =单侧t0.005,9
均数
2018年8月20日
6.
19
抽样实验小结
均数的均数围绕总体均数上下波动。 均数的标准差即标准误 X 与总体标 准差 相差一个常数的倍数,即 X / n 样本均数的标准误(Standard Error) =样本标准差/ 样本含量=S n 从正态总体N(,2)中抽取样本,获得 均数的分布仍近似呈正态分布N(,2/n) 。
3个抽样实验结果图示
450 400 350 300
450
n 5; S X 0.2212
频数
400 350 300 250 200 150 100 50 0
n 10; S X 0.1580
频数
250 200 150 100 50 0
71
92
12
33
54
74
95
15
36
57
77
98 5.
ν =1
( 1) 2 f (t ) (1 t 2 / ) ( 1) 2 ( 2)
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
图4-2 不同自由度下的t 分布图
t分布的特征
①以0为中心,左右对称的单峰分布; ②t分布曲线是一簇曲线,其形态变化与自 由度的大小有关。 自由度越小,则t值越分散,曲线越低平; 自由度逐渐增大时,t分布逐渐逼近Z分 布(标准正态分布);当趋于∞时,t分布即 为Z分布。
30 25 20
频数
15 10 5 0 4.2~ 4.3~ 4.4~ 4.5~ 4.6~ 4.7~ 4.8~ 4.9~ 5.0~ 5.1~ 5.2~ 红细胞数(×1012 /L)
图4-1 随机抽样所得100个样本均数的分布
100个样本均数的抽样分布特点:
① 4.83 X 4.8276 ② 100个样本均数中,各样本均数间存在差异, 但各样本均数在总体均数周围波动。 ③样本均数的分布曲线为中间高,两边低, 左右对称,近似服从正态分布。 ④样本均数的标准差明显变小:
71
92
12
33
54
74
95
15
36
57
77
98
19
3.
源自文库
3.
4.
4.
4.
4.
4.
5.
5.
5.
5.
3.
3.
4.
4.
4.
4.
4.
5.
5.
5.
5.
5.
6.
均数
450 400 350 300
均数
n 30; S X 0.0920
频数
250 200 150 100 50 0
第四军医大学卫生统计学教研室
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
t 界值表
(P406,附表2)
ν =10的t分布图
f ( t)
问单侧t0.025,10 ?
举例:
t
1.812 -2.228 2.228
① 10,单 =0.05,t , t0.05,10 1.812 ,则有
P(t 1.812) 0.05 或 P(t 1.812) 0.05
0.52 0.52 S X 0.1772 0.1644 X 10
标准误(standard error, SE)
即样本均数的标准差,可用于衡量抽样误 差的大小。
X
因通常σ 未知,计算标准误采用下式:
n
SX
S n
通过增加样本 含量n来降低抽
样误差。
表4-1计算了100个样本的标准差S,由此可 计算每一样本的抽样误差大小。
第1个样本S X 第2个样本S X 第3个样本S X S 0.38 =0.120 n 10 S 0.45 =0.142 n 10 S 0.49 =0.155 n 10 S 0.39 =0.123 n 10
第100个样本S X
0.52 X 0.1644 n 10