第三讲抽样误差与区间估计优秀课件

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

图3-1 随机抽样所得100个样本均数的分布
100个样本均数的抽样分布特点：
①μ=4.83≠ X
②100 个样本均数中，各样本均数间存在差异，但各样本均数在总体均数周围波动。
③样本均数的分布曲线为中间高，两边低，左右对称，近似服从正态分布。
④样本均数的标准差明显变小：
400
450
3个抽样实验结果图示
抽样实验小结
均数的均数围绕总体均数上下波动。
均数的标准差即标准误与总体标准
差
相差一个常数的倍数，即
X
/
n
从正态总体N(,2)中抽取样本，获得均数
的分布仍近似呈正态分布N(,2/n) 。
标准差与标准误的区别与联系
1、概念不同：标准差是描述样本中个体值的变异程度的指标，其值越小，表示变量值围绕均数的波动越小；标准误是描述样本均数间变异度的指标，其值越小，表示样本均数围绕总体均数波动越小。
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
0
0
50
50
100
100
150
150
200
200
250
频数频数
250
300
300
0.1580
n 10; SX
350
n 5; SX 0.2212
450 400 350
2、用途不同：标准差用于表示变量值对均数波动的大小，当资料呈正态分布时，与均数结合可估计正常值范围，计算变异系数等；标准误用于表示样本统计量（样本均数、样本率）对总体参数（总体均数、总体率）的波动情况，可估计参数的可信区间，进行假设检验。
3、与样本例数关系不同：样本量足够大时，标准差趋向稳定，标准误随例数增加而减小，甚至趋近于0，若样本量趋向总例数，则标准误接近0；
f (t)
2.228
P(t 1.812) 0.05 或 P(t 1.812) 0.05
② 10，双 =0.05，t 2, t0.05/ 2,10 2.228 ，则有
P(t 2.228) P(t 2.228) 0.05 t0.05/2,10=t0.025,10=2.228
t界值表中的变化规律
相同自由度时，∣t∣值越大，概率P 越小；在相同∣t∣值时，同一自由度的双侧概率是
单侧概率的两倍，t0.05/2,10=t0.025,10 。
第三节总体均数的可信区间估计
参数估计：用样本指标值（统计量）推断总体指标值（参数）。包括点估计和区间估计
总体均数的点估计（point estimation）与区间估计
0.52
SX
0.1772
0.52 10
0.1644 X
标准误(standard error, SE)
即样本均数的标准差，可用于衡量抽样误
差的大小。
X
n
因通常σ未知，计算标准误采用下式：
SX
S n
通过增加样本
含量n来降低抽
样误差。
均数
450 400 350 300 250 200 150 100 50
第三讲抽样误差与区间估计
第一节均数的抽样误差与标准误
抽样误差( sampling error )：由个体变异产生的、抽样造成的样本统计量与样本统计量之间、样本统计量与总体参数的差异。
无倾向性、不可避免
例如，从总体均数 =4.83×1012/L、标准差 =0.52×1012/L 的正态分布总体
f(t)
ν─>∞(标准正态曲线)
ν=5
ν=1
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
图4-2 不同自由度下的t 分布图
t 界值表
问单侧t0.025,10 ?
✓ 举例：
ν=10的t分布图
t
1.812 -2.228
① 10，单 =0.05，t , t0.05,10 1.812 ，则有
4、二者联系：均为变异指标，若把总体中各样本均数看作一个变量，则标准误可称为样本均数的标准差，当样本量不变时，均数的标准误与标准差成正比。二者均可与均数结合运用，但描述的内容各不相同。
第二节 t 分布(t-distribution)
随机变量X N（，2）
Z X
Z变换
标准正态分布
N（0，12）
均数 X
N(, 2 n)
Z X n
标准正态分布
N（0，12）
Student t分布
t X X ,
S n SX
v n 1 自由度：n-1
t分布的特征
①以0为中心，左右对称的单峰分布；
②t 分布曲线是一簇曲线，其形态变化与自由度
的大小有关。
自由度越小，则t 值越分散，曲线越低平；自由度逐渐增大时，t 分布逐渐逼近Z 分布(标准正态分布)；当趋于∞时，t 分布趋近Z 分布， Z 分布是t 分布的特例。
1. 4.58, 0.38 2. 4.90, 0.45 3. 4.76, 0.49
┆ 99. 4.87, 0.59 100. 4.79, 0.39
100 个
频数
将这100份样本的均数看成新变量值，按第二章的频数分布方法，得到这100个样本均数得直方图见图3-1。
30
25 20
15
10
5
0 4.2~ 4.3~ 4.4~ 4.5~ 4.6~ 4.7~ 4.8~ 4.9~ 5.0~ 5.1~ 5.2~ 红细胞数（×1012/L）
N(4.83, 0.522)中，随机抽取 10 人为一个样本（n=10），并计算该样本的均数、标
准差。如此重复抽取 100 次（ g =100），可得到 100 份样本，可得到 100 对均数
X 和标准差 S 。
正态总体
=4.83 =0.52
100份样本的均数和标准差 XS
样本含量 n =10
（interval estimation）
参数的估计
点估计：由样本统计量 X、S、p 直接估计总体参数、、
区间估计：在一定可信度（Confidence level）下，同时考虑抽样误差
按预先给定的概率(1)，确定一个包含未知总体参数的范
0
n 30; SXImNa0o.g09e20
频数
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数Hale Waihona Puke Baidu
均数
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19