(抽样检验)样本均数的抽样误差与置信区间
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 样本均数的抽样误差与置信区间 ★ 联系:
3.1 样本均数的分布
·从同一总体中独立抽取多份样本, 他们的均数常大小不一, 这说明样本均数存在变异。通过电脑实验来认识样本均数的变异规律
一、正态总体样本均数的分布
实验 3.1 从正态分布总体抽样的实验 假定正常男子的红血球计数服从正态分布N(4.6602, 0.57462),随机抽取1000份样本
, 每份含n =5个个体。样本均数依然是一个随机变量, 且
(1)
(2)
(3) 样本均数的分布很有规律,围绕着总体均数,中间多、两边少, 左右基本对称(对称、正态?);
(4)
(5) 随着样本量的增大,
表3.1 从N(4.6602, 0.57462)中随机抽样, 样本量为5, 100份独立 12图3.1 从正态分布总体抽样的实验结果 23.7 4.1 4.5 4.9 5.3 5.7 3.7 4.1 4.5 4.9 5.3 5.7 3.7 4.1 4.5 4.9 5.3 5.7(a) (b) (c)
* 由这份样本估计的95%置信区间实际上并未复盖总体均数
表3.2 从N(4.6602, 0.57462)中随机抽取1000
份独立样本, 其均数的频数分布
组段下限(1012 /L) 频数 频率(%) 累积频率(%)
3.60- 1 0.1 0.1
3.80- 5 0.5 0.6
4.00- 32 3.2 3.8
4.20- 117 11.7 1
5.5
4.40- 229 22.9 38.4
4.60- 304 30.4 68.8
4.80- 218 21.8 90.6
5.00- 76 7.6 98.2
5.20- 15 1.5 99.7
5.40- 3 0.3 100.0
合计 1000 100.0
·理论上可以证明, 从正态分布N(μ, σ2)的总体中随机抽取含量为n 的样本,其样本均数X ~N(μ, σ2 /n)。
·样本均数的标准差习惯上又称为样本均数的标准误(standard error),简称标准误。值得注意的是如下的普遍规律:
或 ·实际应用中往往总体标准差σ未知, 人们只能用样本标准差S 代替σ,从而获得x σ的估计值x S ,则有
·为方便计,可称x σ为理论标准误,x S 为样本标准误。
二、非正态总体样本均数的分布
实验3.2 从正偏峰的分布总体抽样的实验
(1) 随着样本量的增大, 样本均数分布的对称性逐渐改善, 样本
量为30时, 样本均数的分布接近正态分布;
(2) 随着样本量的增大, 样本均数的变异范围逐渐变窄。
实验3.3 从不对称钩形分布的总体抽样的实验 图3.3(a):
(1) 样本均数分布再不象个钩子, 样本量很小时就象正态分布了;
(2) 随着样本量的增大, 样本均数的变异范围也逐渐变窄。 ·以上两项实验的结果具有普遍性。理论上可以证明, 非正态总体样本均数的分布并不是正态分布;但当样本量较大时(例如,n ≥30), 样本均数的分布接近正态分布
3.2 t 分布
一、标准正态离差和标准t 离差
·标准正态离差便服从标准正态分布, 记为
1 2 3 4 5 7 8 n=5 (b) 1 2 3 4 5 6 7 8
9
(d) 1 2 3 4 5 6
7 8 9 (e) 图3.2 从正偏峰的分布总体分布抽样实验的结果 (a)是原分布,正偏峰;其它为不同样本含量时样本均数的直方图
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 n=5 (b) 1 2 3 4 5 6 7 8 9 n=10 (c) 1 2 3 4 5 6 7 8 9 n=20 (d) 1 2 3 4 5 6 7 8 9 n=30 (e) 图3.3 从不对称钩形分布总体抽样实验的结果 (a)是原分布,呈钩形;其它为不同样本含量时样本均数的直方图 1 2 3 4 5 6 7 8 9 (a)
·若σ未知,用样本标准差S 代替σ,x S 以代替x σ它们不尽相同,即x S 有变异,因而x S X /)(μ-比x X σμ/)(-多了一种与自由度有关的变异。W.S.Gosett 于1908年用笔名Student 研究了它的分布规律, 称之t 分布, 记为
·x S X /)(μ-不妨称为标准t 离差(standard t deviate)。ν(读作
nu[nju:])是t 分布的自由度,不同的自由度对应于不同的t 分布曲线。
二、t 分布的图形与t 分布表
实验3.1(续) 标准正态离差和标准t 离差 对前述实验3.1所得1000份随机样本分别计算标准正态离差和标准t 离差, 并绘制相应的直方图, 如图3.4(a)和(b)所示。
·本书附表5给出了t 分布的双侧尾部面积和对应的t 界值。对应于同样大小的尾部面积α,t 界值比正态分布界值要大。
3.3 正态分布总体均数的置信区间
·95%置信区间:设N(μ, σ2 ), μ和σ未知,由t 分布面积规律可知: -t 0.05≤x
S X μ-≤t 0.05 (3.3) ·经移项化简,可改写为
x S t X 05.0-≤μ≤x S t X 05.0+ (3.4) 置信程度为95%;换言之,这样估计100次,约有95次正确。 ·应用公式为
·(1-α)置信区间:
-5-3-10135(a )
-5 -3 -1 0 1 3 5 (b ) 图3.4 从N(4.6602,0.57462)中随机抽取1000份独立样本,n=5 (a)样本均数的标准正态离差的直方图;(b)样本均数的标准t 离差的直方图 图3.5 标准正态分布和t 分布的图形 ν=∞时的t 分布即标准正态分布