4-抽样误差与假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样分布与参数估计
南昌大学公共卫生学院 李悦
抽样分布与抽样误差
总体
随机抽取部分观察单位 样本
?
推断
抽样研究的目的是用样本信息推断总体特 征,即用样本统计量推断总体参数。 常用的统计推断方法有:参数估计和假设检验
抽样误差
抽样误差:由抽样引起的样本统计量与总体参数间的差异。 两种表现形式:
样本统计量与总体参数间的差异 样本统计量间的差异 通过研究样本均数的分布来研究抽样误差的大小。
sX s n
与均数的关系 s 越小, X 对样本数据的代表性好 s 越小, X 估计的可靠性大 X
与 n 的关系 n →∞,s →
n →∞, s → 0 X
应用
表示观察值波动的大小
表示抽样误差的大小
用于计算变异系数
用于均数的假设检验
计算标准误
估计参考值范围
估计参数的可信区间
t分布
t分布的概念 从正态分布N(,2)抽得样本的均数也服从正
t X X ~ t分布, = n-1
sX
sn
t分布又称Student t分布。实际上,t分布十分有用,它 是总体均数的区间估计和假设检验的理论基础。
t 分布的图形
f (t )
( 1)
2
n
1
t2
1 2
2
( t )
横轴为t值, 纵轴为t的概率密度函数f(t),
t υ为自由度。
P(t t1) F(t1)
t1 f (t)d(t)
自由度
单侧 双侧
1
2 3 4 5
0.25 0.50
1.000 0.816 0.765 0.741 0.727
0.20 0.40
1.376 1.061 0.978 0.941 0.920
0.10 0.20
3.078 1.886 1.638 1.533 1.476
中心极限定理: 当样本含量很大的情况下,无论原始测量变量
服从什么分布,X 的抽样分布均近似正态分布。
抽样分布
抽样误差
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数
的变异越小说明估计越精确,因此可以用标准
误表示抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求
s 得样本均数标准误的估计值:
0.842
1.282
1.646
1.962
2.330
2.581
2.813
3.098
3.300
0.6745 0.8416 1.2816 1.6449 1.9600 2.3264 2.5758 2.8070 3.0902 3.2905
附表2 t 界值表
概 率,P
0.05
0.025 0.01
0.10
0.05
0.02
6.314 12.706 31.821
2.920 2.353 2.132 2.015
4.303 3.182 2.776 2.571
6.965 4.541 3.747 3.365
0.005 0.01
63.657 9.925 5.841 4.604 4.032
标准差与标准误的联系和区别
联系Leabharlann 都是变异指标。S反映个体观察值的变异;
s X反映统计量的变异。
当n不变时,标准差↑,标准误↑
s s
X
n
标准差与标准误的联系和区别
区别 意义
s 描述原始数据的离散程度,
s X
反映抽样误差的大小,
衡量均数对原始数据的代表性 衡量样本均数估计总体均数的可靠性
计算
直接法、加权法
0.0025 0.005
127.321 14.089 7.453 5.598 4.773
0.001 0.002
318.309 22.327 10.215 7.173 5.893
0.0005 0.001
636.619 31.599 12.924 8.610 6.869
100
0.677
0.845
1.290
抽样分布
样本均数的抽样分布与抽样误差
假定某年某地所有13岁女学生身高服从总体均 数 =155.4cm, 总体标准差 =5.3cm的正态分布。在 这样一个有限的总体中作随机抽样,共抽100次,每次 均抽取30例(ni = 30,i=1,2,…100)组成一份样本,可 以算出每一份样本的平均身高。最终计算得到100个 样本均数。现将这100个样本均数看成新的随机变量 绘制频数分布表,如表所示 。
图4-2自由度分别为1、5、∞时的t分布
t 分布的特征
t分布为一簇单峰分布曲线 t分布以0为中心,左右对称 t分布与自由度υ有关,自由度越小, t分布的峰越低,而两侧尾部翘得越 高;自由度逐渐增大时, t分布逐渐 逼近标准正态分布;当自由度无穷 大时, t分布就是标准正态分布(u 分 布)。
t分布分布函数
1.660
1.984
2.364
2.626
2.871
3.174
3.390
200
0.676
0.843
1.286
1.653
1.972
2.345
2.601
2.839
3.131
3.340
500
0.675
0.842
1.283
1.648
1.965
2.334
2.586
2.820
3.107
3.310
1000
0.675
抽样分布
从正态总体N (155.4, 5.32)抽样得到的100个样本均数的频数分布(ni =30)
组段下限值(cm)
频数
频率%
152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~
合计
1
1.0
4
4.0
4
4.0
22
22.0
25
25.0
21
21.0
17
17.0
3
3.0
2
2.0
1
1.0
100
100.0
抽样分布
理论上可以证明:若从正态总体 N(, 2 )中,反复多次随
机抽取样本含量固定为n 的样本,那么这些样本均数(随
机变量)也服从正态分布,即总体均数仍为 ,样本均
数的标准差为 。/ n
抽样分布
抽样分布示意图
抽样分布
态分布,记为N(, X2)。对正态变量 X作变换 :
X
u
X
实际工作中,当 未X 知时,常用 S来X 代替
对正态变量 X采用的不是u变换, 而是t变换:
t X X
s X
sn
t分布
英国统计学家W.S.Gosset于1908年以“Student”笔 名发表论文,证明 X 服 从自由度 = n-1的t分布,即 s n
X
s n
抽样误差
例4.1 试计算均数的标准误。在某地随机抽 查成年男子140人,计算得红细胞均数 4.77×1012/L,标准差0.38 ×1012/L ,
S S 0.38 0.032(1012 / L) X n 140
标准误是抽样分布的重要特征之一,可用于 衡量抽样误差的大小,更重要的是可以用于参数 的区间估计和对不同组之间的参数进行比较。
南昌大学公共卫生学院 李悦
抽样分布与抽样误差
总体
随机抽取部分观察单位 样本
?
推断
抽样研究的目的是用样本信息推断总体特 征,即用样本统计量推断总体参数。 常用的统计推断方法有:参数估计和假设检验
抽样误差
抽样误差:由抽样引起的样本统计量与总体参数间的差异。 两种表现形式:
样本统计量与总体参数间的差异 样本统计量间的差异 通过研究样本均数的分布来研究抽样误差的大小。
sX s n
与均数的关系 s 越小, X 对样本数据的代表性好 s 越小, X 估计的可靠性大 X
与 n 的关系 n →∞,s →
n →∞, s → 0 X
应用
表示观察值波动的大小
表示抽样误差的大小
用于计算变异系数
用于均数的假设检验
计算标准误
估计参考值范围
估计参数的可信区间
t分布
t分布的概念 从正态分布N(,2)抽得样本的均数也服从正
t X X ~ t分布, = n-1
sX
sn
t分布又称Student t分布。实际上,t分布十分有用,它 是总体均数的区间估计和假设检验的理论基础。
t 分布的图形
f (t )
( 1)
2
n
1
t2
1 2
2
( t )
横轴为t值, 纵轴为t的概率密度函数f(t),
t υ为自由度。
P(t t1) F(t1)
t1 f (t)d(t)
自由度
单侧 双侧
1
2 3 4 5
0.25 0.50
1.000 0.816 0.765 0.741 0.727
0.20 0.40
1.376 1.061 0.978 0.941 0.920
0.10 0.20
3.078 1.886 1.638 1.533 1.476
中心极限定理: 当样本含量很大的情况下,无论原始测量变量
服从什么分布,X 的抽样分布均近似正态分布。
抽样分布
抽样误差
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数
的变异越小说明估计越精确,因此可以用标准
误表示抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求
s 得样本均数标准误的估计值:
0.842
1.282
1.646
1.962
2.330
2.581
2.813
3.098
3.300
0.6745 0.8416 1.2816 1.6449 1.9600 2.3264 2.5758 2.8070 3.0902 3.2905
附表2 t 界值表
概 率,P
0.05
0.025 0.01
0.10
0.05
0.02
6.314 12.706 31.821
2.920 2.353 2.132 2.015
4.303 3.182 2.776 2.571
6.965 4.541 3.747 3.365
0.005 0.01
63.657 9.925 5.841 4.604 4.032
标准差与标准误的联系和区别
联系Leabharlann 都是变异指标。S反映个体观察值的变异;
s X反映统计量的变异。
当n不变时,标准差↑,标准误↑
s s
X
n
标准差与标准误的联系和区别
区别 意义
s 描述原始数据的离散程度,
s X
反映抽样误差的大小,
衡量均数对原始数据的代表性 衡量样本均数估计总体均数的可靠性
计算
直接法、加权法
0.0025 0.005
127.321 14.089 7.453 5.598 4.773
0.001 0.002
318.309 22.327 10.215 7.173 5.893
0.0005 0.001
636.619 31.599 12.924 8.610 6.869
100
0.677
0.845
1.290
抽样分布
样本均数的抽样分布与抽样误差
假定某年某地所有13岁女学生身高服从总体均 数 =155.4cm, 总体标准差 =5.3cm的正态分布。在 这样一个有限的总体中作随机抽样,共抽100次,每次 均抽取30例(ni = 30,i=1,2,…100)组成一份样本,可 以算出每一份样本的平均身高。最终计算得到100个 样本均数。现将这100个样本均数看成新的随机变量 绘制频数分布表,如表所示 。
图4-2自由度分别为1、5、∞时的t分布
t 分布的特征
t分布为一簇单峰分布曲线 t分布以0为中心,左右对称 t分布与自由度υ有关,自由度越小, t分布的峰越低,而两侧尾部翘得越 高;自由度逐渐增大时, t分布逐渐 逼近标准正态分布;当自由度无穷 大时, t分布就是标准正态分布(u 分 布)。
t分布分布函数
1.660
1.984
2.364
2.626
2.871
3.174
3.390
200
0.676
0.843
1.286
1.653
1.972
2.345
2.601
2.839
3.131
3.340
500
0.675
0.842
1.283
1.648
1.965
2.334
2.586
2.820
3.107
3.310
1000
0.675
抽样分布
从正态总体N (155.4, 5.32)抽样得到的100个样本均数的频数分布(ni =30)
组段下限值(cm)
频数
频率%
152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~
合计
1
1.0
4
4.0
4
4.0
22
22.0
25
25.0
21
21.0
17
17.0
3
3.0
2
2.0
1
1.0
100
100.0
抽样分布
理论上可以证明:若从正态总体 N(, 2 )中,反复多次随
机抽取样本含量固定为n 的样本,那么这些样本均数(随
机变量)也服从正态分布,即总体均数仍为 ,样本均
数的标准差为 。/ n
抽样分布
抽样分布示意图
抽样分布
态分布,记为N(, X2)。对正态变量 X作变换 :
X
u
X
实际工作中,当 未X 知时,常用 S来X 代替
对正态变量 X采用的不是u变换, 而是t变换:
t X X
s X
sn
t分布
英国统计学家W.S.Gosset于1908年以“Student”笔 名发表论文,证明 X 服 从自由度 = n-1的t分布,即 s n
X
s n
抽样误差
例4.1 试计算均数的标准误。在某地随机抽 查成年男子140人,计算得红细胞均数 4.77×1012/L,标准差0.38 ×1012/L ,
S S 0.38 0.032(1012 / L) X n 140
标准误是抽样分布的重要特征之一,可用于 衡量抽样误差的大小,更重要的是可以用于参数 的区间估计和对不同组之间的参数进行比较。