抽样误差与假设检验
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样误差与假设检验
抽样分布与参数估计
南昌大学公共卫生学院 李悦
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样分布与抽样误差
总体
随机抽取部分观察单位 样本
?
推断
X
抽样研究的目的是用样本信息推断总体特
征,即用样本统计量推断总体参数。
常用的统计推断方法有:参数估计和假设检验
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样误差
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数
的变异越小说明估计越精确,因此可以用标准
误表示抽样误差的大小:
X
n
实际中总体标准差往往未知,故只能求
s 得样本均数标准误的估计值:
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样误差
抽样误差:由抽样引起的样本统计量与总体参数间的差异。 两种表现形式:
样本统计量与总体参数间的差异 样本统计量间的差异
通过研究样本均数的分布来研究抽样误差的大小。
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
(随机变量)也服从正态分布,即总体均数仍为 ,样
本均数的标准差为 / n 。
抽样分布
抽11月24日星期二
抽样误差与假设检验
抽样分布
中心极限定理: 当样本含量很大的情况下,无论原始测量变量
服从什么分布,X 的抽样分布均近似正态分布。
抽样分布
合计
南昌大学公共卫生学院卫生统计学教研室
1
1.0
4
4.0
4
4.0
22
22.0
25
25.0
21
21.0
17
17.0
3
3.0
2
2.0
1
1.0
100
100.0
2020年11月24日星期二
抽样误差与假设检验
抽样分布
理论上可以证明:若从正态总体 N( , 2 ) 中,反复多次
随机抽取样本含量固定为n 的样本,那么这些样本均数
表示观察值波动的大小
表示抽样误差的大小
用于计算变异系数
用于均数的假设检验
计算标准误
估计参考值范围
估计参数的可信区间
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
t分布
t分布的概念 从正态分布N(,2)抽得样本的均数也服从
正态分布,记为N( ,X2 )。对正态变量X 作变换 :
u X
X
实际工作中,当 X 未知时,常用 S X 来代替
对正态变量 X 采用的不是u变换, 而是t变换:
X X
t
s X
sn
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
t分布
英国统计学家W.S.Gosset于1908年以
“Student”笔名发表论X 文 ,证明
X
s n
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样误差
例4.1 试计算均数的标准误。在某地随机 抽查成年男子140人,计算得红细胞均数 4.77×1012/L,标准差0.38 ×1012/L ,
S S0.380.032(1012/L) X n 140
标准误是抽样分布的重要特征之一,可用于 衡量抽样误差的大小,更重要的是可以用于参数 的区间估计和对不同组之间的参数进行比较。
区别 意义
s 描述原始数据的离散程度,
s X
反映抽样误差的大小,
衡量均数对原始数据的代表性 衡量样本均数估计总体均数的可靠性
计算
直接法、加权法
sX s n
与均数的关系 s 越小, X 对样本数据的代表性好 sX 越小, X 估计的可靠性大
与 n 的关系 n →∞,s →
n →∞, s → 0 X
应用
f (t )
( 1)
2
n
1
t2
1 2
2
( t )
横轴为t值, 纵轴为t的概率密度函数f(t),
t υ为自由度。
图4-2自由度分别为1、5、∞时的t分布
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
t 分布的特征
t分布为一簇单峰分布曲线 t分布以0为中心,左右对称 t分布与自由度υ有关,自由度越小, t分布的峰越低,而两侧尾部翘得越 高;自由度逐渐增大时, t分布逐渐 逼近标准正态分布;当自由度无穷 大时, t分布就是标准正态分布(u 分 布)。
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样分布
从正态总体N (155.4, 5.32)抽样得到的100个样本均数的频数分布(ni =30)
组段下限值(cm)
频数
频率%
152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~
服从自由度
= n-1的t分布,即 s n
t X X ~ t分布, = n-1
s X
sn
t分布又称Student t分布。实际上,t分布十分有用, 它是总体均数的区间估计和假设检验的理论基础。
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
t 分布的图形
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
t分布分布函数
P (tt1)F(t1) t1 f(t)d(t)
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样误差与假设检验
抽样分布
样本均数的抽样分布与抽样误差
假定某年某地所有13岁女学生身高服从总体均 数 =155.4cm, 总体标准差 =5.3cm的正态分布。 在这样一个有限的总体中作随机抽样,共抽100次,每 次均抽取30例(ni = 30,i=1,2,…100)组成一份样本, 可以算出每一份样本的平均身高。最终计算得到100 个样本均数。现将这100个样本均数看成新的随机变 量绘制频数分布表,如表所示 。
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
标准差与标准误的联系和区别
联系
都是变异指标。S反映个体观察值的变异;
s X
反映统计量的变异。
当n不变时,标准差↑,标准误↑
s
s
X
n
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
标准差与标准误的联系和区别
抽样分布与参数估计
南昌大学公共卫生学院 李悦
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样分布与抽样误差
总体
随机抽取部分观察单位 样本
?
推断
X
抽样研究的目的是用样本信息推断总体特
征,即用样本统计量推断总体参数。
常用的统计推断方法有:参数估计和假设检验
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样误差
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数
的变异越小说明估计越精确,因此可以用标准
误表示抽样误差的大小:
X
n
实际中总体标准差往往未知,故只能求
s 得样本均数标准误的估计值:
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样误差
抽样误差:由抽样引起的样本统计量与总体参数间的差异。 两种表现形式:
样本统计量与总体参数间的差异 样本统计量间的差异
通过研究样本均数的分布来研究抽样误差的大小。
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
(随机变量)也服从正态分布,即总体均数仍为 ,样
本均数的标准差为 / n 。
抽样分布
抽11月24日星期二
抽样误差与假设检验
抽样分布
中心极限定理: 当样本含量很大的情况下,无论原始测量变量
服从什么分布,X 的抽样分布均近似正态分布。
抽样分布
合计
南昌大学公共卫生学院卫生统计学教研室
1
1.0
4
4.0
4
4.0
22
22.0
25
25.0
21
21.0
17
17.0
3
3.0
2
2.0
1
1.0
100
100.0
2020年11月24日星期二
抽样误差与假设检验
抽样分布
理论上可以证明:若从正态总体 N( , 2 ) 中,反复多次
随机抽取样本含量固定为n 的样本,那么这些样本均数
表示观察值波动的大小
表示抽样误差的大小
用于计算变异系数
用于均数的假设检验
计算标准误
估计参考值范围
估计参数的可信区间
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
t分布
t分布的概念 从正态分布N(,2)抽得样本的均数也服从
正态分布,记为N( ,X2 )。对正态变量X 作变换 :
u X
X
实际工作中,当 X 未知时,常用 S X 来代替
对正态变量 X 采用的不是u变换, 而是t变换:
X X
t
s X
sn
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
t分布
英国统计学家W.S.Gosset于1908年以
“Student”笔名发表论X 文 ,证明
X
s n
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样误差
例4.1 试计算均数的标准误。在某地随机 抽查成年男子140人,计算得红细胞均数 4.77×1012/L,标准差0.38 ×1012/L ,
S S0.380.032(1012/L) X n 140
标准误是抽样分布的重要特征之一,可用于 衡量抽样误差的大小,更重要的是可以用于参数 的区间估计和对不同组之间的参数进行比较。
区别 意义
s 描述原始数据的离散程度,
s X
反映抽样误差的大小,
衡量均数对原始数据的代表性 衡量样本均数估计总体均数的可靠性
计算
直接法、加权法
sX s n
与均数的关系 s 越小, X 对样本数据的代表性好 sX 越小, X 估计的可靠性大
与 n 的关系 n →∞,s →
n →∞, s → 0 X
应用
f (t )
( 1)
2
n
1
t2
1 2
2
( t )
横轴为t值, 纵轴为t的概率密度函数f(t),
t υ为自由度。
图4-2自由度分别为1、5、∞时的t分布
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
t 分布的特征
t分布为一簇单峰分布曲线 t分布以0为中心,左右对称 t分布与自由度υ有关,自由度越小, t分布的峰越低,而两侧尾部翘得越 高;自由度逐渐增大时, t分布逐渐 逼近标准正态分布;当自由度无穷 大时, t分布就是标准正态分布(u 分 布)。
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样分布
从正态总体N (155.4, 5.32)抽样得到的100个样本均数的频数分布(ni =30)
组段下限值(cm)
频数
频率%
152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~
服从自由度
= n-1的t分布,即 s n
t X X ~ t分布, = n-1
s X
sn
t分布又称Student t分布。实际上,t分布十分有用, 它是总体均数的区间估计和假设检验的理论基础。
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
t 分布的图形
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
t分布分布函数
P (tt1)F(t1) t1 f(t)d(t)
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
抽样误差与假设检验
抽样分布
样本均数的抽样分布与抽样误差
假定某年某地所有13岁女学生身高服从总体均 数 =155.4cm, 总体标准差 =5.3cm的正态分布。 在这样一个有限的总体中作随机抽样,共抽100次,每 次均抽取30例(ni = 30,i=1,2,…100)组成一份样本, 可以算出每一份样本的平均身高。最终计算得到100 个样本均数。现将这100个样本均数看成新的随机变 量绘制频数分布表,如表所示 。
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
标准差与标准误的联系和区别
联系
都是变异指标。S反映个体观察值的变异;
s X
反映统计量的变异。
当n不变时,标准差↑,标准误↑
s
s
X
n
南昌大学公共卫生学院卫生统计学教研室
2020年11月24日星期二
抽样误差与假设检验
标准差与标准误的联系和区别