[数学]第三章 抽样误差与假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•精密度:反映在区间的长度,长度愈小 愈好。
笃学
h
精业
修德
26
厚生
3.均数的可信区间与参考值范围的区别
表 均数的可信区间与参考值范围的区别
含义
计算公式
用途
σ未知,
按预先给定的概率, X t 2,
s n
确定总体均数的可 可信区间 能范围;
总体均数的波动范 围。
σ已知或n很大, 总体均数的
区间估计
u X 2 n
u X
s 2 n
正常人的解剖、生 正态分布,
绝大多数观
u 参考值 范围
理、生化某项指标 的波动范围;个体
X S 偏态分布 2
值的波动范围。
察对象某项 指标的分布 范围
笃学
精 业 h P修X P 德100X 厚 生
27
第四节、假设检验的基本步骤
一、假设检验的基本思想
假设检验(hypothesis test)是用来判断 样本与样本,样本与总体的差异是由抽
笃学
h
精业
修德
16
厚生
t分布有如下特征
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与n(确切地 说与自由度ν)大小有关。自由度ν越小,t分布曲 线越低平;自由度ν越大,t分布曲线越接近标准 正态分布(u分布)曲线,如图4.1。
f(t)
x
t sx
0.4
υ=∞
υ=5
0.3
υ=1
笃学
结果是怎样呢?
h
精业
修德
29
厚生
一、假设检验的基本思想
两种可能:
1)由抽样误差所造成; 2)该样本均数确实与正常成年男性
脉搏数不同。
笃学
h
精业
修德
30
厚生
一、假设检验的基本思想
先对总体的特征建立假设,然后判断此假设 应该被拒绝或不被拒绝。
假设检验的基本思想是小概率(P<0.05)反证 法思想,是先提出假设(检验假设H0),再用适当的 统计方法确定假设成立的可能性大小,如可能性 小,则认为假设不成立,若可能性大,则还不能认 为假设不成立。
笃学
h
精业
修德
31
厚生
二、假设检验的基本步骤
1、建立假设,确定检验水准。
零假设、无效假设(null hypothesis): 假设样 本来自同一总体,即其总体参数相等(H0)。
备择假设(H1)(alternative hypothesis): 作为 拒绝检验假设时的备选假设;
检验水准(size of test),又称显著性水平
中心极限定理 当样本含量很大的情况下,无论原始测量变量服
从什么分布,X 的抽样分布均近似正态。
抽样分布
笃学
图 抽样分布示意图
h
精业
修德
9
厚生
二.均数的抽样误差
如上所述,数理统计研究表明,抽样 误差具有一定的规律性,可以用特定的指 标来描述。这个指标称为标准误 (standard error SE)。
笃学
h
精业
修德
7
厚生
(三)、抽样误差的分布
理论上可以证明:若从正态总体 N( , 2 ) 中,反 复多次随机抽取样本含量固定为n 的样本,那么 这些样本均数 X 也服从正态分布,即 X 的总体均 数仍为 ,样本均数的标准差为 / n 。
抽样分布
笃学
h
精 业 抽样分布修示意图德
8
厚生
(三)、抽样误差的分布
样误差引起还是本质差别造成的统计推 断方法。 假设检验亦称差别有无统计学
意义检验(significance test)
笃学
h
精业
修德
28
厚生
一、假设检验的基本思想
例:为研究某山区成年男子的脉搏均数是否 高于一般成年男子的脉搏均数,如某医生在 某山区随机测量了25名健康成年男子的脉搏, 平均次数为74.2次/分钟,标准差为6.0次/ 分钟,但是根据医学常识,一般男子的平均 脉搏次数为72次/分钟,问该山区男子脉搏 均数是否高于一般男子的脉搏均数?
复习
1、描述数值型资料的分布用什么方法? 2、如何描述数值型资料的分布特征? 3、描述数值型资料的集中趋势和离散
趋势指标有哪些? 4、正态分布的特征
笃学
h
精业
修德
厚生
1
第三章 抽样误差与假设检验
掌握内容: 1.t分布的概念和特征 2.总体均数的区间估计 3.假设检验的基本步骤 4.假设检验的基本原理 5.常用的数值型变量假设检验的方法
标准误除了反映样本统计量之间的离 散程度外,也反映样本统计量与相应总体 参数之间的差异,即抽样误差大小。
笃学
h
精业
修德
10
厚生
标准误的计算公式:
x / n
sx
s n
•意义:反映抽样误差的大小。标准误越小, 抽样误差越小,用样本均数估计总体均数的 可靠性越大。
•与样本量的关系:S 一定,n↑,标准误↓
笃学
h
精业
修德
14
厚生
在正态分布总体中以固定n(如
n=10)抽取若干个样本时,样本均数 的分布仍服从正态分布 N(,2 n) ,即。 所以,对样本均数的分布进行Z变换
[ u(x)/x],也可变换为标准正
态分布N (0,1)。
笃学
h
精业
修德
15
厚生
(二)t分布
由于在实际工作中,往往σ是未知 的,常用s作为σ的估计值,为了与Z变 换区别,称为t 变换t = x ,统计量 t 值的分布称为t 分布。 s x
0.2
0.1
笃学
0.0
-5 -4 -3 -2 -1 0 1 2 3 4
图4.h1 自由度为1、5、∞的t分布
精业
修德
厚生
t 5
17
t 分布曲线下面积
t分布曲线下的面积与自由度ν有 关系。如t 分布曲线下面积为95%或 99%的界值不是一个常量,而是随着 自由度大小而变化的,分别用 t0.05 , 和 t 0 .01 , 表示。
笃学
h
精业
修德
18
厚生
第三节 总体均数的估计
•统计推断包括两个重要的方面:参数估 计和假设检验。
•参数估计就是用样本指标(称为统计量, statistic)来估计总体指标(参数, parameter)。参数估计有两种方法: 点估计和区间估计。
笃学
h
精业
修德
19
厚生
第三节 总体均数的估计 一、可信区间的概念(Confidence Interval)
理得到均数的可信区间为:
t t
2,
X s
n
2,
t t 即:
(X2,
sn,X2,
s) n
同理,单侧可
,
s X , n
笃学
h
精业
修德
23
厚生
例 对某人群随机抽取20人,用某批号的结核 菌素作皮试,平均浸润直径为10.9cm,标准差 为3.86cm。问这批结核菌素在该人群中使用时, 皮试的平均浸润直径的95%可信区间是多少?
二、假设检验的基本步骤
3 .根据统计量确定P 值,作出统计推断
根据计算的统计量,查阅相应的统计
表,确定P 值,以P 值与检验水准比
较,若P,则拒绝H 0 ,接受H 1 ;
若 P,则不拒绝 H 0 。
笃学
h
精业
修德
34
厚生
二、假设检验的基本步骤
一般来说,推断的结论应包括统计 结论和专业结论两部分。统计学结论只 说明有统计学意义(statistical significance)或无统计学意义(no statistical significance)
(2) 即使对有限总体来说,若包含的观察单位数 过多,需要耗费大量的人力、物力和时间, 而且也不易组织,难以保证工作的质量。
(3)有的时候,观察的实质就是一种破坏性实验, 根本就不允许对总体中的每一个体逐一观察。
笃学
h
精业
修德
5
厚生
目前抽样研究的理论与技术已发展 成熟,只要严格按照有关抽样研究的要 求去做,这是完全可行的。
(significance level)为拒绝检验假设是犯第一类 错误的概率,是预先设定的概率值。
笃学
h
精业
修德
32
厚生
二、假设检验的基本步骤 2、选择检验方法,并计算统计量
变量的分布类型不同、研究目的不同, 都决定着选择何种检验方法。因此需选 择合适的检验方法,并计算统计量。
笃学
h
精业
修德
33
厚生
s
6.0
n
25
笃学
h
精业
修德
36
厚生
二、假设检验的基本步骤
3.确定P值 查界值表: t t0.05,241.711 因此: P0.05
结论:
拒绝H0,接受H1。即可认为山区男
子的平均脉搏数比一般人群的高。
笃学
h
精业
修德
37
厚生
参数估计
点估计:不考虑抽样误差,如 X 区间估计:考虑抽样误差
区间估计:指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率
1称为可信度,通常取 10.95。
笃学
h
精业
修德
20
厚生
二、可信区间的计算
1.σ已知或σ未知但n (n>50)足够大时, 由Z分布可知:
(1)σ已知: Z2X n Z2
笃学
h
精业
修德
2
厚生
第三章 抽样误差与假设检验
熟悉: 1、抽样误差的概念 2、引起抽样误差的原因 3、均数的标准误的计算 4、标准差和标准误的区别
笃学
h
精业
修德
3
厚生
第一节 抽样分布与抽样误差
一.抽样研究 (一)抽样研究的意义
总体
笃学
样 本
h
精业
修德
4
厚生
为什么要做抽样研究?
(1) 由于研究对象很多是无限总体,要直接研究 总体的情况是不可能的。
即 XZ2nXZ2n
写成区间形式:
(XZ2
n,XZ2
) n
笃学
h
精业
修德
21
厚生
(2)σ未知,但足够大:Z2X sn Z2
可信区间为:
(XZ2
sn,XZ2
s) n
同理,单侧可信区间为:
XZ
n
或
X Z
s n
Z X
n
Z 或
s X n
笃学
h
精业
修德
22
厚生
2.σ未知,且n (n<50)不够大时,按t分布原
*
*
μ
*
*
*
*
图4-2 模拟抽样成年男子红细胞数100次的95%可信区间示意图
( 4 .7 , 5 0 .3 , 9 n 1) 40
笃学
h
精业
修德
25
厚生
三 可信区间的注意问题
2.可信区间的两个要素: 准确度和精密度。
•准确度:反映在可信度的大小,即区间 包含总体均数的概率的大小,愈接近1愈 好。
2.估计总体均数的可信区间。 3.用于均数的假设检验。
笃学
h
精业
修德
13
厚生
第二节 t 分布 一.t 分布(t-distribution)
(一)Z分布
正态分布(normal distribution)
常将一般的正态变量X通过变换[ Z(x)/] 转
化成标准正态变量Z,以使原来各种形态的正态分 布都转换为μ=0,σ=1的标准正态分布(standard normal distribution),亦称Z分布。
再回头看本节刚开始提出的问题!
笃学
h
精业
修德
35
厚生
二、假设检验的基本步骤
1.建立检验假设,确定检验水准。
双侧 H0: 0 两地男子脉搏均数相同。
H1: 0 两地男子脉搏均数不同。
单侧 H1: 0 或 0
0.05
2. 选择统计方法,计算统计量 。
计算t值:
t x0
74.272
1.833
该例n=20, n较小,因此,可认为平均浸润直
径服从t分布。自由度ν=20-1=19,查t 界值
表,得 t 0.05=,192.093
(10.9-2.093*3.86/ 20 ,10.9+2.093*3.86/ 20 )cm
即(9.1,12.7)cm。
笃学
h
精业
修德
24
厚生
三 可信区间的注意问题
1.可信区间的涵义
目的:就是要用样本信息来推断总体特 征,这就叫统计推断(statistical inference)
笃学
h
精业
修德
6
厚生
(二)抽样研究和抽样误差
抽样研究是指从总体中按照随机化的原 则,抽取一定数量的个体组成样本进行研 究,从而推断总体的研究方法。
在抽样研究中产生的样本统计量与相应 的总体参数间的差异,称为抽样误差 (sampling error),
笃学
h
精业
修德
11
厚生
例4.1 在某地随机抽查成年男子140人, 计 算 得 红 细 胞 均 数 4.77×1012/L , 标 准 差 0.38 ×1012/L ,试计算均数的标准误。
S S0.380.032(1012/L) X n 140
笃学
h
精业
修德
12
厚生
均数标准误的用途
1.衡量样本均数的可靠性 由于均数标准 误越小,均数的抽样误差越小,样本均 数就越可靠,代表性越好。
笃学
h
精业
修德
26
厚生
3.均数的可信区间与参考值范围的区别
表 均数的可信区间与参考值范围的区别
含义
计算公式
用途
σ未知,
按预先给定的概率, X t 2,
s n
确定总体均数的可 可信区间 能范围;
总体均数的波动范 围。
σ已知或n很大, 总体均数的
区间估计
u X 2 n
u X
s 2 n
正常人的解剖、生 正态分布,
绝大多数观
u 参考值 范围
理、生化某项指标 的波动范围;个体
X S 偏态分布 2
值的波动范围。
察对象某项 指标的分布 范围
笃学
精 业 h P修X P 德100X 厚 生
27
第四节、假设检验的基本步骤
一、假设检验的基本思想
假设检验(hypothesis test)是用来判断 样本与样本,样本与总体的差异是由抽
笃学
h
精业
修德
16
厚生
t分布有如下特征
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与n(确切地 说与自由度ν)大小有关。自由度ν越小,t分布曲 线越低平;自由度ν越大,t分布曲线越接近标准 正态分布(u分布)曲线,如图4.1。
f(t)
x
t sx
0.4
υ=∞
υ=5
0.3
υ=1
笃学
结果是怎样呢?
h
精业
修德
29
厚生
一、假设检验的基本思想
两种可能:
1)由抽样误差所造成; 2)该样本均数确实与正常成年男性
脉搏数不同。
笃学
h
精业
修德
30
厚生
一、假设检验的基本思想
先对总体的特征建立假设,然后判断此假设 应该被拒绝或不被拒绝。
假设检验的基本思想是小概率(P<0.05)反证 法思想,是先提出假设(检验假设H0),再用适当的 统计方法确定假设成立的可能性大小,如可能性 小,则认为假设不成立,若可能性大,则还不能认 为假设不成立。
笃学
h
精业
修德
31
厚生
二、假设检验的基本步骤
1、建立假设,确定检验水准。
零假设、无效假设(null hypothesis): 假设样 本来自同一总体,即其总体参数相等(H0)。
备择假设(H1)(alternative hypothesis): 作为 拒绝检验假设时的备选假设;
检验水准(size of test),又称显著性水平
中心极限定理 当样本含量很大的情况下,无论原始测量变量服
从什么分布,X 的抽样分布均近似正态。
抽样分布
笃学
图 抽样分布示意图
h
精业
修德
9
厚生
二.均数的抽样误差
如上所述,数理统计研究表明,抽样 误差具有一定的规律性,可以用特定的指 标来描述。这个指标称为标准误 (standard error SE)。
笃学
h
精业
修德
7
厚生
(三)、抽样误差的分布
理论上可以证明:若从正态总体 N( , 2 ) 中,反 复多次随机抽取样本含量固定为n 的样本,那么 这些样本均数 X 也服从正态分布,即 X 的总体均 数仍为 ,样本均数的标准差为 / n 。
抽样分布
笃学
h
精 业 抽样分布修示意图德
8
厚生
(三)、抽样误差的分布
样误差引起还是本质差别造成的统计推 断方法。 假设检验亦称差别有无统计学
意义检验(significance test)
笃学
h
精业
修德
28
厚生
一、假设检验的基本思想
例:为研究某山区成年男子的脉搏均数是否 高于一般成年男子的脉搏均数,如某医生在 某山区随机测量了25名健康成年男子的脉搏, 平均次数为74.2次/分钟,标准差为6.0次/ 分钟,但是根据医学常识,一般男子的平均 脉搏次数为72次/分钟,问该山区男子脉搏 均数是否高于一般男子的脉搏均数?
复习
1、描述数值型资料的分布用什么方法? 2、如何描述数值型资料的分布特征? 3、描述数值型资料的集中趋势和离散
趋势指标有哪些? 4、正态分布的特征
笃学
h
精业
修德
厚生
1
第三章 抽样误差与假设检验
掌握内容: 1.t分布的概念和特征 2.总体均数的区间估计 3.假设检验的基本步骤 4.假设检验的基本原理 5.常用的数值型变量假设检验的方法
标准误除了反映样本统计量之间的离 散程度外,也反映样本统计量与相应总体 参数之间的差异,即抽样误差大小。
笃学
h
精业
修德
10
厚生
标准误的计算公式:
x / n
sx
s n
•意义:反映抽样误差的大小。标准误越小, 抽样误差越小,用样本均数估计总体均数的 可靠性越大。
•与样本量的关系:S 一定,n↑,标准误↓
笃学
h
精业
修德
14
厚生
在正态分布总体中以固定n(如
n=10)抽取若干个样本时,样本均数 的分布仍服从正态分布 N(,2 n) ,即。 所以,对样本均数的分布进行Z变换
[ u(x)/x],也可变换为标准正
态分布N (0,1)。
笃学
h
精业
修德
15
厚生
(二)t分布
由于在实际工作中,往往σ是未知 的,常用s作为σ的估计值,为了与Z变 换区别,称为t 变换t = x ,统计量 t 值的分布称为t 分布。 s x
0.2
0.1
笃学
0.0
-5 -4 -3 -2 -1 0 1 2 3 4
图4.h1 自由度为1、5、∞的t分布
精业
修德
厚生
t 5
17
t 分布曲线下面积
t分布曲线下的面积与自由度ν有 关系。如t 分布曲线下面积为95%或 99%的界值不是一个常量,而是随着 自由度大小而变化的,分别用 t0.05 , 和 t 0 .01 , 表示。
笃学
h
精业
修德
18
厚生
第三节 总体均数的估计
•统计推断包括两个重要的方面:参数估 计和假设检验。
•参数估计就是用样本指标(称为统计量, statistic)来估计总体指标(参数, parameter)。参数估计有两种方法: 点估计和区间估计。
笃学
h
精业
修德
19
厚生
第三节 总体均数的估计 一、可信区间的概念(Confidence Interval)
理得到均数的可信区间为:
t t
2,
X s
n
2,
t t 即:
(X2,
sn,X2,
s) n
同理,单侧可
,
s X , n
笃学
h
精业
修德
23
厚生
例 对某人群随机抽取20人,用某批号的结核 菌素作皮试,平均浸润直径为10.9cm,标准差 为3.86cm。问这批结核菌素在该人群中使用时, 皮试的平均浸润直径的95%可信区间是多少?
二、假设检验的基本步骤
3 .根据统计量确定P 值,作出统计推断
根据计算的统计量,查阅相应的统计
表,确定P 值,以P 值与检验水准比
较,若P,则拒绝H 0 ,接受H 1 ;
若 P,则不拒绝 H 0 。
笃学
h
精业
修德
34
厚生
二、假设检验的基本步骤
一般来说,推断的结论应包括统计 结论和专业结论两部分。统计学结论只 说明有统计学意义(statistical significance)或无统计学意义(no statistical significance)
(2) 即使对有限总体来说,若包含的观察单位数 过多,需要耗费大量的人力、物力和时间, 而且也不易组织,难以保证工作的质量。
(3)有的时候,观察的实质就是一种破坏性实验, 根本就不允许对总体中的每一个体逐一观察。
笃学
h
精业
修德
5
厚生
目前抽样研究的理论与技术已发展 成熟,只要严格按照有关抽样研究的要 求去做,这是完全可行的。
(significance level)为拒绝检验假设是犯第一类 错误的概率,是预先设定的概率值。
笃学
h
精业
修德
32
厚生
二、假设检验的基本步骤 2、选择检验方法,并计算统计量
变量的分布类型不同、研究目的不同, 都决定着选择何种检验方法。因此需选 择合适的检验方法,并计算统计量。
笃学
h
精业
修德
33
厚生
s
6.0
n
25
笃学
h
精业
修德
36
厚生
二、假设检验的基本步骤
3.确定P值 查界值表: t t0.05,241.711 因此: P0.05
结论:
拒绝H0,接受H1。即可认为山区男
子的平均脉搏数比一般人群的高。
笃学
h
精业
修德
37
厚生
参数估计
点估计:不考虑抽样误差,如 X 区间估计:考虑抽样误差
区间估计:指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率
1称为可信度,通常取 10.95。
笃学
h
精业
修德
20
厚生
二、可信区间的计算
1.σ已知或σ未知但n (n>50)足够大时, 由Z分布可知:
(1)σ已知: Z2X n Z2
笃学
h
精业
修德
2
厚生
第三章 抽样误差与假设检验
熟悉: 1、抽样误差的概念 2、引起抽样误差的原因 3、均数的标准误的计算 4、标准差和标准误的区别
笃学
h
精业
修德
3
厚生
第一节 抽样分布与抽样误差
一.抽样研究 (一)抽样研究的意义
总体
笃学
样 本
h
精业
修德
4
厚生
为什么要做抽样研究?
(1) 由于研究对象很多是无限总体,要直接研究 总体的情况是不可能的。
即 XZ2nXZ2n
写成区间形式:
(XZ2
n,XZ2
) n
笃学
h
精业
修德
21
厚生
(2)σ未知,但足够大:Z2X sn Z2
可信区间为:
(XZ2
sn,XZ2
s) n
同理,单侧可信区间为:
XZ
n
或
X Z
s n
Z X
n
Z 或
s X n
笃学
h
精业
修德
22
厚生
2.σ未知,且n (n<50)不够大时,按t分布原
*
*
μ
*
*
*
*
图4-2 模拟抽样成年男子红细胞数100次的95%可信区间示意图
( 4 .7 , 5 0 .3 , 9 n 1) 40
笃学
h
精业
修德
25
厚生
三 可信区间的注意问题
2.可信区间的两个要素: 准确度和精密度。
•准确度:反映在可信度的大小,即区间 包含总体均数的概率的大小,愈接近1愈 好。
2.估计总体均数的可信区间。 3.用于均数的假设检验。
笃学
h
精业
修德
13
厚生
第二节 t 分布 一.t 分布(t-distribution)
(一)Z分布
正态分布(normal distribution)
常将一般的正态变量X通过变换[ Z(x)/] 转
化成标准正态变量Z,以使原来各种形态的正态分 布都转换为μ=0,σ=1的标准正态分布(standard normal distribution),亦称Z分布。
再回头看本节刚开始提出的问题!
笃学
h
精业
修德
35
厚生
二、假设检验的基本步骤
1.建立检验假设,确定检验水准。
双侧 H0: 0 两地男子脉搏均数相同。
H1: 0 两地男子脉搏均数不同。
单侧 H1: 0 或 0
0.05
2. 选择统计方法,计算统计量 。
计算t值:
t x0
74.272
1.833
该例n=20, n较小,因此,可认为平均浸润直
径服从t分布。自由度ν=20-1=19,查t 界值
表,得 t 0.05=,192.093
(10.9-2.093*3.86/ 20 ,10.9+2.093*3.86/ 20 )cm
即(9.1,12.7)cm。
笃学
h
精业
修德
24
厚生
三 可信区间的注意问题
1.可信区间的涵义
目的:就是要用样本信息来推断总体特 征,这就叫统计推断(statistical inference)
笃学
h
精业
修德
6
厚生
(二)抽样研究和抽样误差
抽样研究是指从总体中按照随机化的原 则,抽取一定数量的个体组成样本进行研 究,从而推断总体的研究方法。
在抽样研究中产生的样本统计量与相应 的总体参数间的差异,称为抽样误差 (sampling error),
笃学
h
精业
修德
11
厚生
例4.1 在某地随机抽查成年男子140人, 计 算 得 红 细 胞 均 数 4.77×1012/L , 标 准 差 0.38 ×1012/L ,试计算均数的标准误。
S S0.380.032(1012/L) X n 140
笃学
h
精业
修德
12
厚生
均数标准误的用途
1.衡量样本均数的可靠性 由于均数标准 误越小,均数的抽样误差越小,样本均 数就越可靠,代表性越好。