医学统计学课件第3章总体均数区间估计和假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
此时就不是u变换而是t变换了,即下式:
t X X
S X
Sn
二、t分布曲线的特征
❖ t分布曲线是单峰分布,以0为中心,左右两侧对
称,
❖ 曲线的中间比标准正态曲线(u分布曲线)低,两 侧翘得比标准正态曲线略高。
❖ t分布曲线随自由度υ而变化,当样本含量越小
(严格地说是自由度υ =n-1越小),t分布与u分
第3章总体均数的区间估计和 假设检验
目录
第一节 均数的抽样误差与标准误 第二节 t 分布 第三节 总体均数的区间估计 第四节 假设检验的意义和基本步骤 第五节 均数的 t 检验
第六节 两总体方差的齐性检验和t'检验
学习要求
掌握:抽样误差的概念和计算方法 掌握:总体均数区间的概念,意义和计算方法 掌握:假设检验的基本步骤及思路 掌握:t检验的概念,意义,应用条件和计算方法
➢ 1-α 称 为 可 信 度 , 常 取 1-α 为 0.95 和 0.99,即总体均数的95%可信区间和99% 可信区间。
➢ 1-α(如95%)可信区间的含义是:总体均数 被 包 含 在 该 区 间 内 的 可 能 性 是 1-α , 即 ( 95 %),没有被包含的可能性为α,即(5%)。
总体均数的可信区间的计算
1.n较小(n<100) 用t值
2.n较大(n≥100) 用U值
(或σ已知)
X
t,
S X
X
u
S X
例3.1 为了了解某地1岁婴儿的血红蛋白浓度,从 该地随机抽取了1岁婴儿25人,测得其血红蛋白的
平均数为123.7g/L,标准差为11.9g/L。试求该地1
岁婴儿的血红蛋白平均值95%的可信区间。
➢ 反之,标准误愈大,估计总体均数可信区间的范 围也愈宽,说明样本均数距总体均数愈远,对总 体均数的估计也愈差。
标 准 差(S)
标 准 误( S ) X
1.表示个体变量值的变异度大小,即原始变量值的
1.表示样本均数抽样误差的大小,即样本均数的离散程
布差别越大;当逐渐增大时,t分布逐渐逼近于u
分布,当υ =∞时,t分布就完全成正态分布。
❖ t分布曲线是一簇曲线,而不是一条曲线。 ❖ T界值表。
t 分布示意图
t分布曲线下双侧或单侧尾部合计面积
我们常把自由度为υ的t分布曲线下
双侧尾部合计面积或单侧尾部面积为指
定值α时,则横轴上相应的t界值记为
S 5.700.52 X 120
二、标准误的应用
1.表示抽样误差的大小 ; 2.进行总体均数的区间估计; 3.进行均数的假设检验等。
第二节 t 分布
一、t 分布的概念
t分布于1908年由英国统计学家 W.S.Gosset以“Student”笔名发表, 故又称“Studewenku.baidu.comt t”分布
侧以外的面积所占曲线下总面积的比重就
越小 ,说明在抽样中获得此│t│值以及 更大│t│值的机会就越小,这种机会的 大小是用概率P来表示的。
❖ │ t│值越大,则P值越小;反之, │t│值越小,P值越大。根据上述的意义, 在同一自由度下,│t│≥ tα ,则P≤ α ; 反之,│t│<tα,则P>α。
此法计算简便,但由于存在抽样误差,通 过样本均数不可能准确地估计出总体均数大小, 也无法确知总体均数的可靠程度。
二、区间估计
➢ 区间估计是按一定的概率(1-α)估计 包含总体均数可能的范围,该范围亦称 总 体 均 数 的 可 信 区 间 ( confidence interval,缩写为CI)。
95% 的 可 信 区 间 为 143.07±1.96×0.52 , 即 (142.05,144.09)。
99%的可信区间为 143.07±2.58×0.52, 即 (141.73,144.41)。
注意点
➢ 标准误愈小,估计总体均数可信区间的范围也愈 窄,说明样本均数与总体均数愈接近,对总体均 数的估计也愈精确;
正态变量X采用u=(X-μ)/σ变换,则一般的
正态分布N (μ,σ)即变换为标准正态分布N
(0,1)。
又因从正态总体抽取的样本均数服从正态分布
N(μ,
X
),同样可作正态变量的u变换,即
u X X
X
n
❖ 实际工作中由于理论的标准误往往未
知,而用样本的标准误作为的估计值,
95%的可信区间为123.7±2.064×2.38,
即(118.79, 128.61)。故该地1岁婴儿血红
蛋白平均值95%的可信区间为118.7~128.61
(g/L)。
例3.2 上述某市120名12岁健康男孩身高
均数为143.07cm,标准误为0.52cm,试估
计该市12岁康男孩身高均数95%和99%的可 信区间。
第三节 总体均数的区间估计
参数估计:用样本指标(统计量)估 计总体指标(参数)称为参数估计。
估计总体均数的方法有两种,即: 点值估计(point estimation ) 区间估计(interval estimation)。
一、点值估计
点值估计:是直接用样本均数作 为总体均数的估计值。
第一节 均数的抽样误差与标准误
一、标准误的意义及其计算
统计推断(statistical inference) :根据样本信息 来推论总体特征。
均数的抽样误差 :由抽样引起的样本均数与总体 均数的差异称为均数的抽样误差。
标准误(standard error):反映均数抽样误差大 小的指标。
Population
μ
X sample1
1
X sample2 2
X sample3 3
X sample4
4
X sampleX 51
5
标准误计算公式
σ已知: σ未知:
X
n
S
S
X
n
实例:如某年某市120名12岁健康男孩,
已求得均数为143.07cm,标准差为5.70cm,按
公式计算,则标准误为:
tα,υ。
如 当 υ=20 , α=0.05 时 , 记 为 t0.05, 20 ; 当 υ
=据22α,和υα值=,0.查01附时表,,记t为界t值0.0表1, 。22。对于tα, υ值,可根
❖ t分布是t检验的理论基础。由公式可 知,│t│值与样本均数和总体均数之差
成正比,与标准误成反比。
❖ 在t分布中│t│值越大,其两侧或单
t X X
S X
Sn
二、t分布曲线的特征
❖ t分布曲线是单峰分布,以0为中心,左右两侧对
称,
❖ 曲线的中间比标准正态曲线(u分布曲线)低,两 侧翘得比标准正态曲线略高。
❖ t分布曲线随自由度υ而变化,当样本含量越小
(严格地说是自由度υ =n-1越小),t分布与u分
第3章总体均数的区间估计和 假设检验
目录
第一节 均数的抽样误差与标准误 第二节 t 分布 第三节 总体均数的区间估计 第四节 假设检验的意义和基本步骤 第五节 均数的 t 检验
第六节 两总体方差的齐性检验和t'检验
学习要求
掌握:抽样误差的概念和计算方法 掌握:总体均数区间的概念,意义和计算方法 掌握:假设检验的基本步骤及思路 掌握:t检验的概念,意义,应用条件和计算方法
➢ 1-α 称 为 可 信 度 , 常 取 1-α 为 0.95 和 0.99,即总体均数的95%可信区间和99% 可信区间。
➢ 1-α(如95%)可信区间的含义是:总体均数 被 包 含 在 该 区 间 内 的 可 能 性 是 1-α , 即 ( 95 %),没有被包含的可能性为α,即(5%)。
总体均数的可信区间的计算
1.n较小(n<100) 用t值
2.n较大(n≥100) 用U值
(或σ已知)
X
t,
S X
X
u
S X
例3.1 为了了解某地1岁婴儿的血红蛋白浓度,从 该地随机抽取了1岁婴儿25人,测得其血红蛋白的
平均数为123.7g/L,标准差为11.9g/L。试求该地1
岁婴儿的血红蛋白平均值95%的可信区间。
➢ 反之,标准误愈大,估计总体均数可信区间的范 围也愈宽,说明样本均数距总体均数愈远,对总 体均数的估计也愈差。
标 准 差(S)
标 准 误( S ) X
1.表示个体变量值的变异度大小,即原始变量值的
1.表示样本均数抽样误差的大小,即样本均数的离散程
布差别越大;当逐渐增大时,t分布逐渐逼近于u
分布,当υ =∞时,t分布就完全成正态分布。
❖ t分布曲线是一簇曲线,而不是一条曲线。 ❖ T界值表。
t 分布示意图
t分布曲线下双侧或单侧尾部合计面积
我们常把自由度为υ的t分布曲线下
双侧尾部合计面积或单侧尾部面积为指
定值α时,则横轴上相应的t界值记为
S 5.700.52 X 120
二、标准误的应用
1.表示抽样误差的大小 ; 2.进行总体均数的区间估计; 3.进行均数的假设检验等。
第二节 t 分布
一、t 分布的概念
t分布于1908年由英国统计学家 W.S.Gosset以“Student”笔名发表, 故又称“Studewenku.baidu.comt t”分布
侧以外的面积所占曲线下总面积的比重就
越小 ,说明在抽样中获得此│t│值以及 更大│t│值的机会就越小,这种机会的 大小是用概率P来表示的。
❖ │ t│值越大,则P值越小;反之, │t│值越小,P值越大。根据上述的意义, 在同一自由度下,│t│≥ tα ,则P≤ α ; 反之,│t│<tα,则P>α。
此法计算简便,但由于存在抽样误差,通 过样本均数不可能准确地估计出总体均数大小, 也无法确知总体均数的可靠程度。
二、区间估计
➢ 区间估计是按一定的概率(1-α)估计 包含总体均数可能的范围,该范围亦称 总 体 均 数 的 可 信 区 间 ( confidence interval,缩写为CI)。
95% 的 可 信 区 间 为 143.07±1.96×0.52 , 即 (142.05,144.09)。
99%的可信区间为 143.07±2.58×0.52, 即 (141.73,144.41)。
注意点
➢ 标准误愈小,估计总体均数可信区间的范围也愈 窄,说明样本均数与总体均数愈接近,对总体均 数的估计也愈精确;
正态变量X采用u=(X-μ)/σ变换,则一般的
正态分布N (μ,σ)即变换为标准正态分布N
(0,1)。
又因从正态总体抽取的样本均数服从正态分布
N(μ,
X
),同样可作正态变量的u变换,即
u X X
X
n
❖ 实际工作中由于理论的标准误往往未
知,而用样本的标准误作为的估计值,
95%的可信区间为123.7±2.064×2.38,
即(118.79, 128.61)。故该地1岁婴儿血红
蛋白平均值95%的可信区间为118.7~128.61
(g/L)。
例3.2 上述某市120名12岁健康男孩身高
均数为143.07cm,标准误为0.52cm,试估
计该市12岁康男孩身高均数95%和99%的可 信区间。
第三节 总体均数的区间估计
参数估计:用样本指标(统计量)估 计总体指标(参数)称为参数估计。
估计总体均数的方法有两种,即: 点值估计(point estimation ) 区间估计(interval estimation)。
一、点值估计
点值估计:是直接用样本均数作 为总体均数的估计值。
第一节 均数的抽样误差与标准误
一、标准误的意义及其计算
统计推断(statistical inference) :根据样本信息 来推论总体特征。
均数的抽样误差 :由抽样引起的样本均数与总体 均数的差异称为均数的抽样误差。
标准误(standard error):反映均数抽样误差大 小的指标。
Population
μ
X sample1
1
X sample2 2
X sample3 3
X sample4
4
X sampleX 51
5
标准误计算公式
σ已知: σ未知:
X
n
S
S
X
n
实例:如某年某市120名12岁健康男孩,
已求得均数为143.07cm,标准差为5.70cm,按
公式计算,则标准误为:
tα,υ。
如 当 υ=20 , α=0.05 时 , 记 为 t0.05, 20 ; 当 υ
=据22α,和υα值=,0.查01附时表,,记t为界t值0.0表1, 。22。对于tα, υ值,可根
❖ t分布是t检验的理论基础。由公式可 知,│t│值与样本均数和总体均数之差
成正比,与标准误成反比。
❖ 在t分布中│t│值越大,其两侧或单