医学统计学(参数估计)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从同一总体中每次随机抽取样本含量相等(都为n)的样 本,每一个样本计算样本均数,由于抽样误差的存在,这 些样本均数有大有小,其分布是以总体均数为中心的正态 分布.
反映了样本均数的离散程度,衡量样本统计量抽 样误差大小的统计指标。
标准误
标准误
标准误
标准误
σ x =σ/
sx =s/
n
n
标准差与均数标准误的区别与联系
解:13例中的近期有效人数服从二项分布。
由m=8,n-m=5,1-=0.95,查统计用表11,得p1= 0.316,p2=0.861,故近期有效总体率p的95%置信区间为 (0.316,0.861)。
2.总体率的置信区间
⑵ 正态近似法 当n足够大,并且np和 n(1-p)>5时,p的抽样分布近似正态分布,可 按照式4-9计算总体率的置信区间 (p-1.96
标准差(s) 意 义 描述个体值围绕样本均 数的离散程度 均数的标准误 描述从同一总体中随机抽 出样本含量相同的多个样 本均数围绕总体均数的离 散程度 随着n的增多逐渐减小, 当n趋于总体时,则标准 误趋近于0。 总体均数置信区间的估计
s随着n的增多逐渐趋于 与样本含 稳定,当n>200时,基 量的关系 本稳定。 估计范围 正常值范围的估计
公式
( x t/2,v· x S , x t/2,v · x ) S ( x ±t/2,v· ) S
x
即
应用条件 σ未知,样本量较小, 可计算 出 x 及s x
2.总体率的置信区间
直接查表法 正态近似法
⑴直接查表法 率的置信区间
小样本时可用直接查表计算总体
【例4-9】 用某种中医疗法治疗青少年近视13例,其中8 人近期有效,求该法近期有效率的95%置信区间。
t
X S n
X SX
,
v n 1
2.t 分布的特征
(1)t分布是以0为中心,左右对称的单峰分布。
(2)形似标准正态分布,与自由度有关。
(3)t分布是一簇曲线。
z=
x
x
x
/
~N(0,1)
n
t 分布(与z分布比较的特点)
t 分布示意图
3. t 界值表(附表7 P190)
(4-3)
举例
某地为了解钩虫病的感染情况,随机抽取
150人,其中10人感染,请计算感染率的抽 样误差(标准误)
p (1 p ) / n
第二节
t 值与 t 分布
一、t值
随机变量X~
u z X
标准正态分布 N(0,1) 标准正态分布 N(0,1) Student t分布 自由度:n-1
横坐标:自由度, υ 纵坐标:概率 p, 即曲线下阴影部分的面积, p的 意思是从正态总体作随机抽样,得到样本 t值落在该区间的概率; 表中的数字:相应的 |t | 界值。
4.t 分布的规律
t 界值有单侧和双侧两种情 况:自由度为df时,表示方法: t 分布的双侧α界值记为 tα/2, df,P (| t |≥tα/2,df)=;
4. 置信区间和可信限
可信限(confidence limit,简记为CL)为两个点值; 置信区间是以上、下可信限为界的一个范围。
【习题】
1.已知医圣张仲景使用桂枝的处方中,用桂 枝的量服从正态分布,标准差σ=3g ,查《伤寒 论》中使用桂枝的处方39张,算得桂枝用量的样 本均数为 x =8.14g ,试求医圣张仲景使用桂枝 时,桂枝用量总体均数μ的95%置信区间。
t 分布的单侧α界值记为
tα,df,P ( t ≥tα,df)=, P ( t ≤-tα,df)= 。
4. t 分布的规律:
(1) 自由度(υ)一定时,p 与 t 成反比;
自由度df=8时
单侧界值t0.05,8=1.860
双侧界值t0.05/2,8=2.306
单侧界值t0.01,8=2.896 双侧界值t0.01/2,8=3.355
置信区间的意义
95%置信区间 :
考虑总体参数的置信区间取决于所抽取的 样本,在同样条件下,进行许多重复的抽样, 每抽取一个样本可得到待估计参数的一个置信 区间,在这些区间中,有的包含待估计的参数, 有的不包含,平均说来每100个中有95个正确, 有5%犯错误的风险。
总体均数可信区间的计算
(2)t 分布法
点值估计 区间估计
统计推断
假设检验
统计推断的任务就是用样本信息推 论总体特征。
一、点值估计
由样本观察值算出总体参数的一个估计值 (为统计量)称为该参数的一个点值估计 (point estimation)。
总体均数的点值估计:以某一样本均数 来作总体均数的估计
ˆ x
如随机抽查140例成年男子,测得红细胞的均值为4.79×1012/L, 以此值作为某地成年男子的总体均数的估计值, 叫“点值估 计”。 优点:点值估计比较方便、简单。 缺点:由于存在抽样误差,不同的样本可能得到不同的估计 值,所以其准确度较低。
均数的抽样误差
如要了解某地成年男子红细胞数的总体均
数,抽得一个144人的样本,求出样本均数
x
=5.38×1012/L,估计该地成年男子红细胞数
的总体均数μ,由于存在抽样误差 ≠μ,
x
-μ称均数的抽样误差。 x
第一节 抽样分布与抽样误差
样本均数的标准差称为 均数的标准误。
一、抽样误差与标准误的概念
意义:与正常值范围进行比较
意义: 虽然不能知道某市全体成人脉搏均数的确切 数值,但有95%的把握说该市全体成人脉搏均数 在71.4次/分 -- 72.6次/分之间,有99%的把握说该 市全体成人脉搏均数在 71.2次/分 -- 72.8次/分之间。 换句话说,做出该市成人脉搏均数为71.4次/分 -72.6次/分的结论,说对的概率是95%,说错的概率 是5%;做出该市成人脉搏均数为71.2次/分 -- 72.8次/ 分的结论,说对的概率是99%,说错的概率是1%。
1. 总体均数的估计
(1)z 分布法
①σ已知
z 分布法 t 分布
②σ未知,但n足够大,n>50
( x z/2· , x z/2 · ) s s x x
即ቤተ መጻሕፍቲ ባይዱ x ±z/2· ) s
x
(1)z分布 法
应用条件: 例题
σ已知,或σ未知但样本量较大并可计算出 x 及 Sx
调查某市400名成人,得到脉搏均数为72次/分, 标准差为6.4次/分,求95%和99%可信区间.
统计推断:用样本信息推论总体特征的过程。 包括: 参数估计: 运用统计学原理,用从样本计算出来 的统计指标量,对总体统计指标量进行估计。 假设检验:又称显著性检验,是指由样本间存在 的差别对样本所代表的总体间是否存在着差别做 出判断。
抽样研究与抽样误差
抽样研究的目的是要用样本信息推断总体特征,称统计 推断。 1、抽样研究:从总体中随机抽取一定数量的观察单位组成样 本,对其进行研究,以此来推断总体的情况。 如从某地8岁的男孩中,随机抽取200人,分别测量其身高, 计算样本均数,用来估计该地8岁男孩身高的总体均数就属 于抽样研究。 2、 均数的抽样误差(sampling error) :是指由抽样造成的 样本均数与总体均数之差 。
2.从同一批号的逍遥丸中随机抽检5丸,测 得其崩解时间(月)为21,18,20,16,15。 已知药丸崩解时间服从正态分布,求该批药丸 崩解时间总体均数的95%置信区间。
某校全体女大学生身高均数的95%可信区间为 (163.0 , 164.5) cm的意义:
虽然不能知道某校全体女大学生身高均数的 确切数值,但有95%的把握说校全体女大学生身 高均数在163.0 -- 164.5cm之间。换句话说,做出 校全体女大学生身高均数为163.0 -- 164.5cm的 结论,说对的概率是95%,说错的概率是5%; 某校全体女大学生身高均数的99%可信区间为 (162.7 , 164.7) cm的意义:
介绍:
总体方差的置信区间
几个概念: 计量资料:测定每个观察单位某项指标量的大小 得到的数据(资料)。 总体:研究对象(某项变量值)的全体。
样本:总体中随机抽取的一部分研究对象的某项 变量值。
统计量:从样本计算出来的统计指标。 参数:总体的统计指标叫参数。 抽样误差:由于抽样引起的样本统计量与总体参 数之间的差异(举例,抽样误差的产生及含义)。
第四章
参数? ( 、、)
参数估计
统计量 (x、s、p)
随机抽样
总体
样本
统计推断
教学目的与要求
掌握:
1、抽样分布与抽样误差 2、t分布的概念和特征
3、点估计
4、总体均数的区间估计 5、总体率的区间估计
了解:
1、总体方差的置信区间
教学内容提要
重点讲解:
抽样分布与抽样误差
t分布 总体均数的区间估计 总体率的区间估计
4. t 分布的规律:
(2) 概率(p) 一定时, υ 与 t 成反比; 自由度df=8时 t0.05,8=1.860
t0.05/2,8=2.306
自由度df=10时
t0.05,10=1.812
t0.05/2,10=2.228
第三节
总体均数与总体概率的估计
参数估计就是用样本指标(即统计量) 来估计总体指标(即参数) 参数估计 总体均数的估计
二、区间估计
在一定概率(1-α)下,利用样本统计量 和标准误确定出参数可能存在的范围, 称为区间估计。
总体均数的可信区间:根据样本均数,按一定的 可信度计算出总体均数很可能在的一个数值范围。 所给出的范围称为该参数的(1-α)置信区间或可 信区间(confidence interval,简记为CI)。 这个范围包含参数值的可靠程度为(1-α),称为 可信度或置信度(confidence degree)或可信概率。
当样本含量不变时,标准差愈大,标准误也愈大, 两者联系 如均数的标准误愈标准差成正比。
二、样本率的抽样分布与抽样误差
样本率与样本率之间,样本率与总体概率之间会 产生差异,称为率的抽样误差。 表示率的抽样误差的指标称为率的标准误。 计算公式: σp =
(1 ) / n
(4-2)
若总体率π未知时: s p = p (1 p ) / n
p (1 p ) / n
,p+1.96
p (1 p ) / n
)
【例4-10】 用某种中医疗法治疗青少年近视100 例,其中80人近期有效,求该法近期有效率的 95%置信区间。
3.置信区间的两要素
一是准确度:反映在(1-α)的大小,即区间包含总体参数的 可能性(概率)的大小,准确度越接近1越好,例如, 99%CI比95%CI犯错误的风险小。 二是精密度:反映在区间的长度,区间的长度愈小愈精密。
N(μ ,σ)
均数
z变换 z u
X
N ( , /
t X S n
X
~
n
)
X SX ,
n
v n 1
t值为样本均数与总体均数相差多 少个标准误
二、t 分布
1.定义
从同一总体中抽取许多大小 相同的样本,可得到许多 x 及s,代入式,就可以得到 许多的t值,将这些t值绘成 直方图,当样本无限多时, 就绘成一条光滑的曲线,这 就是t分布曲线。这种t值的 分布称t分布。
反映了样本均数的离散程度,衡量样本统计量抽 样误差大小的统计指标。
标准误
标准误
标准误
标准误
σ x =σ/
sx =s/
n
n
标准差与均数标准误的区别与联系
解:13例中的近期有效人数服从二项分布。
由m=8,n-m=5,1-=0.95,查统计用表11,得p1= 0.316,p2=0.861,故近期有效总体率p的95%置信区间为 (0.316,0.861)。
2.总体率的置信区间
⑵ 正态近似法 当n足够大,并且np和 n(1-p)>5时,p的抽样分布近似正态分布,可 按照式4-9计算总体率的置信区间 (p-1.96
标准差(s) 意 义 描述个体值围绕样本均 数的离散程度 均数的标准误 描述从同一总体中随机抽 出样本含量相同的多个样 本均数围绕总体均数的离 散程度 随着n的增多逐渐减小, 当n趋于总体时,则标准 误趋近于0。 总体均数置信区间的估计
s随着n的增多逐渐趋于 与样本含 稳定,当n>200时,基 量的关系 本稳定。 估计范围 正常值范围的估计
公式
( x t/2,v· x S , x t/2,v · x ) S ( x ±t/2,v· ) S
x
即
应用条件 σ未知,样本量较小, 可计算 出 x 及s x
2.总体率的置信区间
直接查表法 正态近似法
⑴直接查表法 率的置信区间
小样本时可用直接查表计算总体
【例4-9】 用某种中医疗法治疗青少年近视13例,其中8 人近期有效,求该法近期有效率的95%置信区间。
t
X S n
X SX
,
v n 1
2.t 分布的特征
(1)t分布是以0为中心,左右对称的单峰分布。
(2)形似标准正态分布,与自由度有关。
(3)t分布是一簇曲线。
z=
x
x
x
/
~N(0,1)
n
t 分布(与z分布比较的特点)
t 分布示意图
3. t 界值表(附表7 P190)
(4-3)
举例
某地为了解钩虫病的感染情况,随机抽取
150人,其中10人感染,请计算感染率的抽 样误差(标准误)
p (1 p ) / n
第二节
t 值与 t 分布
一、t值
随机变量X~
u z X
标准正态分布 N(0,1) 标准正态分布 N(0,1) Student t分布 自由度:n-1
横坐标:自由度, υ 纵坐标:概率 p, 即曲线下阴影部分的面积, p的 意思是从正态总体作随机抽样,得到样本 t值落在该区间的概率; 表中的数字:相应的 |t | 界值。
4.t 分布的规律
t 界值有单侧和双侧两种情 况:自由度为df时,表示方法: t 分布的双侧α界值记为 tα/2, df,P (| t |≥tα/2,df)=;
4. 置信区间和可信限
可信限(confidence limit,简记为CL)为两个点值; 置信区间是以上、下可信限为界的一个范围。
【习题】
1.已知医圣张仲景使用桂枝的处方中,用桂 枝的量服从正态分布,标准差σ=3g ,查《伤寒 论》中使用桂枝的处方39张,算得桂枝用量的样 本均数为 x =8.14g ,试求医圣张仲景使用桂枝 时,桂枝用量总体均数μ的95%置信区间。
t 分布的单侧α界值记为
tα,df,P ( t ≥tα,df)=, P ( t ≤-tα,df)= 。
4. t 分布的规律:
(1) 自由度(υ)一定时,p 与 t 成反比;
自由度df=8时
单侧界值t0.05,8=1.860
双侧界值t0.05/2,8=2.306
单侧界值t0.01,8=2.896 双侧界值t0.01/2,8=3.355
置信区间的意义
95%置信区间 :
考虑总体参数的置信区间取决于所抽取的 样本,在同样条件下,进行许多重复的抽样, 每抽取一个样本可得到待估计参数的一个置信 区间,在这些区间中,有的包含待估计的参数, 有的不包含,平均说来每100个中有95个正确, 有5%犯错误的风险。
总体均数可信区间的计算
(2)t 分布法
点值估计 区间估计
统计推断
假设检验
统计推断的任务就是用样本信息推 论总体特征。
一、点值估计
由样本观察值算出总体参数的一个估计值 (为统计量)称为该参数的一个点值估计 (point estimation)。
总体均数的点值估计:以某一样本均数 来作总体均数的估计
ˆ x
如随机抽查140例成年男子,测得红细胞的均值为4.79×1012/L, 以此值作为某地成年男子的总体均数的估计值, 叫“点值估 计”。 优点:点值估计比较方便、简单。 缺点:由于存在抽样误差,不同的样本可能得到不同的估计 值,所以其准确度较低。
均数的抽样误差
如要了解某地成年男子红细胞数的总体均
数,抽得一个144人的样本,求出样本均数
x
=5.38×1012/L,估计该地成年男子红细胞数
的总体均数μ,由于存在抽样误差 ≠μ,
x
-μ称均数的抽样误差。 x
第一节 抽样分布与抽样误差
样本均数的标准差称为 均数的标准误。
一、抽样误差与标准误的概念
意义:与正常值范围进行比较
意义: 虽然不能知道某市全体成人脉搏均数的确切 数值,但有95%的把握说该市全体成人脉搏均数 在71.4次/分 -- 72.6次/分之间,有99%的把握说该 市全体成人脉搏均数在 71.2次/分 -- 72.8次/分之间。 换句话说,做出该市成人脉搏均数为71.4次/分 -72.6次/分的结论,说对的概率是95%,说错的概率 是5%;做出该市成人脉搏均数为71.2次/分 -- 72.8次/ 分的结论,说对的概率是99%,说错的概率是1%。
1. 总体均数的估计
(1)z 分布法
①σ已知
z 分布法 t 分布
②σ未知,但n足够大,n>50
( x z/2· , x z/2 · ) s s x x
即ቤተ መጻሕፍቲ ባይዱ x ±z/2· ) s
x
(1)z分布 法
应用条件: 例题
σ已知,或σ未知但样本量较大并可计算出 x 及 Sx
调查某市400名成人,得到脉搏均数为72次/分, 标准差为6.4次/分,求95%和99%可信区间.
统计推断:用样本信息推论总体特征的过程。 包括: 参数估计: 运用统计学原理,用从样本计算出来 的统计指标量,对总体统计指标量进行估计。 假设检验:又称显著性检验,是指由样本间存在 的差别对样本所代表的总体间是否存在着差别做 出判断。
抽样研究与抽样误差
抽样研究的目的是要用样本信息推断总体特征,称统计 推断。 1、抽样研究:从总体中随机抽取一定数量的观察单位组成样 本,对其进行研究,以此来推断总体的情况。 如从某地8岁的男孩中,随机抽取200人,分别测量其身高, 计算样本均数,用来估计该地8岁男孩身高的总体均数就属 于抽样研究。 2、 均数的抽样误差(sampling error) :是指由抽样造成的 样本均数与总体均数之差 。
2.从同一批号的逍遥丸中随机抽检5丸,测 得其崩解时间(月)为21,18,20,16,15。 已知药丸崩解时间服从正态分布,求该批药丸 崩解时间总体均数的95%置信区间。
某校全体女大学生身高均数的95%可信区间为 (163.0 , 164.5) cm的意义:
虽然不能知道某校全体女大学生身高均数的 确切数值,但有95%的把握说校全体女大学生身 高均数在163.0 -- 164.5cm之间。换句话说,做出 校全体女大学生身高均数为163.0 -- 164.5cm的 结论,说对的概率是95%,说错的概率是5%; 某校全体女大学生身高均数的99%可信区间为 (162.7 , 164.7) cm的意义:
介绍:
总体方差的置信区间
几个概念: 计量资料:测定每个观察单位某项指标量的大小 得到的数据(资料)。 总体:研究对象(某项变量值)的全体。
样本:总体中随机抽取的一部分研究对象的某项 变量值。
统计量:从样本计算出来的统计指标。 参数:总体的统计指标叫参数。 抽样误差:由于抽样引起的样本统计量与总体参 数之间的差异(举例,抽样误差的产生及含义)。
第四章
参数? ( 、、)
参数估计
统计量 (x、s、p)
随机抽样
总体
样本
统计推断
教学目的与要求
掌握:
1、抽样分布与抽样误差 2、t分布的概念和特征
3、点估计
4、总体均数的区间估计 5、总体率的区间估计
了解:
1、总体方差的置信区间
教学内容提要
重点讲解:
抽样分布与抽样误差
t分布 总体均数的区间估计 总体率的区间估计
4. t 分布的规律:
(2) 概率(p) 一定时, υ 与 t 成反比; 自由度df=8时 t0.05,8=1.860
t0.05/2,8=2.306
自由度df=10时
t0.05,10=1.812
t0.05/2,10=2.228
第三节
总体均数与总体概率的估计
参数估计就是用样本指标(即统计量) 来估计总体指标(即参数) 参数估计 总体均数的估计
二、区间估计
在一定概率(1-α)下,利用样本统计量 和标准误确定出参数可能存在的范围, 称为区间估计。
总体均数的可信区间:根据样本均数,按一定的 可信度计算出总体均数很可能在的一个数值范围。 所给出的范围称为该参数的(1-α)置信区间或可 信区间(confidence interval,简记为CI)。 这个范围包含参数值的可靠程度为(1-α),称为 可信度或置信度(confidence degree)或可信概率。
当样本含量不变时,标准差愈大,标准误也愈大, 两者联系 如均数的标准误愈标准差成正比。
二、样本率的抽样分布与抽样误差
样本率与样本率之间,样本率与总体概率之间会 产生差异,称为率的抽样误差。 表示率的抽样误差的指标称为率的标准误。 计算公式: σp =
(1 ) / n
(4-2)
若总体率π未知时: s p = p (1 p ) / n
p (1 p ) / n
,p+1.96
p (1 p ) / n
)
【例4-10】 用某种中医疗法治疗青少年近视100 例,其中80人近期有效,求该法近期有效率的 95%置信区间。
3.置信区间的两要素
一是准确度:反映在(1-α)的大小,即区间包含总体参数的 可能性(概率)的大小,准确度越接近1越好,例如, 99%CI比95%CI犯错误的风险小。 二是精密度:反映在区间的长度,区间的长度愈小愈精密。
N(μ ,σ)
均数
z变换 z u
X
N ( , /
t X S n
X
~
n
)
X SX ,
n
v n 1
t值为样本均数与总体均数相差多 少个标准误
二、t 分布
1.定义
从同一总体中抽取许多大小 相同的样本,可得到许多 x 及s,代入式,就可以得到 许多的t值,将这些t值绘成 直方图,当样本无限多时, 就绘成一条光滑的曲线,这 就是t分布曲线。这种t值的 分布称t分布。