医学统计学6 参数估计与假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可信区间的确切涵义
1. 95%的可信区间的理解: (1)所要估计的总体参数有95%的可能在我们所估计
的可信区间内。 (2)从正态总体中随机抽取100个样本,可算得100个
样本均数和标准差,也可算得100个均数的可信区间,平 均约有95个可信区间包含了总体均数 。 (3)但在实际工作中,只能根据一次试验结果估计可信
2016年某市男生大学生吸烟率抽样示意图
各抽样之 间的差别
率的标准误
样本率的标准差也称为率的标准误(standard error of rate),可用来描述样本率抽样误差的大 小。率的标准误越小,则率的抽样误差越小,率 的标准误越大,则率的抽样误差越大。公式为:
p
(1 )
n
率的标准误
在一般情况下,总体率往往是未知的,此时可用 样本率来代替总体率,其估计值为:
25
区间估计(interval estimation):
按 预 先 给 定 的 概 率 (1) 所 确 定 的 包
含未知总体参数的一个范围。 总体均数的区间估计:按预先给定的
概率(1)所确定的包含未知总体均数的
一个范围。
如给定=0.05,该范围称为参数的95%可信区间或
置信区间; 如给定=0.01,该范围称为参数的99%可信区间或 置信区间。
当n确定时,上述两者互相矛盾。 提高准确度(可信度),则精确度降低(可信区
间会变宽),势必降低可信区间的实际应用价值, 故不能笼统认为99%可信区间比95%可信区间 要好。 相反,在实际应用中,95%可信区间更为常用。
当可信度确定的情况下,增加样本含量可减小区 间宽度,提高精确度。
总体均数可信区间的计算 需考虑:
随机抽取部分观察单位 样本
μ?
X
Hale Waihona Puke Baidu
X
推断inference
μ
参数估计
样本统计量估计总体参数
参数的估计
点估计:由样本统计量 X & S & p 直接估计 总体参数 & &
区间估计:在一定可信度 (Confidence level) 下,同时考虑抽样误差
点估计(point estimation)
用相应样本统计量直接作为其总体参数 的估计值。如用 估计μ、s估计 等。其方法 虽简单,但未考虑抽样误差的大小。
胞均数 X 4.77,标准差 S 0.38 ,试计算其标 准误。 按公式计算得:
S S 0.38 0.032(1012 / L) X n 140
标准差和标准误的区别
指标
标准差
(s)
标准误
( S X)
意义
衡量变量值离散趋势(变 异程度),s越大表示变 量值变异程度越大,s越 小表示变量值变异程度越 小
nj=10
168.20, 5.36 ┆
165.69, 5.09
100 个
2009年某市18岁男生身高N(167.7, 5.32)的抽样示意图
将此100个样本均数看成新变量值,则这100个样本 均数构成一新分布,绘制直方图。
图3-2 从正态分布总体N(167.7, 5.32)随机抽样所得样本均数分布
6.965 4.541 3.747 3.365
1.943 1.895 1.860 1.833 1.812
2.447 2.365 2.306 2.262 2.228
3.143 2.998 2.896 2.821 2.764
1.721 1.717 1.714 1.711 1.708
2.080 2.074 2.069 2.064 2.060
1.440 1.415 1.397 1.383 1.372
1.323 1.321 1.319 1.318 1.316
附表2 t 界值表
概 率,P
0.05
0.025 0.01
0.10
0.05
0.02
6.314 12.706 31.821
2.920 2.353 2.132 2.015
4.303 3.182 2.776 2.571
2.52.83.13.43.7 4 4.34.64.95.25.55.86.16.46.7 7 7.37.67.9
若用样本标准差S 来估计 ,
SX
S n
降低抽样误差的途径有:
①通过增加样本含量n;
②通过设计减少S。
3个抽样实验结果图示
频数 频数
频数 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
=167.7cm、标准差 =5.3cm 的正态分布。对该总
体进行随机抽样,每次抽 10 人,( nj =10),共抽得
100 个样本( g =100),计算得每个样本均数 X j 及
标准差 S j 。
X j Sj
167.41, 2.74
165.56, 6.57
=167.7cm =5.3cm X1,X2,X3,Xi,
nj=10
X j Sj
167.41, 2.74 165.56, 6.57 168.20, 5.36
┆ 165.69, 5.09
100 个
2009年某市18岁男生身高N(167.7, 5.32)的抽样示意图
Π=36.68%
P1=35.62% P2=37.82% P3=32.53%
P4=39.13%
Pn=36.87%
思考题
请列举描述定量资料的统计图,并举例 说明各类统计图的应用(例:男孩的身 高分布:直方图)
请列举描述定性资料的统计图,并举例 说明各类统计图的应用
纠错题
请指出下表存在的问题,并绘制正确的统计表
某病信息表
年份
1964 1965 1966 1967 1968 合计
病 例 存 活 住院期 急 性 住院期 急性期
双侧概双率侧或概率双或尾双概尾概率率::用用t /2, 表表示示。。 双侧概率或双尾概率:用 t /2, 表示。
自由度
单侧 双侧
1
2 3 4 5
6 7 8 9 10
21 22 23 24 25
0.25 0.50
1.000 0.816 0.765 0.741 0.727
0.718 0.711 0.706 0.703 0.700
总体
随机抽取部分观察单位 样本
μ?
X
推断inference
μ≠ X
抽样误差(sampling error)
由于个体存在差异,因此通过样本推论总体时会 存在一定的误差,样本均数往往不等于总体均数
样本统计量与总体参数的差异。
抽样误差
若 某 市 2009 年 18 岁 男 生 身 高 服 从 均 数 μ
(1)总体标准差是否已知, (2)样本含量n的大小
30
总体均数的区间估计 (一) 已知
95%可信区间: 其中 为标准正态分布的双侧界值。
总体均数的区间估计 总体均数双侧1 可信区间可简写为
X u 2 X 或 X u 2SX
同理,总体均数的单侧1 可信区间则为
X u X 或 X u SX
10
样本均数的抽样分布具有如下特点:
① X ,各样本均数 X 未必等于总体均数;
② 各样本均数间存在差异; ③ 样本均数的分布为中间多,两边少,左右基本 对称。 ④ 样本均数的变异范围较之原变量的变异范围大 大缩小。 可算得这100个样本均数的均数为167.69cm、标准 差为1.69cm。
11
f(t)
ν─>∞(标准正态曲线)
ν =5
ν =1
X
S/ n
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
图3-3 不同自由度下的t 分布图
35
t分布特征:
① 单峰分布,以 0 为中心,左右对称; ② 自由度 越小,则 t 值越分散,t 分布的峰部
越矮而尾部翘得越高; ③当 逼近, SX 逼近 X , t 分布逼近 u 分布,故标
均数的抽样误差与标准误 统计学中为了区别个体观察值之间变异的标准差与 反映样本均数之间变异的标准差,将后者称为均数 的标准误(standard error of the mean)
衡量抽样误差的大小
标准误(standard error, SE)
表示样本统计量抽样误差大小的统计 指标。
均数标准误:说明均数抽样误差的
X u X 或 X u SX
32
总体均数的区间估计 (二) 未知
通常 未知,这时可以用其估计量S 代替,但
已不再服从标准正态分布,而是
服从著名的t 分布。
William Gosset
图6-1 不同自由度的 t 分布图
二、t 分布的图形与特征
t 分布只有一个参数,即自由度
t 分布是一簇曲线。当自由度ν 不同时,曲线 的形状不同。当ν 时,t 分布趋近于标准正 态分布,但当自由度ν 较小时,与标准正态分布差 异较大。其图形如下:
数
数
死亡总 期 死 总病死 病死率
数
亡数 率 ( % )(%)
17 9
8
7
47.1 41.2
13 8
5
4
38.5 30.8
15 8
7
6
46.7 40.0
15 9
6
6
40.0 40.0
12 8
4
4
33.3 33.3
72
42
30
27
41.7
37.5
第六章 参数估计与假设检验
=
参数估计
统 计 推 断 假设检验
450
400
350 300
n 5; SX 0.2212
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
450 400 350 300 250 200 150 100
50 0
均数
450
p(1 p)
Sp
n
案例
为调查某县成年人乙型肝炎表面抗原(HBsAg)的 携带情况,随机抽查了100名成年人,发现HBsAg阳性 者12人,试估计此次HBsAg阳性率调查的抽样误差大 小。
样本阳性率p=12/100=0.12
=0.0325=3.25%
此次HBsAg阳性率调查的抽样误差为3.25%
总体
区间,我们就认为该区间包含了总体均数。
可信区间的两个要素
(1)可信度:用可信度(1)表示:即区间包 含总体均数的理论概率大小 。
当然它愈接近1愈好,如99%的可信区间比95%的可 信区间要好 。
(2)精确度:即区间的宽度 区间愈窄愈好,如95%的可信区间比99%的可信区
间要好 。
28
可信区间的两个要素
0.686 0.686 0.685 0.685 0.684
0.20 0.40
1.376 1.061 0.978 0.941 0.920
0.906 0.896 0.889 0.883 0.879
0.859 0.858 0.858 0.857 0.856
0.10 0.20
3.078 1.886 1.638 1.533 1.476
2.518 2.508 2.500 2.492 2.485
准正态分布是 t 分布的特例。
36
2.参数(only one):
2t.界参值数(o表nly:one):
3.t 界值表:详见附表 2,可反映 t 分布曲下的面
t界3.值t 表界值:表详:见详见附附表表22,,可可反反映映t 分t分布布曲曲下的面积
线下的面单侧积概。率或单尾概率:用t, 表示; 单侧概单侧率概或率单或尾单尾概概率率::用用 t, 表表示示;;
大小,总体计算公式
均数标准误
X
n
实质:样本均数的标准差
.3
Fraction
.2
X ~ N(μ,σ)
.1
X ~ N(, X )
X X ; X X 。
Fraction
0 2.52.83.13.43.7 4 4.34.64.95x.25.55.86.16.46.7 7 7.37.67.9
1 .9 .8 .7 .6 .5 .4 .3 .2 .1 0
应用
描述正态分布(近似正态 分布)资料的频数分布; 医学参考值范围的估计
样本均数的变异程度,表 总体均数区间估计;两个 示抽样误差的大小。标准 或多个总体均数间比较
误越大表示抽样误差越大, 样本均数的可靠性越小;标 准误越小表示抽样误差越小, 样本均数的可靠性越大
=167.7cm =5.3cm X1,X2,X3,Xi,
统计推断:由样本信息推断总体特征
(统计量)样 总体统计指标
本统计指标
(参数)
参数:总体的统计指标,如 总体均数、标准差,采用希
腊字母分别记为μ、σ、π。
固定的常数
抽取部分观察单位
总体
样本
参数
推断 统计量
统计量:样本的统计指标,如样本均数、标准差,采用拉 丁字母分别记为 X , S, p 参数附近波动的随机变量
400 350
n 10; S X
0.1580
300
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
n 30; S X 0.0920
案例 例6-1 在某地随机抽查成年男子140人,得红细