总体均数的估计与假设检验(1)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

可信区间的含义 confidence interval, CI
▪ 有1- (如95%)的可能认为计算出的可 信区间包含了总体参数。
例4.3 某市随机抽查12岁男孩100人,得身高均数 139.6cm,标准差6.85cm。该地12岁男孩身高 均数的95%可信区间为:138.3(cm)~141.0 (cm) 。可信区间不含可信限。
24
例9.10 随机抽取某地健康男子20人,测得 样本的收缩压均值为118.4 mmHg,标准差 为10.8mmHg ,试估计该地男子收缩压总 体均数的95%的置信区间。 =20-1= 19 t 0.05, 19=2.093
X t0.05,19SX X t0.05,19
S n
(118.4 2.093 10.8 , 118.4 2.093 10.8 )
X X 397.59 357.89 39.70
1
2
S 2 S 2 104.302 89.672
(X X ) u S , S 1 2
10.92
1
2
/ 2 X1X2
X1 X2
nn
193 128
1
2
39.70 1.9610.92, 39.70 1.9610.92 18.30 ~ 61.10(mg%)
S n
x 1.96s
x 1.96sx , x t0.05, sx
2021/2/7
本科生卫生学(5)
33
标准误(standard error)和标准差(standard deviation) 的区别与联系
意义上
标准差(σ或 s)
标准误 ( x或sx )
描述一组变量值的离散 描述样本均数间的离散趋
得频数分布如下:
(cm)
频数
▪样本均数的抽样分
151~
1
布特点:
152 ~
6
➢各样本均数未必等 153 ~
10
于总体均数
154 ~
18
➢各样本均数之间存 155 ~
29
在差异
156 ~
20
➢样本均数的分布有 一定规律性
157 ~ 158 ~
2021/2/7
159~
本科生卫生学(5)
8 6 2
5
计算出这100 个样本均数的
2021/2/7
20
20
(113.3, 123.5)
2021/2/7
本科生卫生学(5)
25
3、s未知、但样本例数足够大时
(n>60或100时) ,按正态分布
原理。
▪ 总体均数的95%置信区间为:
X 1.96S X
2021/2/7
本科生卫生学(5)
26
大样本时总体均数的可信区间估计
▪ 例:测得某地200名正常人血清胆固醇的均 数为3.64mmol/L,标准差为1.20mmol/L。 试求该地正常人血清胆固醇均数95%的可 信区间。
2021/2/7
本科生卫生学(5)
14
二 t分布的图形和特征
▪ t分布是一簇曲线,自由度决定曲线的形状。 当ν∞,t分布正态分布
▪ 以0为中心,左右对称的单峰曲线
2021/2/7
本科生卫生学(5)
15
t值表的使用(P804)
横标目:自由度υ(1,2,3,…,∞) 纵标目:概率P(双侧:0.05, 0. 01,… 0.001 )
含的个体不同,所得的各个样本统计量 (如均数)往往不相等,这种由于个体差 异和抽样造成的样本统计量与总体参数的 差异,称为抽样误差。
• 产生抽样误差的原因:个体差异 • 在抽样研究中,抽样误差是无法避免的; • 抽样误差的分布有一定的规律性。
2021/2/7
本科生卫生学(5)
3
例: ▪ 某地14岁健康女生身高的总体均数为
标准误,是反映均数抽样误差大 小的指标。均数标准误越小,说 明样本均数与总体均数的差异程 度越小,用该样本均数估计总体 均数越可靠。
2021/2/7
本科生卫生学(5)
7
标准误的计算
, S S
X
n
X
n
▪当标准差一定时,标准误与样本含量n 的平方根呈反比,因此,可以通过适当 增加样本含量来减少标准误,从而降低 抽样误差。
▪ 从理论上说,做100次抽样,可计算得 100个置信区间,平均有95个置信区间 包括总体均数,只有5个置信区间不包 括总体均数。这种估计方法会冒5%犯错 误的风险。
2021/2/7
本科生卫生学(5)
30
可信区间的确切含义是指 ▪ 有1- (如95%)的可能认为计算
出的可信区间包含了总体参数。 ▪ 在可信度确定的前提下,增加样本
X u / 2SX
X 1.96
S n
3.64 1.96
1.20 200
(3.47, 3.81)
2021/2/7
X 1.96S 3.64 1.96 1.20 (1.29, 本科生卫生学(5)
5.99 )32
均数的可信区间与 参考值范围的区别
▪ 含义:
▪ 用途:
▪ 计算公式:
SX
例数,可减少区间宽度
2021/2/7
本科生卫生学(5)
31
四、可信区间与参考值范围的区别
▪ 随机抽取某地200名正常成人,测得血清胆固 醇均数为3.64 mmol / L,标准差为1.20 mmol / L 。求得该地正常人血清胆固醇
均数的95%可信区间为3.47~ 3.81(mmol / L) 95%参考值范围为1.29~ 5.99(mmol / L)
2
/ 2 X X 1
本2 科, 生卫S生X1学X(2 5)
S12 S22 n1 n2
S2 X1
S2 X2
(n较大时) 28
两总体均数差的可信区间
▪ 某医院心内科在冠心病普查工作中,测得40~50岁年 龄组男性193人的脂蛋白均数为379.59(mg%),标 准差为104.30 (mg%);女性128人的脂蛋白均数为 357.89(mg%),标准差为89.67 (mg%)。问男性与 女性的脂蛋白总体均数有多大差别?
体,抽取例数为n的样本,样本均数的总
体均数= μ,标准差
。 X
2021/2/7
本科生卫生学(5)
11
第二节 t 分布
▪ t 分 布的概念 ▪ t分布的图形、性质、 ▪t界值表 ▪查表
2021/2/7
本科生卫生学(5)
12
一、t分布的概念
X ~ N, 2
X
~
N
,
2 X
u X ~ N 0,1
9
标准误的用途:
➢衡量样本均数的可靠性 ➢估计总体均数的置信区间 ➢用于均数的假设检验
2021/2/7
本科生卫生学(5)
10
数理统计推理和中心极限定理
从正态总体中,随机抽取例数为n的样
本,样本均数服从正态分布;
从偏态总体随机抽样,当n足够大时,
样本均数服也近似服从正态分布分布;
从均数为μ,标准差为σ的正态或偏态总
2021/2/7
本科生卫生学(5)
8
标准误的计算
▪ 例 某地随机抽查14岁健康女生10人,得 身高均数154.8cm,标准差5.40cm,计算 标准误。
➢总体标准差 已知
X
5.30 1.68
n 10
➢总体标准 差未知:
S S 5.40 1.71
X
n
10
2021/2/7
本科生卫生学(5)
S
1.20
X u / 2S X X u / 2
3.64 1.96 n
200
(3.47, 3.81)
▪ 该地正常人血清胆固醇均数95%的可信区间为
3.47~3.81( mmol/L )
2021/2/7
本科生卫生学(5)
27
4、两总体均数差的可信区间
▪ 从标准差相等、均数不等的两个正态总体
中随机抽样,样本含量分别为n1,n2,样本
点(值)估计:point estimation,直接用样 本统计量作为总体参数的估计值。方法简 单但未考虑抽样误差大小。
区间估计:interval estimation,按预先给定 的概率95%,或(1-),确定的包含未知总 体参数的可能范围。考虑了抽样误差。
2021/2/7
本科生卫生学(5)
20
u X ~ N 0,1
X
当 X 未知时,用S X
S 估计,则 n
t X
SX
为t分布, n - 1
2021/2/7
本科生卫生学(5)
13
t 分 布 的 概 念 --续
▪ 当总体标准差未知时,可作正态变量 x 的t转换: t x
sn
▪ t分布与标准正态分布的联系:t分布只有1个参 数:自由度(=n-1)。 逐渐增大时,t分布 逐渐逼近标准正态分布。当=∝时,t分布就完 全成为标准正态分布了。
Confidence limit,CL。 下限,lower limit,L/L1。 上限,upper limit,U/L2。
2021/2/7
本科生卫生学(5)
21
Hale Waihona Puke Baidu
总体均数的可信区间原理
▪ 按t分布的原理得出
P t / 2,
X
S X
t / 2,
1
X
t
/ 2,
S X
X
t / 2,
S X
S X t , S X X t / 2, n
18
第三节 总体均数的置信区间估计 confidence interval
▪ 可信区间的概念 ▪ 总体均数可信区间的计算 ▪ 均数可信区间与参考值范围的区别
2021/2/7
本科生卫生学(5)
19
一、可信区间的概念
▪ 统计推断:参数估计与假设检验。
▪ 参数估计: parametric estimation,用样本统计 量估计总体参数的方法。
均数和标准差分别为 总体均数之差(1- 2
X)、1 的S1和1-、可XS信22,区则间两为
(X X )t S ,
1
2
/ 2 ,
X1 X2
S X1 X2
Sc2
1 n1
1 n2
Sc2
( n1
1)S12 n1
(n2 1)S22 n2 2
(n 较小时 )
( X X ) u S 1 2021/2/7
▪ 结论:40~50岁年龄组男性与女性的脂蛋白总体均
数不同,男性平均比女性高出18.30~61.10 (mg%)
2021/2/7
本科生卫生学(5)
29
三、可信区间的解释
confidence interval, CI
▪ 该地健康男子收缩压总体均数的95%置 信区间为(113.3,123.5)mmHg。
趋势
势。
应用上
(1)s 越小,表示变量值 (1)sx 越小,表示样本均数 围绕均值分布越密集,说 与总体均数越接近,说明样
明平均数的代表性越好。 本均数推断总体均数的可靠
性越大。
(2)可用 x u s 估计变 (2)可用 x t, sx 估计总体均
量值的范围
数的可信区间。
与 n 的关系 n 越大,s 越趋于稳定 n 越大, sx 越小
含得义t为(0.0:5, 9) = 2.262 。
2021/2/7
本科生卫生学(5)
17
t值表中:
➢ 相同时,t值越大, P值越小; ➢P值相同时,自由度 值越大,t值越小; ➢t值相同时,双侧概率P为单侧概率P的两
倍。
t分布的应用: ➢总体均数的区间估计 ➢t检验
2021/2/7
本科生卫生学(5)
(单侧:0.025,0.005,… 0.0005 ) t界值:一侧尾部面积为单侧概率,两侧尾部面积之和
称为双侧概率。
2021/2/7
本科生卫生学(5)
16
t值表的使用—续
t分布曲线两端尾部面积表示在随机抽样 中,获得的t值大于等于某t界值的概率, 即P值。
例如:当=9时,双侧概率α=0.05时,查t界值表
155.4cm,标准差为5.30。若从该地14岁健 康女生中随机抽取样本含量n均为10人的 样本共100次,计算出每次样本的均数为 153.8cm,155.5cm,……
总体 µ
x1 153.8 x2 155.5 x3 156.0
2021/2/7
x100 158 .1
本科生卫生学(5)
4
可计算100个样本均数, 身高组段
2021/2/7
本科生卫生学(5)
22
二、总体均数可信区间的计算
▪ 1、s已知时:总体均数的95%置信区 间为:
X 1.96 X
2021/2/7
本科生卫生学(5)
23
2、s未知、且样本例数较少时, 按t分布原理
▪ 总体均数的95%置信区间为:
X
t0.05,
S X
2021/2/7
本科生卫生学(5)
第三章
总体均数的估计 与假设检验
2021/2/7 1
统计推断的目的:
▪ 用样本的信息去推论总体。
➢医学研究中大多数是无限总体, ➢即使是有限总体,但也经常受各种条
件的限制,不可能直接获得总体的信 息。
2021/2/7
本科生卫生学(5)
2
第一节 均数的抽样误差与标准误
•抽样误差(sampling error):因各样本包
均数为 155.52cm,样 本均数的标准 差为1.64cm
身高组段 (cm)
151~ 152 ~ 153 ~ 154 ~ 155 ~
频数
1 6 10 18 29
156 ~
20
157 ~
8
158 ~
6
2021/2/7
159~
本科生卫生学(5)
2 6
标准误(standard error)
•样本均数的标准差,也称均数的
相关文档
最新文档