[医学]第04章 抽样误差与假设检验 - 副本

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/12/5
问题提出
• 样本统计量(样本均数)与总体参数( 总体均数)有否差异?
• 若有差异,其规律如何?用什么指标来 衡量?
• 怎样用样本信息来推断总体,从而作出 结论。
2020/12/5
二、抽样误差的分布
理论Biblioteka Baidu可以证明:若从正态总体 N( , 2 ) 中,反 复多次随机抽取样本含量固定为n 的样本,那么 这些样本均数X 也服从正态分布,即X 的总体均 数仍为 。
2020/12/5
例4.3 试计算例4.1中该地成年男子红细胞总体 均数的95%可信区间。
本例属于大样本,可采用正态近似的方法计算
可信区间。因为 4 .7 , 7 0 .3 , 8 n 14 ,则0 95%可
信区间为:
下限: X - u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 4 . 7 ( 1 0 1 1 / L 2 ) 0 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 4 . 8 ( 1 0 1 3 / L 2 ) 0
0
1
2
3
S代替
u X
X
u X
N(0,1) 标准正态分布
0.025
0.025
-1.96
0
1.96
2020/12/5
t分布 特征
X
• S X 不服从标准正态分布,小样本时服
从自由度ν=n-1的t分布 • t分布曲线是以0为中心的对称分布
• 自由度较小时,曲线峰的高度低于标准正 态曲线,且曲线峰的宽度也较标准正态分 布曲线峰狭,尾部面积大于标准正态曲
• 例如=9,单侧=0.05 ,查附表2得单侧
t0.05,9=1.833 • 自由度n-135-134 ,查附表2,得
t0.05/2,34=2.032
2020/12/5
第三节 总体均数的估计 一、可信区间的概念(Confidence Interval)
参数估计
点估计:不考虑抽样误差,如 X 区间估计:考虑抽样误差
(X u /2 X ,X u /2 X )
其中
u
/
为标准正态分布的双侧界值。
2
2020/12/5
(二) 未知
通常未知,这时可以用其估计量S 代替,
但(X)/(S/ n)
已不再服从标准正态分布,而是
服从著名的 t 分布f 。( t )
v 标准正态分布 v5 v 1
2020/12/5
图4-2 不同自由度的 t 分布图
线尾部面积,而且自由度越小,t分布的这
种特征越明显 (翘尾低狭峰)
2020/12/5
t分布 特征
• 自由度ν越大,t分 布越接近于正态分 布;当自由度ν逼 近∞时,t分布趋向 于标准正态分布。
f(t)
ν─>∞(标准正态曲线)
ν=5
ν=1
• 自由度ν不同,曲 -5
-4
-3
-2
-1
0
1
2
3
4
5
线形态不同, t分
第四章 抽样误差与假设检验
(Sampling Error and Hypothesis Test) 宁波大学医学院 沈其君
2020/12/5
问题提出
• 研究方法:对总体进行研究,抽样研究 • 除对关乎国计民生和严重危害人民健康
的需对总体进行研究外,一般用抽样研 究 • 有些领域只能用抽样研究方法 • 研究的目的是对总体下结论,而研究信 息来自样本
区间估计:指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率
1 称为可信度,通常取 10.9。5
2020/12/5
二、可信区间的计算 (一) 已知
u X / n
P1.9 6 X/ n1.960.95
PX1.96 nX1.96 n0.95
可信区间:
一般情况
(X 1 .96 X ,X 1 .96 X )
标准误是抽样分布的重要特征之一,可用于衡 量抽样误差的大小,更重要的是可以用于参数的区 间估计和对不同组之间的参数进行比较。
2020/12/5
第二节t分布
样本均数正态分布
——t值与t分布的引入
N(, 2 ) X
N(,2) 观察值正态分布
-3
-2
-1
t X S
X
t分布
0
1
2
3
u X
X
-3
-2
-1
(如n>100),也可以用u / 2
替换 t /2
近似计算。
2020/12/5
例4.2 某医生测得25名动脉粥样硬化患者血浆 纤维蛋白原含量的均数为3.32 g/L,标准差为0.57 g/L,试计算该种病人血浆纤维蛋白原含量总体均 数的95%可信区间。
下限: 上限:
X - t /2 ( ).S X 3 .3 2 2 .0 6 0 .5 4 /7 2 3 5 .0(9 g/L) X t /2 ( ).S X 3 .3 2 2 .0 6 0 .54 /7 2 3 5 .5(6 g/L)
侧时表示为t/2, ,其意义为
• 单 侧 P ( t t , ) 或 P ( t t , )
双侧 P( t t/ 2 , ) P( t t/ 2 ),
2020/12/5
概率、自由度与t值关系 ——t界值
• 一定自由度和概率下的 t值t , , t/2, 可通过查t界值表——附表2获得;
2020/12/5
抽样分布
抽样分布示意图
中心极限定理: 当样本含量很大的情况下,无论原始测量变量服
从什么分布,X 的抽样分布均近似正态。
抽样分布
2020/12/5
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的
变异越小说明估计越精确,因此可以用标准误表
可信区间的计算: 计算可信区间的原理与前完全相同,仅仅是两
侧概率的界值有些差别。即
P (- t/2() S X - / nt/2())= 1 -
可信区间:
(X - t/2 ().S X , X + t/2 ().S X)
需要注意:在小样本情况下,应用这一公式的
条件是原始变量服从正态分布。在大样本情况下
示抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求
得样本均数标准误的估计值 S : X
S S
X
n
2020/12/5
例4.1 在某地随机抽查成年男子140人,计算得 红细胞均数4.77×1012/L,标准差0.38 ×1012/L , 试计算均数的标准误。
S S0.380.032(1012/L) X n 140
t
布是一簇曲线
2020/12/5
概率、自由度与t值关系 ——t界值
• 标准正态分布中u值大小与尾部面积(概率)有关,
以 (单侧u)和u/2(双侧)表示;
• 在t分布中,当自由度一定时越小,|t|越大; • 在一定时,自由度越小,|t|越大,大于u值 • 在t分布中,t值与、的大小有关; • 在单侧时(尾部面积取单侧)t 界值表示为t , , 双
相关文档
最新文档