抽样误差与假设检验.pptx
合集下载
抽样误差和可信区间-幻灯片(1)
均数之差可信区间的计算
正常组
肝炎组
1=?
2=? 1- 2 =?
均 数:273.18ug/dL 标准差:9.77ug/dL
均 数: 231.86ug/dL 标准差:12.17ug/dL
X1X242.32
合并方差与均数之差的标准误
❖ 合并方差(方差的加权平均)
sC 2 (n11n)1s 12 n2(n 221)s22
❖ 每一自由度下的t分布曲线都有其自身分布规律。t界值 表。
t分布曲线下的面积
f (x)
nn21n1
x2 n
n12
2
-t 0 t
t界值表
单侧:
P(t <-tα,ν)= α或 P(t >tα,ν)= α 双侧:
-t 0 t
P(t <-tα/2,ν)+ P(t >tα/2,ν)= α 即:P(-tα/2,ν<t <tα/2,ν)= 1-α [例] 查t界值表得t值表达式
可信区间的定义
❖ 按一定的概率或可信度(1-α)用一个区间 来估计总体参数所在的范围,该范围通 常称为参数的可信区间或者置信区间 (confidence interval,CI),预先给定的概 率(1-α)称为可信度或者置信度 (confidence level),常取95%或99%。
❖ 可信区间(CL, CU )是一开区间 CL、CU 称 为可信限
❖ 这里的95%,指的是方法本身!而不
是某个区间! ❖ 总体参数虽未知,但却是固定的值,
而不是随机变量值 。
95%可信区间的含义
按这种方法 构建的可信区 间,理论上平 均每100次,有 95 次 可 以 估 计 到总体参数。
chapter7假设检验基础1_PPT幻灯片
标准误:样本统计量(均数或率) 的标准差称为标准误
Review——总体均数估计方法
置信区间的两个要素
置信度(1-), 可靠性
一般取90%,95%。 可人为控制。
精确性
是指区间的大小(或长短)
兼顾可靠性、精确性
Chapter 7 目的要求
1、掌握假设检验的基本步骤 2、熟悉假设检验的基本原理 3、掌握各种t检验适用条件及应用 4、熟悉t检验公式 5、掌握一类、二类错误的定义及关系。
P,拒绝H0,接受H1,差别有统计学意义
P ,不拒绝H0,差别无统计学意义
统计学结论+专业结论
假设检验的基本步骤(4)
P,拒绝H0,接受H1,差别有统计学意义
P ,不拒绝H0,差别无统计学意义
统计学结论+专业结论
假设检验基础
假设检验的思想与原理** t检验** 假设检验与区间估计的关系** 假设检验的两类错误**与功效* 二项分布与Poisson分布的Z检验* 正态性检验
t 检验(t test)
单样本资料的t检验 配对设计资料的t检验 两独立样本资料的t检验
单样本资料的t检验
检验目的: 推断某总体均数是否等于已知的总体均数。
例1:铅作业会影响人体的血红蛋白(HB)含量吗?
正常人Βιβλιοθήκη 铅作业工人014g0/L
?
140≠130.83
结论: 铅作业工人与正常人的 血红蛋白含量不同
通常取0.05
的选择要根据实际情况而定
二、假设检验的基本步骤
第一步
建立假设,确定检验水准
原假设
H0:0
(null hypothesis)
H1:0
0.05
对立假设 (alternative hypothesis)
Review——总体均数估计方法
置信区间的两个要素
置信度(1-), 可靠性
一般取90%,95%。 可人为控制。
精确性
是指区间的大小(或长短)
兼顾可靠性、精确性
Chapter 7 目的要求
1、掌握假设检验的基本步骤 2、熟悉假设检验的基本原理 3、掌握各种t检验适用条件及应用 4、熟悉t检验公式 5、掌握一类、二类错误的定义及关系。
P,拒绝H0,接受H1,差别有统计学意义
P ,不拒绝H0,差别无统计学意义
统计学结论+专业结论
假设检验的基本步骤(4)
P,拒绝H0,接受H1,差别有统计学意义
P ,不拒绝H0,差别无统计学意义
统计学结论+专业结论
假设检验基础
假设检验的思想与原理** t检验** 假设检验与区间估计的关系** 假设检验的两类错误**与功效* 二项分布与Poisson分布的Z检验* 正态性检验
t 检验(t test)
单样本资料的t检验 配对设计资料的t检验 两独立样本资料的t检验
单样本资料的t检验
检验目的: 推断某总体均数是否等于已知的总体均数。
例1:铅作业会影响人体的血红蛋白(HB)含量吗?
正常人Βιβλιοθήκη 铅作业工人014g0/L
?
140≠130.83
结论: 铅作业工人与正常人的 血红蛋白含量不同
通常取0.05
的选择要根据实际情况而定
二、假设检验的基本步骤
第一步
建立假设,确定检验水准
原假设
H0:0
(null hypothesis)
H1:0
0.05
对立假设 (alternative hypothesis)
抽样误差与假设检验(ppt 43页)
认为治疗前后有差别。
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1
抽样误差及t检验PPT课件
如样本均数的标准差称为均数的标准误, x
n
均数的标准误表示样本均数的变异度
当总体标准差未知时,用样本方差代替,s x 前者称为理论标准误,后者称为样本标准误
s n
因为标准差S随着样本含量的增加而趋于稳定,故增 加样本含量可以降低抽样误差。
-
7
• n 越大,均数的均数就越接近总体均数;
• n 越大,变异越小,分布越窄;
区间。
3、与样本含量
• 标准差是随着样本含量- 的增多,逐渐趋于稳定。 9 • 标准误是随着样本含量的增多,逐渐减少。
与标准差的关系
• 首先,标准差和标准误都是变异指标,说明个 体之间的变异用标准差,说明统计量之间的变
联 异用标准误。
• 其次,当样本含量不变时,标准差大,标准误
系 亦越大,均数的标准误与标准差成正比。
抽样误差及t检验
盛法林,华海峰
-
1
抽样误差的概念
• 抽样研究的过程中,样本统计量与总体参数间的差异称为抽样误差。
这在抽样研究中是不可避免的。
•
抽样误差的表现形式:
• 异
1)总体参数与样本统计量之间的差异;如μ与 X 之间的差
• 差异
2)样本统计量与样本统计量之间的差异;如X 与X 之间的
-
2
• 理论上,如果进行n次抽样,可能会得到n 个各个不相同的样本统计量。如果我们的 抽样方法一致的话则n多个统计量之间存在 着规律可循。
-
5
均数的抽样误差及标准误
• 各样本均数未必等于总体均数; • 样本均数间存在差异;
• X 的分布很有规律,围绕着,中间多,两边少,
左右基本对称; • 样本均数的变异范围较之原变量的变异范围大大
抽样误差与假设检验
预防医学
Preventive Medicine
预防医学教研室 2004.06
第十五章 数值变量的统 计推断
蔡泳
均数的抽样误差和标准误
一、 均数的抽样误差 抽样研究的目的就是要用样本信
息来推断总体特征。由于存在变异, 样本均数往往不等于总体均数,因 此抽样后各个样本均数也往往不等于 总体均数,且各个样本均数间也不一 定都相等。这种由抽样造成的样本均 数与总体均数的差异或各样本均数之 间的差异称为抽样误差,抽样误差是 不可避免的。
一般情况下未知,常用 SX
估计抽样误差的大小。SX 作为 X
的估计值。
总体均数的 可信区间
参数估计(parameter estimation) 是指用样本指标(统计量)估计总体指标 (参数),有两种常用方法:点估计和区 间估计。 1.点估计(point estimation):样本均数 就是总体均数的点估计值。
2. 选定检验方法和计算统计量 要根据研究设计的类型、统计
推断的目的,选用适当的统计量。 如成组设计的两样本均数比较选用 t检验,大样本时可选用近似的u检 验。不同的检验统计量有不同的公 式。
3. 确定检验用的临界值:如t α
4. 用算得的统计量与相应的界值 作比较,作出判断结论
根据P值大小作出拒绝或不拒绝 H0的结论。P值是指由H0所规定的 总体作随机抽样,获得等于及大于 (或等于及小于)现有统计量的概率。
2.由于环境条件的影响,两个均数间 有本质差异,即山区男子脉搏总体 均数与一般男子的脉搏总体均数不 同。现在所得样本均数74.2与总体 均数72的有本质性差别,不完全是 抽样误差的原因。为了判断可能性 是第一种还是第二种,或者说为了 判断差别是否本质性的,必须通过 假设检验来回答这个问题。假设检
Preventive Medicine
预防医学教研室 2004.06
第十五章 数值变量的统 计推断
蔡泳
均数的抽样误差和标准误
一、 均数的抽样误差 抽样研究的目的就是要用样本信
息来推断总体特征。由于存在变异, 样本均数往往不等于总体均数,因 此抽样后各个样本均数也往往不等于 总体均数,且各个样本均数间也不一 定都相等。这种由抽样造成的样本均 数与总体均数的差异或各样本均数之 间的差异称为抽样误差,抽样误差是 不可避免的。
一般情况下未知,常用 SX
估计抽样误差的大小。SX 作为 X
的估计值。
总体均数的 可信区间
参数估计(parameter estimation) 是指用样本指标(统计量)估计总体指标 (参数),有两种常用方法:点估计和区 间估计。 1.点估计(point estimation):样本均数 就是总体均数的点估计值。
2. 选定检验方法和计算统计量 要根据研究设计的类型、统计
推断的目的,选用适当的统计量。 如成组设计的两样本均数比较选用 t检验,大样本时可选用近似的u检 验。不同的检验统计量有不同的公 式。
3. 确定检验用的临界值:如t α
4. 用算得的统计量与相应的界值 作比较,作出判断结论
根据P值大小作出拒绝或不拒绝 H0的结论。P值是指由H0所规定的 总体作随机抽样,获得等于及大于 (或等于及小于)现有统计量的概率。
2.由于环境条件的影响,两个均数间 有本质差异,即山区男子脉搏总体 均数与一般男子的脉搏总体均数不 同。现在所得样本均数74.2与总体 均数72的有本质性差别,不完全是 抽样误差的原因。为了判断可能性 是第一种还是第二种,或者说为了 判断差别是否本质性的,必须通过 假设检验来回答这个问题。假设检
抽样误差与假设检验.
A.减小样本标准差B•减小样本含量
C.扩大样本含量D•以上都不对
第四章抽样误差与假设检验
专业
临床本科
年级
人数
授课教师
学院
医学院
教研室:
卫生统计
教师姓名
施少平
讲授课程
科目:第四章均数的抽:
样误差与假设检验
课程类型:理论
教学目的和 要求
1.目的
本章介绍了均数的抽样误差与标准误差的概念及计算方法;总
体均数可信区间的概念、可信区间的估计方法;假设检验的基 本概念和假设检验的一般步骤。通过本章的学习, 使学生掌握
二•总体均数可信区间的估计
1•可信区间的概念及可信区间的两个要素
2.总体均数可信区间的计算:1)当总体标准差未知,n较小时按t分布原
理;2)当总体标准差己知或未知,但n较大时按正态分布原理。
3.正态分的应用
三•假设检验的意义及基本步骤
1•假设检验的基本概念:通过检验推断误差是由抽样误差所致还是由于环意义及基本步骤(25分)
教学方法:1•课堂讲授
教具:1、多媒体
使用教材及主要参考书:
马斌荣主编,《医学统计学》(供基础、临床、预防、口腔医学类专业
用)(第4版),人民卫生出版社,2004年
马斌荣主编,《医学统计学》(供基础、临床、预防、口腔医学类专业用) (第3版),人民卫生出版社,2001年
境条件的影响。
2•步骤:1)建立假设关确定检验水准;2)选择检验方法和计算检验统计
量;3)确定P值和作出统计推断结论;
教学重点难点:
1.重点:均数的抽样误差与标准误差的的概念与计算方法,掌握
总体均数可信区间的计算及假设检验的基本步骤
2.难点:正确理解P值的含义。
C.扩大样本含量D•以上都不对
第四章抽样误差与假设检验
专业
临床本科
年级
人数
授课教师
学院
医学院
教研室:
卫生统计
教师姓名
施少平
讲授课程
科目:第四章均数的抽:
样误差与假设检验
课程类型:理论
教学目的和 要求
1.目的
本章介绍了均数的抽样误差与标准误差的概念及计算方法;总
体均数可信区间的概念、可信区间的估计方法;假设检验的基 本概念和假设检验的一般步骤。通过本章的学习, 使学生掌握
二•总体均数可信区间的估计
1•可信区间的概念及可信区间的两个要素
2.总体均数可信区间的计算:1)当总体标准差未知,n较小时按t分布原
理;2)当总体标准差己知或未知,但n较大时按正态分布原理。
3.正态分的应用
三•假设检验的意义及基本步骤
1•假设检验的基本概念:通过检验推断误差是由抽样误差所致还是由于环意义及基本步骤(25分)
教学方法:1•课堂讲授
教具:1、多媒体
使用教材及主要参考书:
马斌荣主编,《医学统计学》(供基础、临床、预防、口腔医学类专业
用)(第4版),人民卫生出版社,2004年
马斌荣主编,《医学统计学》(供基础、临床、预防、口腔医学类专业用) (第3版),人民卫生出版社,2001年
境条件的影响。
2•步骤:1)建立假设关确定检验水准;2)选择检验方法和计算检验统计
量;3)确定P值和作出统计推断结论;
教学重点难点:
1.重点:均数的抽样误差与标准误差的的概念与计算方法,掌握
总体均数可信区间的计算及假设检验的基本步骤
2.难点:正确理解P值的含义。
第4章抽样误差与假设检验ppt课件
治疗前后血清甘油三酯疗效的无效假设和备择假
设分别为
H : 0
0
d
H : 0
1
d
检验水准 是预先规定的拒绝域的概率值,实
际中一般取 0.05 。
[说明] :备择假设有双侧和单侧两种情况。双侧
检验指不论正方向还是负方向的误差,若显著地超出
检验水准则拒绝H0,H1
:
μ d
0即为双侧检验;单侧
检验指仅在出现正方向或负方向误差超出规定的水准
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研 究总体。由于个体存在差异,因此通过样本推论 总体时会存在一定的误差,如样本X均数 往往不 等于总体 均数 ,这种由抽样造成的样本均数与总 体均数的差异称为抽样误差。对于抽样研究,抽 样误差不可避免。
二、抽样误差的分布
对上面问题可以作如下考虑:
治疗前后甘油三
酯的变化(差值)
d
样本
n 30 S 0.76 d 1.38 d
0? d
问题归纳: 样本疗效
药物作用 + 机遇
d 1.38
μ 0? d
问题:| d 0 | 究竟多大能够下“有效”的结论?
假定治疗前后血清甘油三酯检测结果的差值服从正态分
布,若 H : 0 则 t d 0 服从t 分布。
上限: X u/2.SX 4.77 1.96 0.38/ 140 4.83(1012 / L)
ቤተ መጻሕፍቲ ባይዱ
三、模拟实验
模拟抽样成年男子红细胞数。设定:
4.75, 0.39,n 140
产生100个随机样本,分别计算其95%的可信区间, 结果用图示的方法表示。从图可以看出:绝大多数 可信区间包含总体参数 4.75 ,只有6个可信区间 没有包含总体参数(用星号标记)。
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
S S 0.38 0.032(1012 / L) X n 140
标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽 样误差的大小,更重要的是可以用于参数的区间估 计和对不同组之间的参数进行比较。
标准差与标准误的区别与联系
意义
标准差:描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。
假定某年某地所有13岁女学生身高服从
N(155.4,5.32),在该总体中作100次随
机抽样,ni = 30
总体
样本n1 样本n2
样本nk
样本均数
X1
153.6
X2
153.1
····
Xk 157.7
各样本均数不相同,为什么?
从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布
抽样分布
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变
异越小说明估计越精确,因此可以用标准误表示
抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求得样 本均数标准误的估计值 : S
X
S
S
X
n
例4.1 在某地随机抽查成年男子140人,计算 得红细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计算均数的标准误。
第四章 抽样误差与假设检验
要求:
掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及
其与参考值范围的区别。
了解:t变换。
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研究 总体。由于个体存在差异,因此通过样本推论总体 时会存在一定的误差,如样本均数 往X往不等于总 体均数 ,这种由抽样造成的样本均数与总体均数 的差异称为抽样误差。对于抽样研究,抽样误差不 可避免。
标准误:描述统计量的抽样误差,标准误 较小,表示样本统计量与参数较 接近。说明样本均数的可靠性。
标准差与标准误的区别与联系
区别
标准差:表示变量值离散程度的大小, 结合均数估计参考值范围。 随样本含量的增多,逐渐趋于稳定。
标准误:表示抽样误差的大小, 估计参数的可信区间。 随样本含量的增多逐渐减小。
100.0
二、抽样误差的分布
理论上可以证明:若从正态总体 N(, 2) 中,反 复多次随机抽取样本含量固定为n 的样本,那么 这些样本均数 X 也服从正态分布,即 X 的总体均 数仍为,样本均数的标准差为 / n 。
抽样分布
抽样分布示意图
中心极限定理: 当样本含量很大的情况下,无论原始测量变量服从 什么分布, 的X抽样分布均近似正态。
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1
第二节 总体均数的估计
一、可信区间的概念(Confidence Interval)
参数估计
点估计:不考虑抽样误差,如 X 区间估计:考虑抽样误差
Parameter estimation
point estimation interval estimation
总体均数的估计
1. 点(值)估计(point estimation): 用样本统计量直接作为总体参数的估
计值。
例 为了解某地1岁婴儿的血红蛋白浓度, 从该地随机抽取1岁婴儿25人,测得血红蛋 白的平均数为123.7g/L,标准差为 11.98g/L。试估计该地1岁婴儿血红蛋白 的平均 浓度。
2. 区间估计(interval estimation):
指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率
2. t 分布只有一个参数ν,曲线形状与样本 含量有关。是一簇曲线。
f (t) v 标准正态分布 v5 v 1
图4-2 不同自由度的 t 分布图
3. 当自由度逼近∞,t分布则逼近u分布, 故标准正态分布是t分布的特例。
f (t) v 标准正态分布 v5 v 1
图4-2 不同自由度的 t 分布图
1 称为可信度,通常取 1 0.95
可信度(置信率、置信度): 由样本信息推断总体特征时,估计正确的概
率,用1-α表示。
α: Ⅰ类错误的概率
可信区间(confidence interval CI): 按预先给定的概率确定的包含未知总
体参数的可能范围。
可信限(confidence limit CL): 构成可信区间的两个点值 上限值:较大的值 下限值:较小的值
4. t分布曲线下的面积为1(100%)。
t界值表
概率P 自由度 双侧 0.10 0.05 0.02 0.01 ν 单侧 0.05 0.025 0.01 0.005
21
1.721 2.080 2.518 2.831
22
1.717 2.074 2.508 2.819
23
1.714 2.069 2.500 2.807
标准差与标准误的区别与联系
联系
(1)标准差与标准误都是变异指标,说 明个体值之间的差异时用标准差,说明统 计量之间的差异时用标准误。 (2)当样本含量不变时,标准差越大, 标准误亦越大。
t 分布
中心极限定理
总体
n 100
X ~ N(, 2)
样本均数 X ~ N(, X 2)
变量变换 u X
组段(cm) 152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~
158.0~158.6 合计
频数 1 4 4 22 25 21 17 3 2 1
100
频率(%) 1.0 4.0 4.0 22.0 25.0 21.0 17.0 3.0 2.0 1.0
标准正态分布
u ~ N (0,1)
变量变换
X 未知
u
X
X
t s
X
服从自由度 = n 1的t分布
f (t) v 标准正态分布 v5 v 1
图4-2 不同自由度的 t 分布图
1.单峰分布,以0为中心,左右两侧对称
f (t) v 标准正态分布 v5 v 1
图4-2 不同自由度的 t 分布图
标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽 样误差的大小,更重要的是可以用于参数的区间估 计和对不同组之间的参数进行比较。
标准差与标准误的区别与联系
意义
标准差:描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。
假定某年某地所有13岁女学生身高服从
N(155.4,5.32),在该总体中作100次随
机抽样,ni = 30
总体
样本n1 样本n2
样本nk
样本均数
X1
153.6
X2
153.1
····
Xk 157.7
各样本均数不相同,为什么?
从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布
抽样分布
抽样分布示意图
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变
异越小说明估计越精确,因此可以用标准误表示
抽样误差的大小:
X
n
实际中总体标准差 往往未知,故只能求得样 本均数标准误的估计值 : S
X
S
S
X
n
例4.1 在某地随机抽查成年男子140人,计算 得红细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计算均数的标准误。
第四章 抽样误差与假设检验
要求:
掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及
其与参考值范围的区别。
了解:t变换。
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研究 总体。由于个体存在差异,因此通过样本推论总体 时会存在一定的误差,如样本均数 往X往不等于总 体均数 ,这种由抽样造成的样本均数与总体均数 的差异称为抽样误差。对于抽样研究,抽样误差不 可避免。
标准误:描述统计量的抽样误差,标准误 较小,表示样本统计量与参数较 接近。说明样本均数的可靠性。
标准差与标准误的区别与联系
区别
标准差:表示变量值离散程度的大小, 结合均数估计参考值范围。 随样本含量的增多,逐渐趋于稳定。
标准误:表示抽样误差的大小, 估计参数的可信区间。 随样本含量的增多逐渐减小。
100.0
二、抽样误差的分布
理论上可以证明:若从正态总体 N(, 2) 中,反 复多次随机抽取样本含量固定为n 的样本,那么 这些样本均数 X 也服从正态分布,即 X 的总体均 数仍为,样本均数的标准差为 / n 。
抽样分布
抽样分布示意图
中心极限定理: 当样本含量很大的情况下,无论原始测量变量服从 什么分布, 的X抽样分布均近似正态。
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1
第二节 总体均数的估计
一、可信区间的概念(Confidence Interval)
参数估计
点估计:不考虑抽样误差,如 X 区间估计:考虑抽样误差
Parameter estimation
point estimation interval estimation
总体均数的估计
1. 点(值)估计(point estimation): 用样本统计量直接作为总体参数的估
计值。
例 为了解某地1岁婴儿的血红蛋白浓度, 从该地随机抽取1岁婴儿25人,测得血红蛋 白的平均数为123.7g/L,标准差为 11.98g/L。试估计该地1岁婴儿血红蛋白 的平均 浓度。
2. 区间估计(interval estimation):
指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率
2. t 分布只有一个参数ν,曲线形状与样本 含量有关。是一簇曲线。
f (t) v 标准正态分布 v5 v 1
图4-2 不同自由度的 t 分布图
3. 当自由度逼近∞,t分布则逼近u分布, 故标准正态分布是t分布的特例。
f (t) v 标准正态分布 v5 v 1
图4-2 不同自由度的 t 分布图
1 称为可信度,通常取 1 0.95
可信度(置信率、置信度): 由样本信息推断总体特征时,估计正确的概
率,用1-α表示。
α: Ⅰ类错误的概率
可信区间(confidence interval CI): 按预先给定的概率确定的包含未知总
体参数的可能范围。
可信限(confidence limit CL): 构成可信区间的两个点值 上限值:较大的值 下限值:较小的值
4. t分布曲线下的面积为1(100%)。
t界值表
概率P 自由度 双侧 0.10 0.05 0.02 0.01 ν 单侧 0.05 0.025 0.01 0.005
21
1.721 2.080 2.518 2.831
22
1.717 2.074 2.508 2.819
23
1.714 2.069 2.500 2.807
标准差与标准误的区别与联系
联系
(1)标准差与标准误都是变异指标,说 明个体值之间的差异时用标准差,说明统 计量之间的差异时用标准误。 (2)当样本含量不变时,标准差越大, 标准误亦越大。
t 分布
中心极限定理
总体
n 100
X ~ N(, 2)
样本均数 X ~ N(, X 2)
变量变换 u X
组段(cm) 152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~
158.0~158.6 合计
频数 1 4 4 22 25 21 17 3 2 1
100
频率(%) 1.0 4.0 4.0 22.0 25.0 21.0 17.0 3.0 2.0 1.0
标准正态分布
u ~ N (0,1)
变量变换
X 未知
u
X
X
t s
X
服从自由度 = n 1的t分布
f (t) v 标准正态分布 v5 v 1
图4-2 不同自由度的 t 分布图
1.单峰分布,以0为中心,左右两侧对称
f (t) v 标准正态分布 v5 v 1
图4-2 不同自由度的 t 分布图