第三章 抽样误差和总体均数估计(二)
第三章抽样误差与假设检验详解演示文稿
态分布N (0,1)。
(二)t分布
由于在实际工作中,往往σ是未知 的,常用s作为σ的估计值,为了与Z变 换区别,称为t 变换t = x ,统计量 t 值的分布称为t 分布。 sx
t分布有如下特征
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与n(确切地 说与自由度ν)大小有关。自由度ν越小,t分布曲 线越低平;自由度ν越大,t分布曲线越接近标准 正态分布(u分布)曲线,如图4.1。
从什么分布,X 的抽样分布均近似正态。
抽样分布
图 抽样分布示意图
二.均数的抽样误差
如上所述,数理统计研究表明,抽样 误差具有一定的规律性,可以用特定的指 标来描述。这个指标称为标准误 (standard error SE)。
标准误除了反映样本统计量之间的离 散程度外,也反映样本统计量与相应总体 参数之间的差异,即抽样误差大小。
标准误的计算公式:
x / n
sx
s n
•意义:反映抽样误差的大小。标准误越小, 抽样误差越小,用样本均数估计总体均数的 可靠性越大。
•与样本量的关系:S 一定,n↑,标准误↓
例4.1 在某地随机抽查成年男子140人, 计算得红细胞均数4.77×1012/L,标准差 0.38 ×1012/L ,试计算均数的标准误。
第三章抽样误差与假 设检验详解演示文稿
优选第三章抽样误差 与假设检验
第三章 抽样误差与假设检验
熟悉: 1、抽样误差的概念 2、引起抽样误差的原因 3、均数的标准误的计算 4、标准差和标准误的区别
第一节 抽样分布与抽样误差
一.抽样研究 (一)抽样研究的意义
总体
抽样分布与参数估计
三、t分布曲线下的面积分布规律
自由度为 的t分布曲线
t 分布曲线下 的整个面积为1, t 分布曲线下从a到b 的面积为t值分布 在此范围内的百分 比,即t值落在此 范围内的概率P。
双侧:由于t分布以0为中心对称,即 P(t≤- t, )= P(t≥ t, )= /2 于是有P(- t, ≤t≤ t, )=1-
sx
u X
X
t X =n-1
s X
u分布 t分布
二、t分布图形的特点
• 1. t分布是一簇曲线。 t分布有一个参数, 即自由度 ,与标准差的自由度一致。
• 2. t分布曲线以0为中心,左右对称; 越小, t变量值的离散程度越大,曲线越扁平。
• 3. t分布曲线较标准正态曲线要扁平些(高 峰低些,两尾部翘得高些), 逐渐增大, t分布曲线逐渐的逼近于标准正态曲线,若 =,则t分布曲线和标准正态曲线完全吻 合。
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
点值估计
参数估计
假设检验
区间估计
一、基本概念
➢ 参数估计:用样本统计量来估计总体参数。
点值估计:不计抽样误差,直接用样本均数来 估计μ。
区间估计:根据抽样误差的规律,按一定的概 率估计总体均数的所在范围。统计上习惯用95% 或99%可信区间表示总体均数可能所在范围。
第一节 均数的抽样误差 第二节 t分布 第三节 总体均数可信区间的估计
一、抽样研究:从总体中随机抽取部分 观察单位构成样本,用样本信息去 推断总体特征的研究方法。
统计推断的过程
总体
样
样本统计量
本
例如:样本均
值、比例
二、抽样误差:在抽样研究中,因抽样造 成的样本统计量与样本统计量、样本统计 量与总体参数的差值。
总体均数的估计和假设检验PPT课件
5、t’检验
当方差不齐时,两小样本均数的比较用t’
检验。 检验统计量:t'
x1 x2 s12 s22 n1 n2
临界值:
t'
s2 x1
t ,v1
s2
s2 x2
s2
t ,v2
x1
x2
如果t’ >t’α,则P<α,则拒绝原假设。
6、z检验
当样本含量较大时,可用z检验来进行
两样本均数的比较。它是用于两大样本均 数的比较,目的是推断两总体均数是否相 同。所用公式:
4、成组t检验
(3) 资料要求:两样本来自正态或近似正态 分布,并且两组总体方差相等。
(4) 对数正态分布的资料,在进行t检验时,
要先把数据进行对数转换,用对数值作为
新变量进行成组t检验。
4、成组t检验
(4) 公式: H0: μ1= μ2 H1:μ1 ≠ μ2
t x1 x2 s
x1 x2
(1) 小样本资料的估计(未知)
P(t ,<t<t , ) 1
由1-αx时 t,,计( 算sn )总<体<均x数的t,可( 信sn区)可间得的到通当式可为信:度
即:x
t
,
s x
例2:试求例1中该地1岁婴儿血红蛋白平 均值的95%的可信区间。
s
由ν于 =nn= -215=,24s=,11α.取9g双/L尾, 0s.x 05,n查t2界.3值8 g表/ L得:
准差s2=1.626 mg/dl,配对t检验结果,t =-
3.098,P<0.05,故认为脑病病人尿中类固醇排出 量高于正常人。
表3 正常人和脑病病人尿中类固醇排出量 (mg/dl)
正常人
2.90 5.41 5.48 4.60 4.03 5.10 4.97 4.24 4.37 3.05 2.78脑ຫໍສະໝຸດ 病人差别是由抽样误差引起的。
抽样调查、抽样误差与抽样估计
总体所有单位的标志值或标志特征计算的、反 映总体某种属性的综合指标。 总体指标是一个确定的值。 2、样本指标(抽样指标、统计量):它由样 本各个单位标志值或标志特征计算的综合指标 。 样本指标是一个随机变量。 3、抽样调查中常用的指标 平均数(均值)、方差或标准差、比例(是 非标志比重)
3、可以对全面调查的结果进行评价和修正。 4、抽样调查可用于工业生产过程中的质量控制
。 5、可以对某些总体的假设进行检验,来判断假
设的真伪,为决策提供依据。
82020/1/8
(四)抽样调查的两种类型 一类是参数估计: 它是根据对样本进行观测取得的数据,然后对
研究对象整体的数量特征取值给出估计方法。 另一类是假设检验: 它是根据对样本进行观测取得的数据,然后对
42020/1/8
一、抽样调查的概念、特点及作用
(一)抽样调查的概念
抽样调查是按照随机原则从总体中抽取样本进行 调查,得到样本资料,并根据样本资料对总体数 量特征作出具有一定可靠程度的估计和推断,以 达到认识总体的一种统计方法。
也称为 抽样推断、抽样估计或统计推断。 例:某地进行水质监测,考察河水中某种污染
0.9500 0.9545 0.99 0.9973
可以看出:当确定的抽样极限误差愈大,则概
率度z也就愈大,相应的概率也愈大,即样本指 标落在指定范围的可能性也愈大;反之,则相
应的概率就减少。
92020/1/8
说明:对总体指标估计的范围(置信区间)的测定 总是在一定的概率保证程度下进行的,因为既然 抽样误差是一个随机变量,就不能指望抽样指标 落在置信区间内成为必然事件,只能视为一个可 能事件,就要用一定的概率来给予保证。
总体均数估计与假设检验
t 检验
t-test
三、t检验和Z检验(参数检验)
以t分布为基础的检验称为t检验。 t分布的发现使得小样本统计推断成为 可能。因而,它被认为是统计学发展历 史中的里程碑之一。
在医学统计学中,t检验是重要的 假设检验方法之一。常用于两个均数之 间差别的比较,并根据资料的分布情况 及设计类型,选择不同的t检验方法。
配对样本t检验
Paired design t-test
关系:随着样本含量增加,都减小。
联系:都是表示变异度的指标,当样本量一定时,两者成正比。
标准误用途
衡量样本均数的可靠性:标准误越小,表明 样本均数越可靠;
参数估计:估计总体均数的置信区间(区 域);
假设检验:用于总体均数的假设检验(比 较)。
二、t分布:
标准正态分布
开创了小样本统计的新纪元,t分布主要用于总体均数的 区间估计和t检验!
假设检验(Hypothesis test)
假设检验的推断原理 假设检验的基本步骤 t检验和Z检验 两样本总体方差齐性检验 正态性检验 假设检验的两类错误 注意事项
一、假设检验的推断原理
上面介绍过的区间估计方法是统计 推断的内容之一,假设检验是统计推 断的另一重要内容。正是应用统计推 断的理论和方法,人们才能顺利地通 过有限的样本信息去把握总体特征, 实现抽样研究的目的。
s / n 25.74 36
在H0成立的前提下,当前t值出现的概率有多 大???
如何给出这个量的界限?
小概率事件在一次试验 中基本上不会发生 !
从附表2中查出在显著性水平 =0.05(双侧),自由度为35所 对应的t界值=2.318,即为拒绝 域与接受域的界限。如果计算
公卫执业医师-综合笔试-卫生统计学-第三单元总体均数的估计和假设检验
公卫执业医师-综合笔试-卫生统计学-第三单元总体均数的估计和假设检验[单选题]1.两个样本均数比较作t检验,其他条件不变,犯第Ⅱ类错误的概率最小的是A.α=0.05B.α=0.(江南博哥)01C.α=0.1D.α=0.2E.该问题提法不对正确答案:D参考解析:一类错误α和二类错误β有一定的关系,α越大,β越小。
所以本题答案选择D。
掌握“Ⅰ型错误与Ⅱ型错误”知识点。
[单选题]5.下列关于均数的标准误的叙述,错误的是A.是样本均数的标准差B.反映样本均数抽样误差大小C.与总体标准差成正比,与根号n成反比D.增加样本含量可以减少标准误E.其值越大,用样本均数估计总体均数的可靠性越好正确答案:E参考解析:样本均数的标准差称为均数的标准误,是描述样本均数抽样误差大小的指标,其大小与总体标准差成正比,与根号n成反比。
标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越好。
故选项E叙述错误,本题选E。
掌握“标准误及可信区间★”知识点。
[单选题]6.关于可信区间,正确的说法是A.可信区间是总体中大多数个体值的估计范围B.95%可信区间比99%可信区间更好C.不管资料呈什么分布,总体均数的95%的可信区间计算公式是一致的D.可信区间也可用于回答假设检验的问题E.可信区间仅有双侧估计正确答案:D参考解析:按一定的概率估计总体参数的可能范围,该范围称为可信区间,可以用来估计总体均数的可能所在范围,常按95%可信度估计总体参数的可能范围。
掌握“标准误及可信区间★”知识点。
[单选题]7.同类定量资料下列指标,反映样本均数对总体均数代表性的是A.四分位数间距B.标准误C.变异系数D.百分位数E.中位数正确答案:B参考解析:样本均数的标准差即均数的标准误,简称标准误。
可用来描述样本均数的抽样误差,标准误越小,则说明样本均数的抽样误差越小,样本均数对总体均数的代表性越好。
掌握“标准误及可信区间★”知识点。
[单选题]8.比较两药疗效时,下列可作单侧检验的是A.己知A药与B药均有效B.不知A药好还是B药好C.己知A药与B药差不多好D.己知A药不会优于B药E.不知A药与B药是否有效正确答案:D参考解析:已知A药不会优于B药,只有低于B药的一种可能,所以可作单侧检验。
均数的抽样误差与总体均数的估计
均数的抽样误差和总体均数估计
在医学、生物学、经济学和社会科学 等领域中,均数的抽样误差和总体均 数估计都是重要的统计工具,用于指 导研究和决策。
02
均数的抽样误差
抽样误差的定义
抽样误差是由于从总体中随机抽取样本而产生的误差,它反映了样本均数 与总体均数之间的差异。
抽样误差是不可避免的,因为每个样本都是独特的,不可能完全复制总体。
研究结论
01
抽样误差是衡量样本均数与总体均数接近程度的重要
指标,其大小直接影响到总体均数的估计精度。
02
在大样本条件下,样本均数的抽样误差通常较小,能
够较好地反映总体均数的真实情况。
03
通过增加样本量或提高样本代表性,可以减小抽样误
差,提高总体均数估计的准确性。
对未来研究的建议
01
进一步研究不同抽样方法对均数抽样误差的影响,以便在实际 应用中选择合适的抽样方法。
市场调研
市场调研中,企业通过抽样调查了解 消费者需求、市场趋势等信息,进而 估计总体均数,制定营销策略。
医学研究中均数估计的应用
临床试验
在临床试验中,研究者通过随机抽样方 法选取一定数量的患者作为样本,根据 样本数据估计总体均数,进而评估药物 疗效。
VS
流行病学研究
流行病学研究中,研究者通过抽样调查方 法了解疾病在人群中的分布情况,估计总 体均数,为制定疾病防控策略提供依据。
均数的抽样误差和总体均 数估计
• 引言 • 均数的抽样误差 • 总体均数的估计 • 样本大小与均数估计精度 • 实际应用案例 • 结论与展望
01
引言
主题简介
均数的抽样误差
指通过样本均数来估计总体均数时所存在的误差范围。
总体均数估计
第三章 总体均数的估计与假设检验
Sd
d
d Sd / n
2
(
d)
n
n 1
S d 0.1087 t 2.7424 0.1087/ 10 7.925
v 10 1 9
3)确定P值,作出推断结论 T0.05,9=2.262, 7.925>2.262,故P<0.05.可以认为两种 方法对脂肪含量的测定结果不同。
167.41, 2.74
165.56, 6.57
168.20, 5.36 n j=10
…. 165.69, 5.09
将上述100个样本均数看成新变量值,则这个 100个样本均数构成一新分布,绘制直方图
样本均数的抽样分布具有如下特点:
1) 各样本均数未必等于总体均数
2) 各样本均数间存在差异
3) 样本均数的分布很有规律,围绕着总体均 数,中间多,两边少,左右基本对称,也 服从正态分布
假设检验的基本步骤:
1、建立检验假设
H0: 检验假设, 无效假设,零假设 μ=μ0
H1: 备择假设,对立假设
μ≠μ0
2、确定检验水准 α=0.05 单双侧
3、选定检验方法和计算检验统计量
4、确定P值和作出推论结论。
P值是指从H0所规定的总体进行随机抽样,获 得大于(或等于及小于)现有样本获得的检验 统计量值的概率。
(1012/L)
血红蛋白 (g/L)
女
男 女
255
360 255
4.18
134.5 117.6
0.29
7.1 10.2
4.33
140.2 124.7
*标准值:使用内科学(1976年)所载均数(转位法定单位)
1)说明女性的红细胞数与血红蛋白的变异程度何者为大? 2)抽样误差是? 3)试估计该地健康成年女性红细胞数的均数? 4) 该地健康成年男女血红蛋白含量是否不同? 5)该地男性两项血压指标是否均低于上表的标准值(若测 定方法相同)?
总体均数的估计和运算法则
其含义也与标准正态分布曲线下面积接近, 表示某个样本含量(自由度)的样本均数经t 转换后t值落在某个区间的概率有多大
与标准正态分布不同,t分布曲线下面积为 95%或99%的界值不是一个常量 ,因为对于 不同的自由度取值,就有不同的t分布曲线
xi
t分布的概率密度函数*
若随机变量t满足以下概率密度函数,则称
t满足自由度为v的t分布:
f (t)
(v -1)! 2
v ( v - 2
)!
1
t2 v
- v1 2
2
t分布曲线是单峰的,且关于t = 0对称,这一特 征与标准正态分布很相似
0.4
(标准正态分布)
3
从标准误的计算公式中看出它与原先个体观察 值的总体标准差有关,同时也和样本含量n有 关
通过扩大样本含量减少标准误;从而减少抽样 误差
样本均数标准误的估计值
由于在实际研究中,我们往往只抽一次样,得
到一个样本均数,而且大多数情况下 是未知
的,此时常用样本标准差S估计总体标准差,
这样我们就得到样本均数标准误的估计值 S
统计推断(statistical inference)
统计推断包括两个重要的方面: 一是利用样本统计量的信息对相应总体参数
值做出估计,如用样本均数估计总体均数, 用样本标准差估计总体标准差等,称之为参 数估计 另一个是利用样本统计量来推断我们是否接 受一个事先的假设,称之为假设检验
统计推断过程中的一些问题
差;但是在实际的情况下,并没有对总体中所有
的个体进行观察,所以无法得知 ;而且通常我
们也只作一次抽样研究,只能得到s ,只能用样本
统计学知识点(完整)
基本统计方法第一章 概论1. 总体(Population ):根据研究目的确定的同质对象的全体(集合);样本(Sample ):从总体中随机抽取的部分具有代表性的研究对象。
2. 参数(Parameter ):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic ):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。
3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。
第二章 计量资料统计描述1. 集中趋势:均数(算术、几何)、中位数、众数2. 离散趋势:极差、四分位间距(QR =P 75-P 25)、标准差(或方差)、变异系数(CV )3. 正态分布特征:①X 轴上方关于X =μ对称的钟形曲线;②X =μ时,f(X)取得最大值;③有两个参数,位置参数μ和形态参数σ;④曲线下面积为1,区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。
4. 医学参考值范围的制定方法:正态近似法:/2X u S α±;百分位数法:P 2.5-P 97.5。
第三章 总体均数估计和假设检验1. 抽样误差(Sampling Error ):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可避免,产生的根本原因是生物个体的变异性。
2. 均数的标准误(Standard error of Mean, SEM ):样本均数的标准差,计算公式:/X σσ=3. 降低抽样误差的途径有:①通过增加样本含量n ;②通过设计减少S 。
4. t 分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度ν,ν越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高;③当ν逼近∞,X S 逼近X σ, t 分布逼近u 分布,故标准正态分布是t 分布的特例。
医学统计:均数的抽样误差与总体均数估计
的标准差与总体标准差的关系
样本均数的分布规律:
①以特定的样本量 n 从正态总体 N(,2)中抽取样本,所得样
本均数 x 的分布为正态分布。 ②样本均数的均数等于原正态分布的总体均数,即 x 。
③样本均数的变异程度小于原变量的变异程度,即 x 。
④样本均数的标准差为: x / n
中心极限定理和正态分布推理
中心极限定理:也称大数定理,从正态分布 N(, 2 ) X
总体中以固定 n 抽样时,样本均数 X 的分布仍服从正态
分布 N (, 2 ) 。
X
~
N
,
2
n
正态分布推理:当样本含量 n 足够大时,即使从偏态分
样本均数(cm) 从正态总体N(1554,53)中以n=20抽样10000次
样本均数的分布
从正态总体N(155.4,5.3)中以样本量n=20抽样10000次样本均数 X 的描述结果
样本个数 10000
X 的均值 155.4102561
X 的标准差 1.2028796
最小值 150.2155347
最大值 160.9946597
抽样误差在抽样研究中是不可避免的,但只要严格遵循 随机化抽样的原则,就能估计抽样误差的大小。
第一节 均数的抽样误差和总体均数的估计
由于变异的存在,抽样研究所造成的样本均数与总体均数 的差异,以及各样本均数间的差异称为均数的抽样误差。
抽样误差在抽样研究中是不可避免的,但只要严格遵循随 机化抽样的原则,就能估计抽样误差的大小。
6 10000
2000
1500
1000
500
0
149 150 151 152 153 154 155 156 157 158 159 160 161
医学统计学复习题
抽样误差与总体均数的估计1. ( C )A. 总体均数B. 总体均数离散程度C. 样本均数的标准差D. 个体变量值的离散程度E. 总体标准差2.抽样研究中,S为定值,若逐渐增大样本含量,则样本( B )A. 标准误增大B. 标准误减小C. 标准误不改变D. 标准误的变化与样本含量无关E. 标准误为零3. 关于以0为中心的t分布,叙述错误的是( E )A. t分布是一簇曲线B. t分布是单峰分布C. 当v→∞时,t→μD. t分布以0为中心,左右对称E. 相同v时,∣t∣越大,p越大4.均数标准误越大,则表示此次抽样得到的样本均数( C )A. 系统误差越大B. 可靠程度越大C. 抽样误差越大D. 可比性越差E. 测量误差越大5.要减小抽样误差,最切实可行的办法是( A )A. 适当增加观察例数B. 控制个体变异C. 严格挑选观察对象D. 考察总体中每一个个体E. 提高仪器精度6."假设已知某地35岁以上正常成年男性的收缩压的总体均数为120.2mmHg, 标准差为11.2 mmHg ,后者反映的是"( E )A. 总体均数不同B. 抽样误差C. 抽样误差或总体均数不同D. 系统误差E. 个体变异7. "已知某地35岁以上正常成年男性的收缩压的总体均数为120.2mmHg, 标准差为11.2 mmHg 。
从该地随机抽取20名35岁以上正常成年男性,测得其平均收缩压为112.8mmHg。
则112.8mmHg 与120.2mmHg 不同的原因是" ( B )A. 个体变异B. 抽样误差C. 总体均数不同D. 抽样误差或总体均数不同E. 系统误差8. "已知某地35岁以上正常成年男性的收缩压的总体均数为120.2mmHg, 标准差为11.2 mmHg 。
从该地随机抽取10名7岁正常男孩,测得其平均收缩压为90.5 mmHg ,标准差为10.4mmHg,则90.5mmHg 与120.2mmHg不同,原因是" ( C )A. 个体变异B. 抽样误差C. 总体均数不同D. 抽样误差或总体均数不同E. 系统误差9.从某地随机抽取10名7岁正常男孩,测得其平均收缩压为90.5 mmHg ,标准差为10.4mmHg,则该地7岁正常男孩的收缩压总体均数的95%的置信区间为( A )A.B.C. 90.5±1.96×10.4D. 120.2±t(0.05/2,9)×10.4E. 90.5±2.58×10.410.随机抽取上海市区120名男孩作为样本,测得其平均出生体重为3.20kg,标准差0.50kg.则总体均数95% 置信区间的公式是( B )A.B.C. 3.20±1.96×0.50/120D. 3.20±2.58×0.50E. 3.20±1.96×0.5011.关于t分布的图形,下述哪项是错误的( C )A. n 越小,则t分布的尾部越高B. t分布是一簇曲线,故临界值因自由度的不同而不同C. t分布是一条以n 为中心左右对称的曲线D. 当n 趋于¥时,标准正态分布是t分布的特例E. 当n 逐渐增大,t分布逐渐逼近标准正态分布12.总体概率的区间估计中, α值越大( B )A. 抽样误差越大B. 置信度越低C. 置信度越高D. 估计的精度越高E. 抽样误差越小13.样本均数的标准误越大( C )A. 置信度越低B. 抽样误差越小C. 抽样误差越大D. 估计的精度下降E. 置信度越大14.为了解某城市女婴出生体重的情况, 随机得到该市区120名新生女婴的平均出生体重为3.10kg, 标准差为0.50kg。
03总体均数的估计及假设检验
●统计推断(statistical inference):通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断。
●抽样误差(sampling error):由个体变异产生的,随机抽样造成的样本统计量与总体参数的差异,称为抽样误差。
●标准误(standard error of mean,SEM )及X s :通常将样本统计量的标准差称为标准误。
许多样本均数的标准差X s称为均数的标准误,它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
可通过增加样本含量,设计减少标准差来降低标准误。
●可信区间(confidence interval,CI):按预先给定的概率确定的包含未知总体参数的可能范围。
该范围称为总体参数的可信区间。
它的确切含义是:可信区间包含总体参数的可能性是1- a ,而不是总体参数落在该范围的可能性为1-a 。
●参数估计:指用样本指标值(统计量)估计总体指标值(参数)。
参数估计有两种方法:点估计和区间估计。
●假设检验中P 的含义:指从H0 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
●I 型和II 型错误:I 型错误(type I error ),指拒绝了实际上成立的H0,这类“弃真”的错误称为I 型错误,其概率大小用a 表示;II 型错误(type II error),指接受了实际上不成立的H0,这类“存伪”的误称为II 型错误,其概率大小用b 表示。
●检验效能:1- b 称为检验效能(power of test),它是指当两总体确有差别,按规定的检验水准a 所能发现该差异的能力。
●检验水准:是预先规定的,当假设检验结果拒绝H0,接受H1,下“有差别”的结论时犯错误的概率称为检验水准(level ofa test),记为a 。
●抽样误差:由个体变异和抽样造成的样本统计量与总体参数的差异为★标准差与标准误的区别标准差与标准误的意义、作用和使用范围均不同。
医学统计学第3章
均数的抽样示意图
X1 S1
μσ
X2 S2 XI Si Xn Sn
σx
X服从什么分布?
例3-1 若某市1999年18岁男生身高服从均数 =167.7cm、标准差 =5.3cm的正态分布。从该正态分布N(167.7,5.32)总体中随机抽样 100次即共抽取样本g=100个,每次样本含量nj=10人,得到每个样 本均数 及标准差Sj 如图3-1和表3-1所示。
95%CL 175.72 173.44 174.31 170.90 171.04 170.83 173.11 171.90 172.52 172.00 169.40 171.56 171.53 172.94
171.21 170.33 169.03 167.63 168.66 168.84 169.31 168.46 168.60 168.47 165.68 165.68 168.03 169.37
171.00 170.10 170.47 175.98 169.97 171.91 173.37
样本号 61 62 63 64 65 66 67 68 69 70 71 72 73 74
x
j
Sj 6.30 4.34 7.38 4.58 3.33 2.78 5.31 4.81 5.48 5.05 5.19 8.22 4.89 5.00 166.70 167.23 163.75 164.36 166.27 166.85 165.51 165.02 164.88 164.86 161.97 159.80 164.53 165.79
抽样误差:样本统计量与参数之间的差异, 称抽样误差。 样本统计量是一个随机变量,在随机的原则 下从同一总体抽取不同的样本,即使每个样 本的样本含量n相同,它们的结果也会不同。
统计学--第三章总体均数的估计与假设检验
总体均数的估计 与假设检验
课件
1
统计推断的目的:
用样本的信息去推论总体。
医学研究中大多数是无限总体, 即使是有限总体,但也经常受各种条 件的限制,不可能直接获得总体的信 息。
课件本科生卫生学(5)
2
第一节 均数的抽样误差与标准误
• 抽样误差(sampling
error):因各样本 包含的个体不同,所得的各个样本统计量 (如均数)往往不相等,这种由于个体差 异和抽样造成的样本统计量与总体参数的 差异,称为抽样误差。
均数的95%可信区间为3.47~ 3.81(mmol / L) 95%参考值范围为1.29~ 5.99(mmol / L)
S 1.20 X u / 2 S X X 1.96 3.64 1.96 n 200 (3.47, 3.81)
X 1.96S 3.64 1.961.20 (1.29, 5.99) 32 课件本科生卫生学(5)
t分布的应用: 总体均数的区间估计 t检验
课件本科生卫生学(5) 18
第三节 总体均数的置信区间估计 confidence interval
可信区间的概念 总体均数可信区间的计算 均数可信区间与参考值范围的区别
课件本科生卫生学(5)
19
一、可信区间的概念
统计推断:参数估计与假设检验。 参数估计: parametric estimation,用样本统 计量估计总体参数的方法。 点(值)估计:point estimation,直接用样 本统计量作为总体参数的估计值。方法简 单但未考虑抽样误差大小。 区间估计:interval estimation,按预先给定 的概率95%,或(1-),确定的包含未知总 体参数的可能范围。考虑了抽样误差。
医学统计学--第三章 总体均数的估计与假设检验
32
本例 n=10,按公式(3-2)算得样本均数的标准误为
S1=101=9,双尾 =0.05,
查附表 2 的 t 界值表得 t0.05 2,9 2.262 。 按公式(3-5) (166.95 2.262 1.1511) 即(164.35, 169.55)cm 故该地 18 岁男生身高均数的 95%可信区间 为(164.35, 169.55)cm。
X
2 X
、
) ,则 通
过同样方式的 u 变换( X
2
)也 可 将 其 转 换 为
标 准 正 态 分 布 N (0 , 1 ), 即 u 分 布 。
17
3.实际工作中,由于 X 未知,用S X 代替,
则(X
) / SX
不再服从标准正态分布,而
服从t 分布。
t X SX X S n , n 1
2
第一节 均数的抽样误差与标准误
3
统计推断:由样本信息推断总体特征。
样本统计指标 (统计量)
总体统计指标 (参数)
2
正态(分布)总体:N 说明!
~ ( , )
推断 !
为说明抽样误差规律,先用一个实例,后 引出理论。
4
例 3-1 若某市 1999 年 18 岁男生身高服从均 数μ =167.7cm、标准差 =5.3cm 的正态分布。对 该总体进行随机抽样,每次抽 10 人, n =10) ( , 共抽得 100 个样本( g =100) ,计算得每个样本均 数 X 及标准差 S 如图 3-1 和表 3-1 所示。
1 2 3 4 5 6 7 8 9 10 21 22 23 24 25
单侧 双侧
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t 统计量的提出
• Fisher , E. Pearson和 Neyman 完善了 t Fisher, Pearson 和 Neyman完善了 完善了t 检验的理论 • Gosset 提 出 实 际 问 题 , Fisher 和 E. Pearson 将其转成统计问题 , Neyman 将其转成统计问题, 归纳为数学问题 • 1925 年 , Fisher 发表 《t 分布的应用 》 , 1925年 Fisher发表 分布的应用》 发表《 定义
21
单侧检验
单侧检验 的备择假设H 单侧检验(one-sided test)的备择假设H1带有 检验 的备择假设 方向性, 方向性, 如: µ<µ0 或者 µ>µ0 ,实际中只 µ µ 可能出现一种情况。 可能出现一种情况。
拒绝域
α
1-α 不拒绝H 不拒绝 0
界值
µ=µ0
22
单侧检验与双侧检验的关系
2
均数之间比较的问题
某医生测量了36名从事铅作业 例3-5 某医生测量了 名从事铅作业 男性工人的血红蛋白含量, 男性工人的血红蛋白含量 , 算得其均数为 130.83g/L,标准差为 , 标准差为25.74g/L。问从事铅作 。 业工人的血红蛋白是否不同于正常成年男性 平均值140g/L? 平均值 1. 抽样误差 2. 总体均数不同
拒绝域 α/2 1-α 不拒绝H 不拒绝 0 拒绝域 α/2
µ=µ0
界值
界值
20
单侧检验的例子
年已知某地20岁应征入伍男青年 例d-1 1995年已知某地 岁应征入伍男青年 年已知某地 的平均身高为168.5cm。 2003年在当地 岁 年在当地20岁 的平均身高为 。 年在当地 应征入伍的男青年中随机抽取了85人 应征入伍的男青年中随机抽取了 人,平均 身高为171.2cm,标准差为 身高为 ,标准差为5.3cm,问2003年 , 年 当地20岁应征入伍男青年的平均身高是否较 当地 岁应征入伍男青年的平均身高是否较 1995年有所提高? 年有所提高? H0:µ=168.5;H1:µ>168.5 ;
提出假设
服A药的所有 患者(总体) 患者(总体)
A药的胃肠道不 良反应率是1 良反应率是1%
作出决策
拒绝假设! 拒绝假设
☺☺ ☺☺ ☺ ☺☺☺☺☺ ☺☺ ☺ ☺☺☺ ☺☺☺☺ ☺ ☺☺ ☺☺ ☺ ☺☺ ☺
在假设的前提 下,发生的概 率只有0.049 率只有
抽取样本
5人中1人 人中1 有不良反应
5
假设检验中的小概率原理
• 什么是小概率? 什么是小概率? 1. 在一次试验中,小概率事件几乎不可 在一次试验中, 能发生 2. 在一次试验中小概率事件一旦发生, 在一次试验中小概率事件一旦发生, 拒绝检验假设 多小? 我们就有理由拒绝 我们就有理由拒绝检验假设 多小?
发生概率≤α 3. 小概率由研究者事先确定 发生概率≤α 检验水准(significant level), 检验水准(significant level),α
7
P 值
意义: 规定的总体中进行随机抽样, 意义:在H0规定的总体中进行随机抽样, 得到等于及大于(或等于及小于) 得到等于及大于(或等于及小于)现有样 本统计量的概率。 本统计量的概率。即抽样得到现有样本及 比其更为极端的样本的概率。 值越小 值越小, 比其更为极端的样本的概率 。 P值越小 , 越有理由拒绝H 越有理由拒绝 0。 计算:由检验统计量及其分布特征得到, 计算:由检验统计量及其分布特征得到, 查表(范围)或软件(具体值)确定。 查表(范围)或软件(具体值)确定。
H0:难产儿出生体重与一般婴儿相同(即µ1=µ0) 难产儿出生体重与一般婴儿相同( µ H1:难产儿出生体重与一般婴儿不同(即µ1≠µ0 ) 难产儿出生体重与一般婴儿不同( α=0.05 t=1.77< t0.05/2,34=2.03,故P>0.05 , 结论: 的检验水准, 结论:按α=0.05的检验水准,不拒绝 0,样本均数与 的检验水准 不拒绝H 总体均数的差别无统计学意义, 总体均数的差别无统计学意义,尚不能认为难产儿出 生体重的均数与一般新生儿不同。 生体重的均数与一般新生儿不同。
11
计算t检验统计量: 计算 检验统计量: 检验统计量
| X − µ0 | | X − µ0 | t= = SX S/ n
ν = n−1
| 130 .83 − 140 | 本例, 本例,t = = 2.138 25 .74 / 36
ν = n − 1 = 36 − 1 = 35
t 分布曲线下面积的分布规律 双侧) (双侧)
H0 H1
µ = µ0 µ≠µ 0
µ = µ0 µ > µ0 或 µ < µ0
18
双侧检验的例子
为比较某药治疗流行性出血热的疗效, 例s-1 为比较某药治疗流行性出血热的疗效, 名流行性脑炎患者随机分为两组, 将 72名流行性脑炎患者随机分为两组, 两组 名流行性脑炎患者随机分为两组 样本量、均数、标准差分别为n , 样本量、均数、标准差分别为 1=32, , S1=1.9;X2 =40, n = 5., , S2=2.7。问试验组和对 。 1 = 2.9 X 2 照组的平均退热天数有无差别 有无差别? 照组的平均退热天数有无差别?
假设检验中的单侧检验和双侧检验
根据研究目的与专业知识确定。 根据研究目的与专业知识确定 。 如认为 从事铅作业男性工人的Hgb含量不可能高于 从事铅作业男性工人的 含量不可能高于 正常成年男性,则可选用单侧检验。 正常成年男性,则可选用单侧检验。
研究的问题 假设 两参数是否相等? 两参数是否相等? 双侧检验 一个参数是否较另一个大 或小)? (或小)? 单侧检验
6
假设检验的步骤 假设检验的步骤
检验假设
hypothesis to be tested
备择假设
检验水准
alternative hypothesis significant level
步骤1 步骤1
H0:µ1=µ0
成立时
H1:µ1≠µ0
α=0.05
步骤2 步骤2
根据样本,计算检验 根据样本,计算检验 统计量, 统计量,估计 P值
H0:µ1=µ2;H1:µ1≠µ2
19
双侧检验
双侧检验(two-sided test)的备择假设H 1 中包含 的备择假设H 双侧检验 的备择假设 不等号( 实际上包括两种情况: 不等号 ( 如 : µ≠µ0 ) , 实际上包括两种情况 : µ µ>µ0 或 µ<µ0,无方向性。 µ µ 无方向性。
该可信区间在µ 该可信区间在 0=140g/L,故可认为从事铅作 ,故可认为从事铅作 业的男性工人平均Hgb含量低于正常成年男 业的男性工人平均 含量低于正常成年男 性。
结果的中英文报告
结论: 的检验水准, 结论 : 按 α = 0.05的检验水准 , 可认为从事铅 的检验水准 作业的男性工人平均Hgb含量低于正常成年男 作业的男性工人平均 含量低于正常成年男 性 ( t=2.14, P=0.039) 。 从事铅作业男性工 , ) 人 平 均 血 红 蛋 白 含 量 的 95% 可 信 区 间 为 (122.12,139.54)g/L。 , ) 。 Results:Results of one-sample t-test under the significant level of 0.05 indicated statistically significant differences on the mean Hgb level between the male workers exposed to lead and normal aldults men (t=2.14, P=0.039). The 95% CI of the mean Hgb level in the male workers exposed to lead was (122.12,139.54)g/L. 17
36名铅作业男性工人的平 36名铅作业男性工人的平 Hgb含量为 含量为130.83g/L 均Hgb含量为130.83g/L
= ? ≠
正常成年男性的平均 Hgb含量 Hgb含量(µ0) 含量( 已知总体 正常成年男性的平均 Hgb含量 Hgb含量140g/L 含量140g/L
样本 H0:铅作业工人的平均Hgb含量与正常成年男性相同 铅作业工人的平均Hgb含量与正常成年男性相同 (即µ1=µ0) 铅作业工人的平均Hgb含量与正常成年男性不同 H1:铅作业工人的平均Hgb含量与正常成年男性不同 (即µ1≠µ0 ) 10 检验水准: 检验水准:α=0.05
(样本来自不同的总体 样本来自不同的总体) 样本来自不同的总体
假设检验
(Hypothesis Test)
主要内容
第一节 均数的抽样误差与标准误 第二节 t分布 分布 第三节 总体均数的估计 第四节 t检验及其应用条件 检验及其应用条件 第五节 假设检验的注意事项
4
假设检验的思想-反证法, 假设检验的思想-反证法,小概率
t 统计量: 统计量:
N(µ,σ n)
2
均数 X ~
X −µ u= σ n
标准正态分布 N(0,12) Student t分布 自由度:n-1
X −µ X −µ t= = SX S n
自由度( df ) 在假定成立的前提下( 自由度 ( df) : 在假定成立的前提下 ( 即 H0 成立 ) , 计算某个统计量 , 能自由取值 成立) 计算某个统计量, 的数据个数。 的数据个数。
相同检验水准下,单侧界值小于双侧界值, 1 、 相同检验水准下 , 单侧界值小于双侧界值 , 故单 侧检验比双侧检验更容易获得有统计学意义的结果。 侧检验比双侧检验更容易获得有统计学意义的结果。
<
23