研究生统计学第三章总体均数估计与假设检验(4版)

合集下载

总体均数的估计与假设检验

总体均数的估计与假设检验

(standard error of mean, SEM)
X n S SX n
11
标准差与标准误的区别
S 意 义 描述个体值的离散程度; 衡量样本均数对样本个体 值的代表性 算
S (X X )2 n1
SX
反映抽样误差的大小; 衡量样本均数估计总体均 数的可靠性
SX S n
14
William Seely Gosset(1876~1937,英)
15
t 分布的概念
X ~ N(, ) N(0,1)
2
X u
X ~ N(, ) N(0,1) n
2
X u n
X ~ N(, ) t分布 n
2
X t S n
-t
0
t
0.0025 0.005 127.321 14.089 7.453 5.598 4.773 2.871 2.839 2.820 2.813 2.8070
0.001 0.002 318.309 22.327 10.215 7.173 5.893 3.174 3.131 3.107 3.098 3.0902
借助抽样研究。
4
欲了解某地18岁男生身高值的平均水平,
随机抽取该地10名男生身高值作为样本。 由于个体变异与抽样的影响,抽得的样本 均数不太可能等于总体均数,造成样本统 计量与总体参数间的差异(表现为来自同一 总体的若干样本统计量间的差异),称为抽 样误差。 抽样误差是不可避免的。 抽样误差是有规律的。
第三章 总体均数的估计 与假设检验
第二军医大学卫生统计学教研室 张罗漫
1
讲课内容
均数的抽样误差与标准误
t 分布 总体均数的估计 t 检验 假设检验的注意事项 正态性检验和两样本方差比较的F检验

医学统计学第三章总体均数的估计与假设检验

医学统计学第三章总体均数的估计与假设检验
第一节 均数的抽样误差与标准误
1
统计推断:由样本信息推断总体特征。
样本统计指标 总体统计指标
(统计量)
(参数)
正态(分布)总体:N ~ (, 2 ) 推断 ! 说明!
为说明抽样误差规律,先用一个实例,后 引出理论。
2
例 3-1 若某市 1999 年 18 岁男生身高服从均
数μ=167.7cm、标准差 =5.3cm 的正态分布。对
故该地 18 岁男生身高均数的 95%可信区间
为(164.35, 169.55)cm。
P25,15号样本
31
(2) n 60 时:按 u 分布。 ➢ 已知:
u / 2
X
u / 2

X u 2 X X u 2 X
X
( X u 2 X , X u 2 X )
➢ 未知但 n 较大:
30
本例 n=10,按公式(3-2)算得样本均数的标准误为
S X
3.64 1.1511 10
(cm)
=n1=101=9,双尾 =0.05,
查附表 2 的 t 界值表得 t0.05 2,9 2.262 。
按公式(3-5) (166.95 2.262 1.1511)
即(164.35, 169.55)cm
组32例(n2),采用小剂量氨甲喋呤(MTX)进行治
疗 。 测 得 对 照 组 治 疗 前 IL-2 的 均 数 为 20.10
IU/ml ( X1),标准差为7.02 IU/ml ( S1 );试验组
治疗前IL-2的均数为16.89 IU/ml ( X 2 ),标准差
为8.46 IU/ml ( S2 )。问两组治疗前基线的IL-2总
异较大。其图形如下:

总体均数的估计和假设检验

总体均数的估计和假设检验
(2)两个要素:准确度,即1-α,精度, 即区间的长度。
(3)与医学正常值范围不同
四.假设检验(hypothesis test)
假设检验(hypothesis testing)也称显著 性检验(significance test)。二十世纪二、 三十年代Neyman和Pearson建立了统计 假设检验问题的数学模型。
估计该地成年男子红细胞数的总体均数μ,由
于抽样误差 x ≠μ, -μx称均数的抽样误差。
2.分布
(1)x~N(μ, σ2) 则 ~x N(μ, σ2/n)
x是偏态总体,n>30 x 近似正态
(2) x 的总体均数为μ,
标准差 x=σ/ n
3.标准误
x 抽样误差的标准差称为标准误,
反映了用样本均数代替总体均数的可靠 性程度的大小,增加样本容量可以降低 抽样误差。 σ未知时,用样本标准差s估计
t检验的应用条件要求两个总体方差相等, 如不等时,可以:
1. 变量变换 2. 非参数检验 3. 近似t检验(即t’检验) 有3种不同的算法:
Cochran & Cox法(1950) Satterthwaite法(1946) Welch法(1947)
八.假设检验应注意的问题
1. 要有严密的抽样研究计划 要保证样本是从同质总体中随机抽取。 除了对比的因素外,其它影响结果的因素应 一致。 2.选用的假设检验方法应符合其应用条件 要了解变量的类型是计量的还是计数的,设计 类型是配对设计还是成组设计,是大样本还 是小样本。
患者号
1
2
3
4
5
6 ……
冷消化 2.41 12.07 2.90 1.64 2.75 1.06 …… 法
热消化 2.80 11.24 3.04 1.83 1.88 1.45 …… 法

第三章 总体均数的估计与假设检验

第三章 总体均数的估计与假设检验
2
Sd
d
d Sd / n
2

(
d)
n
n 1
S d 0.1087 t 2.7424 0.1087/ 10 7.925
v 10 1 9
3)确定P值,作出推断结论 T0.05,9=2.262, 7.925>2.262,故P<0.05.可以认为两种 方法对脂肪含量的测定结果不同。
167.41, 2.74
165.56, 6.57
168.20, 5.36 n j=10
…. 165.69, 5.09
将上述100个样本均数看成新变量值,则这个 100个样本均数构成一新分布,绘制直方图
样本均数的抽样分布具有如下特点:
1) 各样本均数未必等于总体均数
2) 各样本均数间存在差异
3) 样本均数的分布很有规律,围绕着总体均 数,中间多,两边少,左右基本对称,也 服从正态分布
假设检验的基本步骤:
1、建立检验假设
H0: 检验假设, 无效假设,零假设 μ=μ0
H1: 备择假设,对立假设
μ≠μ0
2、确定检验水准 α=0.05 单双侧
3、选定检验方法和计算检验统计量
4、确定P值和作出推论结论。
P值是指从H0所规定的总体进行随机抽样,获 得大于(或等于及小于)现有样本获得的检验 统计量值的概率。
(1012/L)
血红蛋白 (g/L)

男 女
255
360 255
4.18
134.5 117.6
0.29
7.1 10.2
4.33
140.2 124.7
*标准值:使用内科学(1976年)所载均数(转位法定单位)
1)说明女性的红细胞数与血红蛋白的变异程度何者为大? 2)抽样误差是? 3)试估计该地健康成年女性红细胞数的均数? 4) 该地健康成年男女血红蛋白含量是否不同? 5)该地男性两项血压指标是否均低于上表的标准值(若测 定方法相同)?

医学统计学之总体均数的估计与假设检验

医学统计学之总体均数的估计与假设检验

已知或未知但 n﹥60: 偏态分布 X u X 或 X u S X
PX~ P100X
按预先给定的概率, 含 确定未知参数 的可 能范围。实际上一次 抽样算得的可信区间 要么包含总体均数, 要么不包含。 95%CI 估 义 计错误的概率≤0.05.
总体均数的波动范围
正常人” 的解剖, 生理,生 化某项指 标的波动 范围。
(1)建立检验假设,确定检验水准 H0: =0=140g/L , 从 事 铅 作 业 男 性工人平均血红蛋白含量与正常成 年男性平均值相等。 H 1: ≠ 0 , =0 。 (2)计算检验统计量
X X 0 130.83 140 t 2.138 S 25.74 SX n 36 n 1 36 1 35
在 t界值表中,一侧尾部面积称单侧概 率,两侧尾部面积之和称双侧概率。
t 值增大, P减小; 在相同自由度时, 在相同 t 值时,双尾 P 为单尾 P 的两倍。 如双尾 t0.10 / 2,10 =单尾 t0.05,10 =1.812。
SX X
t , t 2,
1.812 t0.10 0.05,10 / 2,10

个体值的 波动范围


绝 大 多 数 ( 如 总体均数的区间估 95%) 观 计 察 对 象 某 项 指 标 的 分 布范围
第四节
t 检验和u检验
由样本信息推断总体特征,除参数 估计外,还会遇到这样的问题:
某一样本均数是否来自于已知均数 总体?两个不同样本均数是否来自 均数相同的总体等? 要回答这类问题,更多的是用统计 推断的另一方面 假设检验 (hypothesis test)。
一、单样本t 检验
即 X (代表未知)与已知 0(理论值 、标准值或稳定值)比较。

医学统计学第三章总体均属的估计与假设检验.

医学统计学第三章总体均属的估计与假设检验.

本例 n=10,按公式(3-2)算得样本均数的标准误为
S X
3.64 1.1511 10
(cm)
=n1=101=9,双尾 =0.05,
查附表 2 的 t 界值表得 t0.05 2,9 2.262 。
按公式(3-5) (166.95 2.262 1.1511)
即(164.35, 169.55)cm
variance test
2
第一节 均数的抽样误差与标准误
3
统计推断:由样本信息推断总体特征。
样本统计指标 总体统计指标
(统计量)
(参数)
正态(分布)总体:N ~ (, 2 ) 推断 ! 说明!
为说明抽样误差规律,先用一个实例,后 引出理论。
4
例 3-1 若某市 1999 年 18 岁男生身高服从均
线下的单面侧积概率。或单尾概率:用t, 表示; 单侧概单侧率概或率单或尾单尾概概率率::用用t , 表表示示;; 双侧概双率侧或概率双或尾双概尾概率率::用用t /2, 表表示示。。
双侧概率或双尾概率:用t /2, 表示。
22
自由度
单侧 双侧
1
2 3 4 5
6 7 8 9 10
21 22 23 24 25
3.143 2.998 2.896 2.821 2.764
1.721 1.717 1.714 1.711 1.708
2.080 2.074 2.069 2.064 2.060
2.518 2.508 2.500 2.492 2.485
-t
0
t
0.005 0.01
63.657 9.925 5.841 4.604 4.032
图3-2 从正态分布总体N(167.7, 5.32)随机抽样所得样本均数分布

第3章-总体均数的估计和假设检验

第3章-总体均数的估计和假设检验

x ± u 0.05/2 · sχ x ± u 0.05/2 · σχ

x ± 1.96 · sχ
x ± 1.96 · σχ
总体均数99%可信区间 ( 99% confidence interval , 99% CI ) x ± t 0.01/2 · · Sχ
x ± u 0.01/2 · sχ x ± u 0.01/2 · σχ
公式:
t= d–0
Sd
=
d
Sd /√n
= n -1
d : 每对数据的差值 d : 差值的样本均数 Sd :差值的标准差 Sd :差值均数的标准误 n : 对子数 Sd=

∑d2 – (∑d )2 / n
n-1
例1:
为研究女性服用某避孕新药后是否影响其血清 总胆固醇含量,将20名女性按年龄配成10对。每对 中随机抽取1人服用新药,另一人服用安慰剂。经过 一定时间后测定血清总胆固醇含量 ( mmol/L) 得下 表结果。问该新药是否影响女性血清总胆固醇含量?
3. 确定 P 值,推断结论 t 0.05,24 = 2.064 P > 0.05 P> 不拒绝H0 山区健康成年男子脉搏均数与一般健康男子相同
(二) 配对 t 检验 paired / matched t - test
配对方法: 1. 两个同质受试对象接受两种不同的处理 2. 同一受试对象分两部分接受两种不同的处理 3. 同一受试对象处理前与处理后的结果 目的:推断两种处理的效果有无差别或推断某种 处理有无作用 条件:样本来自正态总体
推断: 是否等于0
1. 建立检验假设,确定检验水准 H0: = 0 = 72次/分 H1: ≠ 0 = 72次/分 = 0.05 2. 选定检验方法,计算检验统计量 74.2 – 72 x -μ0 x -μ0 = t= = = 1.833 6/√25 Sχ S/√n

总体均数的估计和假设检验 PPT课件

总体均数的估计和假设检验 PPT课件

x

n
s sx n
4.标准差和标准误的区别和联系
(1)区别:
指标
意义 衡量观察值离散趋势。 标准 s越大,表示观察值越 差 分散,均数的代表性 越差。
样本均数的变异程度, 标准 表示抽样误差的大小。 误 标准误越大,样本均 数的可靠性越小。
应用 统计描述:正态分布资 料的离散趋势、频数分 布;医学参考值范围的 估计。
即: x t , s x
例2:试求例1中该地1岁婴儿血红蛋白平 均值的95%的可信区间。
s 2.38g / L 由于n=25,s=11.9g/L, s x n ν =n-1=24,α 取双尾0.05,查t界值表得: t0.05,24=2.064,代入通式中,得到所求可信区 间为: (123.7-2.064×2.38,123.7+2.064 ×2.38) 即:(118.79,128.61)g/L。
总体均数的估计和假设检验
Statistical inference: Estimation of Parameter and Hypothesis Test
内 容
均数的抽样误差和标准误 t分布 总体均数的估计 假设检验 t检验和z检验

一、均数的抽样误差和标准误
1. 统计推断:由样本信息推断总体特征。 2. 抽样误差:样本指标值与总体指标值之间 的差异。根源在于个体变异,不可避免, 但规律可以认识。 3. 标准误:样本均数的标准差称为标准误, 它是说明均数抽样误差大小的指标。可通 过增加样本例数减少标准误。
三、总体均数的估计
(2)σ已知,或σ未知但是大样本资料时,按z分
布 ,通式为: σ已知: x z
n
<<x z

总体均数的估计与假设检验综述(ppt 98页)

总体均数的估计与假设检验综述(ppt 98页)
= (4.72 ×1012 / L , 4.86 ×1012 / L )
例3-3 某地抽得正常成人200名,测得其血清胆固
醇的均数为3.64 mmol/L,标准差为1.20mmol/L,
试估计该地正常成人血清胆固醇均数的95%可信
区间。
S 1.20 0.0849 x 200
( 3 . 6 - 1 . 4 9 0 . 6 0, 3 8 . 6 + 4 1 . 4 9 9 0 . 6 0) 8
的分布范围。

计 算

侧 大
X 1.96S

X
(95%)本 )
是指正常人某 指标(观察值) 的波动 范围。
X1.96S
用 途
估计总体均数
判断个体指标 正常与否
第四节 假设检验(hypothesis test)
例3-5 某医生测量了36名从事铅作业男性工人 的血红蛋白含量,算得其均数为130.83g/L,标准 差为25.74g/L。问从事铅作业工人的血红蛋白是否 不同于正常成年男性平均值140g/L?
t 值为样本均数与总体均数之差与样本标准误的比值
重要概念: 自由度
自由度用υ 表示,指计算某一统计量时变量 取值不受限制的个数。
一般情况下:υ =n – m n为计算某一统计量时用到的数据个数, m为计算该统计量时用到的其他独立统计量个数,
或者计算该统计量时受到限制的条件数。
“υ”为小写希腊字母读作[ nju: ]
联系 n不变时,s 越大,S x 越大。
第二节 t 分布
一、 t 分布的概念
t 值的公式为 : t(x)/sx 从同一总体中抽取若干n 相同的样本,并求出 样本均数,再代入t 值公式求得若干个 t 值,将 t 值 看成观察值,其分布称为 t 分布。

第三章总体均数的估计和假设检验

第三章总体均数的估计和假设检验

本例自由度n-125-124,查附 表2,得单侧t0.05(24)=1.711。
今tt0.05(24),故P0.05,无统
计学意义,按0.05水准,不
拒绝H0,根据现有样本信息,尚 不能认为该山区成年男子平均 每分钟脉搏数高于一般成年男 子。
第一节 均数的抽样误差 和总体均数的估计
统计推断(statistical inference):
推断
样本
总体
(1)参数估计 (2)假设检验
一、均数的抽样误差:在统计学上
把由抽样造成的样本均数与总体均 数间的差异或各个样本均数间的差 异统称为均数的抽样误差。
性质: (1)原分布正态
原分布偏态
新分布正态
例3.4 次/min
对一个样本均数与一个已知的或 假设的总体均数0作比较,它们之间 差别可能有两种原因造成:
–由于抽样误差所致,
–由环境的原因,两个总体均数 间有本质差异。
一、建立检验假设和确定检验水准
(一)假设 假设有两个:
–无效假设(null hypothesis), 符号为H0,又称检验假设。 记为H0:μ=μ0 或μ-μ0=0
理进行区间估计)。
对上式进行变换,可得置信度为1-α
的总体均数可信区间的通式为:
习惯将上式写成:
若取1-α=0.95,则为总体均数95%可 信区间,或取1-α=0.99.则为总体均 数99%可信区间。
(二)σ已知 (按正态分布原理)
(三)σ未知但n足够大(n>50) (按正态分布原理)
常用u值表 参考范围(%)
新分布近似正态
(2)原分布 x~N(μ,σ2)
新分布 ~N(μ, )
原分布 x~N(155.4,5.32)

研究生-统计学讲义-第3讲-总体均数估计和假设检验课件.ppt

研究生-统计学讲义-第3讲-总体均数估计和假设检验课件.ppt
统计学上更合理的估计是在一定概率(1-α)下,由 含有未知参数及其点估计值所构成的统计量的分布规 律估计出参数可能存在的范围,称为区间估计
(interval estimation),所给出的范围称为该参数的 (1-α)可信区间或置信区间(confidence interval, 简记为CI)。这个范围包含参数值的可靠程度为(1α),称为可信度或置信度(confidence degree)或可 信概率。
情形Ⅱ

当抽样来自均数为
X
,方差为
2 X
的非正态
分布总体时,样本均数的分布(抽样分布)有下面
的性质:
1.X 的分布是近似正态的,随样本容量的增加,靠
近正态的程度就越好.一般地,X 的抽样分布靠近正
态分布所需要的样本容量取决于最初分布的外形.
在几乎所有的情形里面,对 X 的抽样分布,样本容
量在30或以上就可以得到很好的正态近似.(均数
置信区间和置信限 (X 1.96 SX , X 1.96 SX ) CI
95%置信区间
X 1.96 S CL x
第二节 假设检验
一、假设检验的的基本思想
假设检验(hypothesis testing )亦称显著性检验 (significance test),它和参数估计是统计推断的两个重 要内容。假设检验是先对总体的特征(如总体的参数或 分布、位置)提出某种假设(hypothesis),如假设总体均 数(或总体率)为一定值、总体均数(或总体率)相等、总 体服从某种分布、两总体分布位置相同等等,然后根 据随机样本提供的信息,运用“小概率原理”推断假 设是否成立。假设检验通过随机样本认识总体的结论 有助于作出正确的专业结论。
.对任何t 分布,自由度恰好是样本容量减1:df=n-1 .

医学统计学课件 第3章 总体均数的区间估计和假设检验

医学统计学课件 第3章 总体均数的区间估计和假设检验

表3-1
标准差和标准误的区别
第四节 假设检验的意义和基本步骤
假设检验(hypothesis test)亦称显著
性检验(significance test),是统计 推断的重要内容。它是指先对总体的参数 或分布作出某种假设,再用适当的统计方 法根据样本对总体提供的信息,推断此假 设应当拒绝或不拒绝。
( X X ) 2 离散程度。公式为: S n 1
2.计算变量值的频数分布范围,如: ( X 1.96S )。 3.可对某一个变量值是否在正常值范围内作出初步 判断。 4.用于计算标准误。
S n
2.计算总体均数的可信区间,如: ( X 1.96S X )。 3.可对总体均数的大小作出初步的判断。 4.用于进行假设检验。
例3.2 上述某市120名12岁健康男孩身高 均数为143.07cm,标准误为0.52cm,试估 计该市12岁康男孩身高均数95%和99%的可 信区间。
95% 的 可 信 区 间 为 143.07±1.96×0.52 , 即
(142.05,144.09)。 99%的可信区间为 143.07±2.58×0.52, 即 (141.73,144.41)。

t
X 0 S n
例3.3
根据调查,已知健康成年男子脉搏的 均数为72次/分钟,某医生在一山区随机测量 了25名健康成年男子脉搏数,求得其均数为 74.2次/分钟,标准差为6.5次/分钟,能否认 为该山区成年男子的脉搏数与一般健康成年 男子的脉搏数不同?
例3.6 对例3.3资料进行t检验。
0 0
0
0 0
0
0 0
单侧检验
是否 是否
表3-3 两样本均数所代表的未知总体均数 的比较

研究生教材第三章.ppt

研究生教材第三章.ppt
①两总体均为正态总体。
②两总体方差相等;不齐时需要校正。
1.总体方差相等的t检验(

12=
2 2
)
t ( X 1 X 2 ) (1 2 ) X 1 X 2 ,
S
S
X1X 2
X1X 2
n1 n2 2
例3-7 为研究国产四类新药阿卡波糖胶囊的降血糖效果, 某医院用40名II型糖尿病病人进行同期随机对照试验。试验 者将这些病人随机等分到试验组(用阿卡波糖胶囊)和对照组 (用拜糖平胶囊),分别测得试验开始前和8周后的空腹血糖, 算得空腹血糖下降值见表3-6,能否认为该国产四类新药阿卡 波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果不同?
三种形式 t 检验的比较
已知条件 统计推断
X 0
与0
是否不等
d 是否
d 0 不等于0
1与2
X1 X 2 是否不等
检验条件 检验公式
样本来自 正态总体
差值来自 正态总体
X 0
SX
d Sd
正态总体 方差齐性
X1 X2
S X1 X 2
自由度
n-1
对子数-1
设计形式 单样本资料
③ Welch法近似t检验
Welch法也是对自由度进行校正。校正
公式为
t t',


(S 2 X1
S4

S 2 )2 X2 S4
-2

X1
n1+1

X2
n2+1
( S12 S22 )2 n1 n2
( S12 )2 ( S22 )2 n1 n2
2
n1 1 n2 1
对例3-8,如按Wபைடு நூலகம்lch法,则

第三章 总体均数的估计与检验 PPT课件

第三章 总体均数的估计与检验 PPT课件

三、总体均数的估计
区间估计:按预先给定的概率(1),以样本统计量及其 标准误确定的包含未知总体参数的可能范围。 可信区间或置信区间(confidence bound/confidence interval, CI):该可能范围; 可信度/置信度(水平/系数)(confidence level):。预先给定 的概率1,常取95%或99%。 可信限/置信限(confidence limit, CL):可信区间的两个 数值。有可信下限和上限之分。可信区间并不包含可 信区间上下限两个值,故用圆括弧( )表示其开区间。
X
X
f(t)
ν─>∞(标准正态曲线) ν =5
ν =1
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
不同自由度下的t分布图
二、t分布
t分布由英国统计学家WS Gosset于1908年 以“Student”笔名发表,故又称Student t 分布(Student's t-distribution)。 t分布主要用于总体均数的区间估计及t检验 等。
X 1 , s1

=167.7cm =5.3cm X1,X2,X3,Xi,
X 2 , s2
n=10
100个
X 3 , s3
一、均数的抽样误差与标准误
100个样本均数:新的变量值,样本均数服从正 态分布。 100个样本均数的均数为167.70cm,标准差为 1.73cm。 标准误(standard error, SE):样本统计量(均数) 的标准差。 标准误反映样本均数间的离散程度,也反映了样 本均数与相应总体均数间的差异,可说明了均 数抽样误差的大小

医学统计学总体均数的估计与假设检验

医学统计学总体均数的估计与假设检验

七、两均数的等效检验
是推断两种处理效果是否相近或相等的统计方法。
等效检验的假设
H0: | 1- 2|
H1: | 1- 2|<
为等效界值,若两总体均数差值在范围内为
等效,超过则为不等效。
为什么推断两种处理效果是否相近或相等不能用 前面所述的假设检验方法?
两样本均数等效检验公式为:

要求样本:
X1 X 2
例 方法
据下表资料能否认为两种方法测定结果等效? n 118 118 X 4.55 4.67 S 0.48 0.46
火焰光度法和四苯硼钠法测定血钾浓度( mmol/L)的比较 火焰光度法 四苯硼钠法
设等效界值 Δ =0.25mmol/L
H0: | 1- 2|
四、 假设检验的一般步骤
例: 据大量调查知,健康成年男子脉搏的均数为72 次分,某医生在山区随机调查了25名健康男子,其 脉搏均数为74.2次/分,标准差为6.0次/分,能否认 为该山区成年男子的脉搏高于一般人群? 分析两均数不等的原因有两种可能性: (1)仅仅由于抽样误差所致; (2)除抽样误差外还由于环境条件的影响。
H1: | 1- 2|<
t
X1 X 2 SX X
1 2 2.12ຫໍສະໝຸດ = n1+n2-2=234
= 0.05
0.02< P < 0.05
八、 正态性检验
例2.1 某地 1993 年抽样调查了 118 名 18 岁的男大学生的身高 (cm) ,资料如下:
173.9 173.6 173.6 173.8 … 171.3 173.9 165.8 175.3 164.4 … 176.1 166.9 168.7 178.4 171.0 … 169.7 179.5 173.6 181.5 175.0 … 177.9 171.2 173.7 170.5 177.7 … 171.1 167.8 177.8 176.4 171.4 … 179.3 177.1 180.3 170.8 162.9 … 183.5 174.7 173.1 171.8 179.0 … 168.5 173.8 173.0 180.7 174.9 … 175.5 182.5 173.6 170.7 178.3 … 175.9

总体均数的估计与假设检验

总体均数的估计与假设检验
体均数是否与已知的总体均数一致。 这里已知的总体均数一般指理论值、标准值或
大量观察得到的稳定值。
三个实例
例1:铅作业男性工人血红蛋白与正常成年 男性血红蛋白(140g/L)比较
例2:山区成年男子脉搏数与一般成年男子 脉搏数(72次/分)比较
例3:陈旧性心肌梗死患者血浆载脂蛋白E 与正常人血浆载脂蛋白E(5.22mmol/L)比 较
第五节 t检验
t test,Student t test 单样本t检验 配对样本t检验 两独立样本t检验
t检验的应用条件
独立性:两样本数据互相独立。
正态性:两样本资料均服从正态分布(对 小样本而言)
方差齐性:两总体方差相等。
1、单样本t检验
One-sample t test 检验的目的是推断手头的样本所来自的未知总
假设检验的一般步骤
检验水准(size of a test,significance level)
符号
常取 0.05
用于判断小概率事件的概率值,表示拒绝实际上 成立的H0时,推断错误的最大允许概率。
假设检验的一般步骤
步骤2:选定检验方法,计算检验统计量。
根据设计类型和资料类型选择假设检验方法。
x2 165 .6cm x3 168 .2cm
x99 169 .4cm
第一节 均数的抽样误差与标准误
抽样误差(sampling error)有两种表现形式: (1)样本统计量与总体参数间的差异,例如
样本均数与总体均数间的差异。 (2)样本统计量间的差异。
均数的抽样误差:由个体变异产生、随机抽 样造成的样本均数与总体均数的差异。
u X 标准正态分布 σ / n N(0,12)
Studen, v n 1 自由度:n-1
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Gui
第一节 均数的抽样误差和标准误 由于所研究变量在总体中各观察单位(个体)间存在变异,抽样研究必然会导致抽 样误差(sampling error) 。 抽样误差是不可避免的,但我们可以探究抽样误差的规律,控制抽样误差在允许的 范围内。
Gui
第一节 均数的抽样误差和标准误 为探讨抽样误差的规律,我们做一个放回式随机抽样实验。假设某年某地13岁女学生 身高(X)服从总体均数μ=155.4cm,总体标准差σ=5.3cm的正态分布N(155.4,5.32)。 每次抽取的30例构成一个样本,并计算出样本均数。 如此共抽取100个样本,计算得到 100个样本均数。
本例n>100,可按正态分布原理近似计算:
SXS n0.92 次/分
95 %C: I Xu2SX73 .551.960.9271 .7, 475 .36
该地正常人脉搏总体均数的95%可信区间为71.74~75.36次/分。
Gui
三、总体均数置信区间的解释 • 总体均数可信区间的计算和解释有两种理论依据,一是是Pearson、Fisher、Neyman等人 的经典理论,另一个是Bayes理论。 • 经典理论假定样本x1、x2 、… 、xn来自正态分布N(μ,σ2),其中σ2已知,μ是一个客观存在的常 数。对置信区间的解释是:从总体中随机抽样,每个样本可以算得一个置信区间,该置信 区间包括总体均数(估计正确)的概率是1-α。 • Bayes理论则认为参数μ是随机变量。对置信区间的解释是:μ有1-α的可能性落在该区间, 或者说μ在这个区间内的概率是1-α。
Gui
总体均数的估计 例9.2 某医师随机抽查了某地20名正常成人,测得血糖值的均数为4.92mmol/L,标准差为
0.48mmol/L,试估计该地正常成人血糖值总体均数的95%和99%可信区间。 本例: 今v=20-1=19,查t值表得t0.05,19=2.093,t0.01,19=2.861。 95%可信区间为:
X u σ ❖ σ未知,n足够大(如n>100),按u分布近似计算: α2 X
X tα S 2,ν X
X uα 2SX
Gui
总体均数置信区间的计算 例 测得某地健康男子20人收缩压的均数为118.4mmHg,标准差为10.8mmHg,试估计该地健 康男子收缩压总体均数的95%可信区间。 本例v=20-1=19,查t 值表得 t0.05,19 =2.093 。 代入公式得:
研究生统计学第三章总体均数估计与假设 检验(4版)
第三章 总体均数估计与假设检验
• 均数的抽样误差与标准误 • t 分布 • 总体均数的估计 • 假设检验的基本原理和步骤 • t 检验 • 假设检验的注意事项 • 正态性检验和两样本方差比较的F检验
Gui
参数估计基础 统计学研究的目的通常是要了解总体的情况。如果要了解总体情况,有两种方法: ▪ 全面研究 ▪ 抽样研究 全面研究在许多情况下难以办到,因此,常用的方法是抽样研究,即从同质总体中随机 抽取一部分观察单位作为样本,并由样本信息(包括样本变量值的分布及其用于描述的统计量) 来推断总体情况,即统计推断(statistical inference)。
Gui
Gui
Gui
Gui
第一节 均数的抽样误差和标准误 实际工作中,往往不知道 ,因此,通常用样本标准差s 来代替 ,得到均数标准误的估计值:
S
S
X
n
例 调查某地120名正常成人的血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试计算标准 误。
SX
S n
0.480.044(m /Lm) ol 120
x
X
x
u Xμ σX
Gui
第二节 t 分布
s 实际上 往往未知,故用 作为 的估计值,这时可以对样本均数作 t 变换:
x
x
x
t X μ SX
则t 值的分布是以0为中心的正态分布,即t 分布(student’s t distribution)。1908年W S Gosset以笔名student发表了他的研究论文,开创了小样本统计推断之先河。
Gui
对100个样本均数组成的数据资料 进行统计描述,结果:
X 155.51(cm) S 0.96(cm)
Gui
30
25
f
20
15
10
5
0 152.6 153.2 153.8 154.4 155 155.6 156.2 156.8 157.4 158 158.6
均数
图5-1 100个样本均数的频数分布图
X tα 2 ,ν S X 1.4 1 2 .0 8 9 1 .8 / 3 0 2 ( 0 1.3 1 ,1.5 3 2 )
该地健康男子收缩压总体均数的95%可信区间为113.3~123.5mmHg。
Gui
总体均数置信区间的计算
例 测得某地150名正常人脉搏的均数为73.53次/分,标准差为11.30次/分,试估计该地正常 人脉搏总体均数的95%可信区间。
Gui
第一节 均数的抽样误差和标准误
从一个总体均数为μ ,标准差为σ 的总体中,随机抽取若干个含量为n 的样本。那么,这若 干个样本的均数不会完全相同,其频数分布是以总体均数μ为中心的正态分布,其变异程度可用 这若干个样本均数的标准差表示,称样本均数的标准误(standard error)。
x
n
Gui
Gui
表5-1 从正态总体N(155.4, 5.32)随机抽取 100份样本(n=30)的算术均数
156.7 156.9 156.1 156.3 155.1 155.7 153.6 155.8 154.9 155.1 158.1 154.0 155.0 155.2 155.3 153.7 155.6 153.9 154.6 156.6 155.6 154.4 154.7 156.0 156.3 154.8 155.2 156.2 154.6 156.0 155.2 156.5 154.5 155.6 156.6 155.6 156.7 156.0 157.5 155.8 155.0 155.9 155.2 156.5 155.4 154.8 154.7 154.2 155.9 156.1 156.4 155.5 154.6 155.3 155.9 155.6 155.1 155.4 156.5 152.7 154.9 156.9 156.1 155.2 155.3 158.2 155.7 156.6 156.4 155.1 156.5 156.9 155.7 155.5 154.6 154.9 156.4 155.6 154.7 155.3 155.0 153.4 155.1 155.0 156.1 153.4 155.1 156.8 156.2 154.6 155.9 154.8 156.1 155.5 154.7 156.4 154.9 155.3 154.6 156.6
-
3.75
1
-1.55
3.06
1
-0.69
2.65
1
-0.41
2.37
1
-0.28
1.68
5
-0.69
1.19
10
-0.49
0.97
10
-0.22
0.84
10
-0.13
0.75
10
-0.09
0.53
50
-0.15
0.37
100
-0.16
0.24
300
-0.13
0.17
500
-0.07
SE减少(%)
-29.29 -18.40 -13.40 -10.56 -29.28 -29.46 -18.69 -13.61 -10.77 -22.06 -29.29 -35.94 -30.17
Gui
第一节 均数的抽样误差和标准误 均数标准误的用途:
❖ 衡量样本均数的可靠性; 标准误愈小,说明样本均数与总体均数越接近,即抽样误差越小,用样本均数推论总体均 数的真实性越好。反之,标准误越大,抽样误差越大,样本均数对总体均数的代表性越差。 ❖ 估计总体均数的置信区间; ❖ 用于均数的假设检验。
第一节 均数的抽样误差和标准误
在前述放回式随机抽样实验中,已知总体标准差σ=5.3cm,每次抽样的样本含量 n=30,代入公式得:
x
5.30.9(8cm )
n 30
按实际抽取的100个样本均数计算,标准误为0.96,与上述公式计算结果基本一致。
Gui
x
样本均数的分布
Gui
X (n=30 ,
Gui
放回式随机抽样实验
总体
μ=155.4cm σ = 5.3 cm
n 1 30 , x 1 156 . 7 cm n 2 30 , x 2 158 . 1 cm n 3 30 , x 3 155 . 6 cm n 4 30 , x 4 155 . 2 cm n 5 30 , x 5 155 . 0 cm n 6 30 , x 6 156 . 4 cm ......
1-
-t
0
/2 -t /2
1- 0
/2 +t /2
Gui
第二节 t 分布 由于t 分布的形态随自由度而变化,t也随自由度而变化。不同自由度时的t值可查附 表2 t 界值表得到。
Gui
Gui
一、 t 分布
Gui
第三节 总体均数的估计 一、 可信区间的概念
• 点值估计(point estimation) • 区间估计(interval estimation)
=0.98)
x
X (n=10 ,
=1.68 )
x
x
X(n=5 ,
=2.37)
x
X ( =155.4 , =5.3 )
相关文档
最新文档