4总体均数的估计10310
合集下载
总体均数的估计
均数的抽样误差
1.抽样误差的概念:由个体变异产生的,随机抽样 引起的样本指标与总体指标之间,样本指标与样本 指标之间的差异。 2.抽样误差产生的原因:个体变异 3.抽样误差的特点:随机,不可避免,有规律可 循。 4.在大量重复抽样的情况下,可以展示其规律性 5.度量指标:标准误(standard error,SE)
了解
2.样本均数的抽样分布规律
3.t分布的概念,t分布图形与曲线下面积的分布规律,t界值
4.区间估计的准确度和精确度
均数的抽样 误差与标准 误
从总体N(6.0, 1.52)中进行随机抽样 – 样本例数n分别为10、30、50、100 – 每种样本含量下进行100次抽样
– 计算样本X均数 和标准差S
4.为了解某市女婴出生体重的情况,随机得到该市区120名新生女
婴的平均出生体重为3.10kg,标准差为1200.50kg。用算式
3.10±1.96X0.50/
计算得到的区间,可以解释为
A 此范围包含该市女婴平均出生体重,但可信的程度为95%
B 95%的可能性认为此范围包含了该市女婴的出生体重
C 该市95%的女婴出生体重在此范围内
精密度:反映在可信区间的长度上,长度愈 小愈好
在抽样误差确定的情况下,二者是相互矛盾 的。若提高准确度,即提高可信度,可信区 间势必增大,精密度下降。若提高精密度, 可信区间势必减小,即可信度下降,准确度 下降 一般情况下,同时兼顾准确度与精密度,常 用95%可信区间。
可信区间与医学参考值范围的区别
0,1)
样本均数X
~
N
(
,
2 X
)
Z X n
标准正态分布
N(0,1)
总体均数的估计和t检验
它不受样本大小和样本变异性的影响,是衡量数据分布中心位
03
置的重要参数。
总体均数的点估计
点估计(Point Estimation):使用 样本统计量来估计总体参数的方法。
样本均数(Sample Mean):作为总 体均数的点估计量,它是从样本数据 中计算得出的平均值。
总体均数的区间估计
要点一
区间估计(Interval Estimation)
根据t统计量的显著性,得出配对观测值之 间是否存在显著差异的结论。
配对样本t检验的应用
01
比较同一受试者在不同时间点的生理指标或心理指 标是否存在显著差异。
02
比较同一受试者在不同条件下的行为表现是否存在 显著差异。
03
比较不同治疗方法的效果是否存在显著差异。
04
CHAPTER
两独立样本t检验
两独立样本t检验的概念
它适用于在实验设计时将观测值配对的情况,例如同一受试者在不同时间 点或不同条件下获得的观测值。
配对样本t检验的目的是检验两组配对观测值的均值是否存在显著差异。
配对样本t检验的步骤
1. 数据收集
收集两组配对观测值的数据,确保数据来源可靠、准确。
2. 数据整理
将数据整理成适合进行t检验的表格形式,包括配对观测值的编 号、观测值、差值等。
两独立样本t检验是用来比较 两个独立样本的总体均数是否
有显著差异的统计方法。
它适用于两个独立样本,且 每个样本的观察值相互独立,
不受其他因素的影响。
两独立样本t检验的前提假设 是:两个样本的总体均数相等, 且每个样本的观察值服从正态
分布。
两独立样本t检验的步骤
01
02
03
总体均数估计
0.50
5.00
0.0920
0.0913
3个抽样实验结果图示
各样本均数未必等于总体均数; 各样本均数间存在差异; 样本均数的分布为中间多,两边少,左右基本对称。 样本均数的变异范围较之原变量的变异范围大大缩小。
本均数的抽样分布具有如下特点
从总体均数为μ,标准差为σ的正态总体中抽取例数为n的样本,样本均数的总体均数为μ,标准差为 。
例6-7 某医院用某药治疗脑动脉硬化症22例,其中显效者10例。问该药总显效率的95%置信区间为多少?
本例n=22, X=10, 查附表6(478页),得此两数相交处的数值为24~68,即该药总显效率的95%置信区间为(24%,68%)。
(三)置信区间的确切涵义
01
02
03
95%的置信区间的理解:
For example
例6-6 用某种仪器检查已确诊的乳腺癌患者120名,检出乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。 95%的置信区间为: 该仪器乳腺癌总体检出率的95%置信区间 ( 70.9%,85.7% )
04
03
01
02
查表法
当样本含量较小(如n≤50),np或n(1-p)<5时,样本率的分布呈二项分布,总体率的置信区间可据二项分布的理论求得。
当n确定时,上述两者互相矛盾。 提高准确度(可信度),则精确度降低 (置信区间会变宽),势必降低置信区间的实际应用价值,故不能笼统认为99%置信区间比95%置信区间要好。 相反,在实际应用中,95%置信区间更为常用。
感谢观看
添加副标题
汇报人姓名
2.区间估计(interval estimation):
通常有两类方法:
5.00
0.0920
0.0913
3个抽样实验结果图示
各样本均数未必等于总体均数; 各样本均数间存在差异; 样本均数的分布为中间多,两边少,左右基本对称。 样本均数的变异范围较之原变量的变异范围大大缩小。
本均数的抽样分布具有如下特点
从总体均数为μ,标准差为σ的正态总体中抽取例数为n的样本,样本均数的总体均数为μ,标准差为 。
例6-7 某医院用某药治疗脑动脉硬化症22例,其中显效者10例。问该药总显效率的95%置信区间为多少?
本例n=22, X=10, 查附表6(478页),得此两数相交处的数值为24~68,即该药总显效率的95%置信区间为(24%,68%)。
(三)置信区间的确切涵义
01
02
03
95%的置信区间的理解:
For example
例6-6 用某种仪器检查已确诊的乳腺癌患者120名,检出乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。 95%的置信区间为: 该仪器乳腺癌总体检出率的95%置信区间 ( 70.9%,85.7% )
04
03
01
02
查表法
当样本含量较小(如n≤50),np或n(1-p)<5时,样本率的分布呈二项分布,总体率的置信区间可据二项分布的理论求得。
当n确定时,上述两者互相矛盾。 提高准确度(可信度),则精确度降低 (置信区间会变宽),势必降低置信区间的实际应用价值,故不能笼统认为99%置信区间比95%置信区间要好。 相反,在实际应用中,95%置信区间更为常用。
感谢观看
添加副标题
汇报人姓名
2.区间估计(interval estimation):
通常有两类方法:
总体均数的点估计
③样本均数呈正态分布;
④样本均数的变异范围较原变量的变异范围小;
⑤随着n增加,样本均数的变异程度减小。
⑥若原始变量服从正态分布,统计量服从正态分布。
⑦若原始变量不服从正态分布,当 n 较大时,统计量也服从正
态分布;当n较小时,统计量为非正态分布。
若x服从正态分布,则 xj 服从正态分布
样本含量n=4
样本均数不等由抽样误差所致
x~ N(,2)
n=30
样本1
x1 , s1 , s x1 , t1
…样本2 x 2 , s 2 , s x2 , t 2
… …… …
样本n xn , sn , sxn , tn
来自不同的总体
x ~ N(1,12)
1 2
n=30
样本1 x1 , s1
x~N(2,22)
二、总体均数的区间估计
区间估计(interval estimation)即结合样本统 计量和标准误确定一个具有较大可信度的包含总体参
数的区间,该区间称为总体参数的1-α可信区间 (confidence interval,CI)。
可信度:估计正确的概率。1-
可信区间(confidence level, CI):
样本含量n=16
样本含量n=36
x 的平均数=168.198
x 的标准差=2.9995
6 3.0
4
x 的平均数=168.185 x 的标准差=1.4868
6 1.5 16
x 的平均数=168.135 x 的标准差=0.9997
6
1 .0
36
若x不服从正态分布
(在=1的指数分布总体随机抽取一个样本 )
样本,样本均数 x 也服从正态分布;即使从偏态总 体抽样,当 n 足够大时 x 也近似正态分布。
④样本均数的变异范围较原变量的变异范围小;
⑤随着n增加,样本均数的变异程度减小。
⑥若原始变量服从正态分布,统计量服从正态分布。
⑦若原始变量不服从正态分布,当 n 较大时,统计量也服从正
态分布;当n较小时,统计量为非正态分布。
若x服从正态分布,则 xj 服从正态分布
样本含量n=4
样本均数不等由抽样误差所致
x~ N(,2)
n=30
样本1
x1 , s1 , s x1 , t1
…样本2 x 2 , s 2 , s x2 , t 2
… …… …
样本n xn , sn , sxn , tn
来自不同的总体
x ~ N(1,12)
1 2
n=30
样本1 x1 , s1
x~N(2,22)
二、总体均数的区间估计
区间估计(interval estimation)即结合样本统 计量和标准误确定一个具有较大可信度的包含总体参
数的区间,该区间称为总体参数的1-α可信区间 (confidence interval,CI)。
可信度:估计正确的概率。1-
可信区间(confidence level, CI):
样本含量n=16
样本含量n=36
x 的平均数=168.198
x 的标准差=2.9995
6 3.0
4
x 的平均数=168.185 x 的标准差=1.4868
6 1.5 16
x 的平均数=168.135 x 的标准差=0.9997
6
1 .0
36
若x不服从正态分布
(在=1的指数分布总体随机抽取一个样本 )
样本,样本均数 x 也服从正态分布;即使从偏态总 体抽样,当 n 足够大时 x 也近似正态分布。
第四章 总体均数的估计
第四章
抽样误差与区间估计
一、均数的抽样误差
抽样的目的是用样本信息来推断总体特征,因此要 保证样本的可靠性和代表性,使样本能够充分地反映总 体的真实情况。这就要求严格遵循独立性和随机化的原 则,并保证足够的样本含量。 为了解某地成年男子红细胞的总体均数,随机抽样 调查了200人,计算得到 - =4.95 1012 / L 这是一个点估计值,可以用来估计总体均数μ。但此时 样本均数不太可能等于总体均数。
在实际工作中,总体标准差常是未知的而是用样本 s 标准差s 来代替, x 的估计值记作 x 。
sx S n
从 N(4.83, 0.522)的总体中作随机抽样,n=10, 重复100次的抽样结果见P31。计算得到:
=4.282 =
100
-
S - 0.18
GG
20
10
Frequency
S 0.57 1012 / L
估计其抽样误差:
S
0.57 200
0.040(1012 / L )
标准误的用途
标准误是反映样本均数变异程度的指标,常用来 表示抽样误差的大小。标准误大反映样本均数抽样误 差大,其对总体均数的代表性差;标准误小,样本均 数抽样误差就小,其对总体均数的代表性就好。
–
–
二者都是单峰分布,以0为中心,左右两侧对称。
t 分布的峰部较矮而尾部翘得较高,说明远侧 t 值的个 数相对较多,即尾部面积(概率P)较大。自由度越小 这种情况越明显。 t分布不是一条曲线,而是由一簇随自由度改变而变化 的曲线所组成。当逐渐增大时,t 分布逐渐逼近标准 正态分布;当 = 时,t分布就完全成为标准正态分布 了。
10.9 2.093 3.86/ 20 9.112.7
抽样误差与区间估计
一、均数的抽样误差
抽样的目的是用样本信息来推断总体特征,因此要 保证样本的可靠性和代表性,使样本能够充分地反映总 体的真实情况。这就要求严格遵循独立性和随机化的原 则,并保证足够的样本含量。 为了解某地成年男子红细胞的总体均数,随机抽样 调查了200人,计算得到 - =4.95 1012 / L 这是一个点估计值,可以用来估计总体均数μ。但此时 样本均数不太可能等于总体均数。
在实际工作中,总体标准差常是未知的而是用样本 s 标准差s 来代替, x 的估计值记作 x 。
sx S n
从 N(4.83, 0.522)的总体中作随机抽样,n=10, 重复100次的抽样结果见P31。计算得到:
=4.282 =
100
-
S - 0.18
GG
20
10
Frequency
S 0.57 1012 / L
估计其抽样误差:
S
0.57 200
0.040(1012 / L )
标准误的用途
标准误是反映样本均数变异程度的指标,常用来 表示抽样误差的大小。标准误大反映样本均数抽样误 差大,其对总体均数的代表性差;标准误小,样本均 数抽样误差就小,其对总体均数的代表性就好。
–
–
二者都是单峰分布,以0为中心,左右两侧对称。
t 分布的峰部较矮而尾部翘得较高,说明远侧 t 值的个 数相对较多,即尾部面积(概率P)较大。自由度越小 这种情况越明显。 t分布不是一条曲线,而是由一簇随自由度改变而变化 的曲线所组成。当逐渐增大时,t 分布逐渐逼近标准 正态分布;当 = 时,t分布就完全成为标准正态分布 了。
10.9 2.093 3.86/ 20 9.112.7
4总体均数的估计ppt课件
• 点值估计〔point estimation )
• 区间估计〔interval estimation)
(一)、点值估计
• 点值估计:是直接用样本均数作为总体 均数的估计值。
• 此法计算简便,但由于存在抽样误差, 通过样本均数不可能准确地估计出总体 均数大小,也无法确知总体均数的可靠 程度 。
(二)、区间估计
按α=0.05的水准,拒绝H0,接受H1, 差异无统计学意义。
结论:即根据本资料可以认为此山区健 康成年男子脉搏数与一般健康成年男子不 同。
下结论时的注意点:
• P ≤α ,拒绝H0,不能认为H0肯定不成立, 因为虽然在H0成立的条件下出现等于及大于现 有统计量的概率虽小,但仍有可能出现;
• 同理,P >α ,不拒绝H0,更不能认为H0肯定 成立。由此可见,假设检验的结论是具有概率 性的,无论拒绝H0或不拒绝H0,都有可能发生 错误,即第一类错误或第二类错误
实例:如某年某市120名12岁健康男孩,已求得 均数为143.07cm,标准差为5.70cm,按公式计算, 则标准误为:
5.70 S 0.52
X 120
标准误的应用
• 1.表示抽样误差的大小,也是说明样本 • 均数估计总体均数可靠程度的指标 • 2.进行总体均数的区间估计; • 3.进行均数的假设检验等 。
• 95%的可信区间为 143.07±1.96×0.52 即〔142.05,144.09)。
• 99%的可信区间为 143.07±2.58×0.52, 即〔141.73,144.41)。
注意点
➢标准误愈小,估计总体均数可信区间的范 围也愈窄,说明样本均数与总体均数愈接 近,对总体均数的估计也愈精确;
例3.3 根据大量调查,已知健康成年男子脉搏的 均数为72次/分钟,某医生在一山区随机测量了100 名健康成年男子脉搏数,求得其均数为73.8次/分 钟,标准差为6.6次/分钟,能否认为该山区成年男 子的脉搏数与一般健康成年男子的脉搏数不同?
总体均数估计
sx
t X Z ~ N (0,1)
sx
未知
1
• 2
-t/2,v
• 2
t/2,v
P(-t/2, ≤t ≤ t/2,)=1- x
P(-t/2, ≤ sx ≤ t/2,)=1-
P(x t , sx x t , sx)=1-
(72 2.064 8 / 25, 72 2.064 8 / 25)
可信区间的两个要素
1
•2 -t/2,v
2
t/2,v
P(x t , sx x t , sx)=1-
2
2
可信区间的两个要素
准确度:反映在可信度(1-)的大小上,即
可信区间包含总体均数的可能性大小,从 准确度的角度看,愈接近1愈好,如可信度 99%比95%好。 精密度:反映在可信区间的长度上,即长 度愈小愈好。
第6章 总体均数的估计
陈卫中 讲师 公共卫生学教研室
2019年7月25日
复习
频数表 直方图
分
集中趋势
布
特
征
离散趋势
分布形式
对称分布
偏态分布
分布不明、开口 或有极端值资料
X
M
S
P75 P25
复习
总体参数:对应总体的统计指标 样本统计量:对应样本的统计指标
样本统计量围绕着总体参数上下波动,不会离 开总体参数太远
4
3.975
0.212
0.025
5
3.985
0.189
0.015
6
3.979
0.192
0.021
7
4.001
0.186
-0.001
…
t X Z ~ N (0,1)
sx
未知
1
• 2
-t/2,v
• 2
t/2,v
P(-t/2, ≤t ≤ t/2,)=1- x
P(-t/2, ≤ sx ≤ t/2,)=1-
P(x t , sx x t , sx)=1-
(72 2.064 8 / 25, 72 2.064 8 / 25)
可信区间的两个要素
1
•2 -t/2,v
2
t/2,v
P(x t , sx x t , sx)=1-
2
2
可信区间的两个要素
准确度:反映在可信度(1-)的大小上,即
可信区间包含总体均数的可能性大小,从 准确度的角度看,愈接近1愈好,如可信度 99%比95%好。 精密度:反映在可信区间的长度上,即长 度愈小愈好。
第6章 总体均数的估计
陈卫中 讲师 公共卫生学教研室
2019年7月25日
复习
频数表 直方图
分
集中趋势
布
特
征
离散趋势
分布形式
对称分布
偏态分布
分布不明、开口 或有极端值资料
X
M
S
P75 P25
复习
总体参数:对应总体的统计指标 样本统计量:对应样本的统计指标
样本统计量围绕着总体参数上下波动,不会离 开总体参数太远
4
3.975
0.212
0.025
5
3.985
0.189
0.015
6
3.979
0.192
0.021
7
4.001
0.186
-0.001
…
总体均数的估计ppt课件
11
1. 样本均数的均数μ 与个体观察值的均数μ相等 x μ =μ x
2. 样本均数间存在变异(抽样误差),其变异程度 较个体值的小
σ σ=
xn
3. 来自正态分布总体的样本均数满足正态分布
x~N μ ,σ 2 xx
12
13
样本均数的均数为m证明*
E
x
E
x n
样本号
样本含量(n=10)
1 161.1 173.7 173.7 167.3 162.2 162.2 166.6 166.6 157.4 157.4 164.82
2 166.8 159.1 159.1 166.1 173.3 173.3 169.1 169.1 165.2 165.2 166.63
3 157.4 174.0 172.3 175.8 166.6 182.1 163.1 159.4 159.4 177.3 168.74
xi
27
t分布的概率密度函数*
若随机变量t满足以下概率密度函数,则称
t满足自由度为v的t分布:
f (t)
(v -1)! 2
v ( v - 2
)!
1
t2 v
- v1 2
2
28
t分布曲线是单峰的,且关于t = 0对称,这一特 征与标准正态分布很相似
0.4
(标准正态分布)
为了与个体的标准差相互区别,样本均数的标准差又称 为样本均数的标准误,简称标准误或理论标准误
反映了样本均数间的离散程度,如果标准误很大,则不 同的样本均数间参差不齐,同时样本均数的分布范围较 大,也反映了样本均数与总体均数间的差异可能较大, 因而标准误反映均数抽样误差的大小
1. 样本均数的均数μ 与个体观察值的均数μ相等 x μ =μ x
2. 样本均数间存在变异(抽样误差),其变异程度 较个体值的小
σ σ=
xn
3. 来自正态分布总体的样本均数满足正态分布
x~N μ ,σ 2 xx
12
13
样本均数的均数为m证明*
E
x
E
x n
样本号
样本含量(n=10)
1 161.1 173.7 173.7 167.3 162.2 162.2 166.6 166.6 157.4 157.4 164.82
2 166.8 159.1 159.1 166.1 173.3 173.3 169.1 169.1 165.2 165.2 166.63
3 157.4 174.0 172.3 175.8 166.6 182.1 163.1 159.4 159.4 177.3 168.74
xi
27
t分布的概率密度函数*
若随机变量t满足以下概率密度函数,则称
t满足自由度为v的t分布:
f (t)
(v -1)! 2
v ( v - 2
)!
1
t2 v
- v1 2
2
28
t分布曲线是单峰的,且关于t = 0对称,这一特 征与标准正态分布很相似
0.4
(标准正态分布)
为了与个体的标准差相互区别,样本均数的标准差又称 为样本均数的标准误,简称标准误或理论标准误
反映了样本均数间的离散程度,如果标准误很大,则不 同的样本均数间参差不齐,同时样本均数的分布范围较 大,也反映了样本均数与总体均数间的差异可能较大, 因而标准误反映均数抽样误差的大小
5.总体均数估计
34
它与样本例数 n 或自由度ν 有关,某个
自由度对应于一条 t 分布曲线。当 n 或ν不同
时,曲线形状不同。当 时,t 分布趋近 于标准正态分布。 自由度:
ν = n-1
随机变量能够自由取值的个数
35
t分布曲线下面积规律
• t分布曲线下总面积仍为1或100% • 由于t分布是一簇曲线,故t分布曲线下面 积固定面积(如95%或99%)的界值不是一 个常量,而是随自由度的大小而变化, 如附表3 。
-t,
0
t,
二、总体均数的估计
点估计:由样本统计量 X、S、p 参数的估计 直接估计总体参数 m、s、 缺点: 没有考虑抽样误差。
区间估计:在一定可信度下,同时 考虑抽样误差。
41
1.点估计
• 11名18岁男大学生身高均数资料得,
X =172.25cm,S=3.31cm,试估计该 地18岁男大学生身高总体均数 ?
第六章 总体均数的估计
1
主要内容
均数的抽样误差与标准误 t 分布 总体均数的估计
2
一、均数的抽样误差
总体
随机抽样
推断
样本
3
1. 抽样误差(sampling error)
由于个体变异产生的,随机
抽样引起的样本统计量与总体参 数之间的差异或各样本统计量之 间的差异称为抽样误差。
4
常把这种由抽样研究造成的样本 均数与总体均数间的差异称为均数 的抽样误差。 由抽样研究造成的样本率与总 体率间的差异称为率的抽样误差。
0.35
0.3
0.25
0.2
0.15
4
0.1
0.05
0 -5
-4
-3
第04章 总体均数的估计
二、总体均数置信区间的计算
未知,且 n较小,按t分布
已知,或未知但n足够大,按Z分布
1. 单一总体均数的置信区间
2. 两总体均数的置信区间
(一)单一总体均数的置信区间
0.4 0.3
0.2
0.1
面积: 100(1 )%
0
X t / 2, S X
X
X t / 2, S X
图4-1 随机抽样所得100个样本均数的分布
100个样本均数的抽样分布特点:
① 4.83 X 4.8276 ② 100个样本均数中,各样本均数间存在差异, 但各样本均数在总体均数周围波动。 ③样本均数的分布曲线为中间高,两边低, 左右对称,近似服从正态分布。 ④样本均数的标准差明显变小:
0.52 0.52 S X 0.1772 0.1644 X 10
标准误(standard error, SE)
即样本均数的标准差,可用于衡量抽样误 差的大小。
X
因通常σ 未知,计算标准误采用下式:
n
SX
S n
通过增加样本 含量n来降低抽
样误差。
表4-1计算了100个样本的标准差S,由此可 计算每一样本的抽样误差大小。
t 界值表
(P406,附表2)
ν =1 举例:
t
1.812 -2.228 2.228
① 10,单 =0.05, t , t0.05,10 1.812 ,则有
P(t 1.812) 0.05 或 P(t 1.812) 0.05
率的标准误小,说明抽样误差较小,表示样本率对 总体率的代表性好;反之,率的标准误大,样本率对 总体率的代表性差。
二、 总体率的可信区间
第六章总体均数的估计
第22页
第三节
总体均数的区间估计
• 参数估计:用样本指标(统计量)估计总 体指标(参数)称为参数估计。 • 估计总体均数的方法有两种,即: 点值估计(point estimation ) 区间估计(interval estimation)。
标 准 差( S) 1.表示个体变量值的变异度大小,即原始变量值的
标 准 误( S X ) 1.表示样本均数抽样误差的大小, 即样本均数的离散程 度。公式为: S X
( X X ) 2 离散程度。公式为: S n 1
2.计算变量值的频数分布范围,如: ( X 1.96S )。 3.可对某一个变量值是否在正常值范围内作出初步 判断。 4.用于计算标准误。
第21页
t分布是t检验的理论基础。│ t│值与样本均数 和总体均数之差成正比,与标准误成反比 。 在 t 分布中│ t│值越大,其两侧或单侧以外的 面积所占曲线下总面积的比重就越小 ,说明在 抽样中获得此│ t│值以及更大│ t│值的机会 就越小,这种机会的大小是用概率P来表示的。 │ t│值越大,则P值越小;反之,│ t│值越小, P值越大。根据上述的意义,在同一自由度下, │t│≥ tα,则P≤α;反之│t│<tα,则P> α。
第15页
第二节 t 分布 一、t 分布的概念
• 正态变量X采用 Z = (X -μ)/σ变换,则一般 的正态分布N (μ,σ)即变换为标准正态分布N (0,1)。 • 又因从正态总体抽取的样本均数服从正态分布 N(μ, X ),同样可作正态变量的Z变换,即
X
Z
X
X
X n
第8页
思
考
• 如果从一个明显偏态分布的总体中随机 抽取样本含量为5,10,30和50的样本各 1000次,随样本含量的增大,样本均数 的分布呈何种变化?
4-总体均数的估计
x1 , s1
7
x2 , s2 x3 , s3
…………
x 1 , x 2 , x 3 ,...... x k ~ N ( µ ,
《医学基础统计》第四章总体均数的估计
σ
2
x k , sk
)
2010.09.21
n
1.1
抽样误差 sampling error
o 由于个体差异的存在,在抽样过程中产 生的样本统计量与相应的总体参数之间的 差异称为抽样误差; o 由于生物间的个体差异客观存在,故在 抽样研究中抽样误差无法避免; o 数理统计表明,抽样误差有规律可循。
2010.09.21
2.2
U值-标准正态变换
前提条件为,当σ x已知, u =
U值 ≥1.64 ≥1.96 ≥2.58 & & & ≤-1.64 ≤-1.96 ≤-2.58
x −μ
σx
正态分布曲线下面积 10% 5% 1%
P425,附表1 标准正态分布曲线下面积的分布表
21
《医学基础统计》第四章总体均数的估计
o总体均数的点估计为:104.89 o总体均数的95%可信区间为: 以 95 %的把握保证总 体 均 值 在 104.26 ~ 104.89 ± 1.980 × 0.32 105.52之间 = (104.26,105.52)
以 99 %的把握保证总 o总体均数的99%可信区间为: 体 均 值 在 104.05 ~ 104.89 ± 2.617 × 0.32 105.73之间 = (104.05,105.73)
30
《医学基础统计》第四章总体均数的估计 2010.09.21
四、总体均数估计的SAS编程
31
《医学基础统计》第四章总体均数的估计
统计学课件-总体均数的估计与t检验
配對的變數
配對差值
t值 自由度 P值 結論:因為t=1.517,P=0.164>0.05,所有尚不能認為新藥和常規藥降低 血清總膽固醇的效果不同。
假設檢驗的注意事項
➢ 假設檢驗的P值不能反映總體均數差別的大小。 P值越小,越有理由(越有把握)認為兩總體均數不相等。
➢ 假設檢驗的結論具有概率性。
(三)配對t檢驗
可分為自身配對比較和實驗配對比較,目的是推斷某種 處理有無作用或兩種處理結果有無差別。 由於配對設計資料可以有效地控制個體差異對結果的影
響,故配對t檢驗的檢驗效率比成組t檢驗要高。
t d 0 , = n – 1 sd / n
例: 為比較某新藥與常規藥降血脂的效果,將性別相同、血 清總膽固醇水準相近的高血脂患者配成對子。每對中隨機抽 取一人服用新藥,另一人服用常規藥。服用一段時間後,測 得血清總膽固醇含量(mmol/L)如下(見數據檔 p196.sav)。問新藥與常規藥降血清總膽固醇效果是否相同?
常規藥:6.57 7.04
新藥: 6.00 7.00
6.46 6.68 6.83 6.03
6.27 7.42 5.97 7.22
6.89 7.28
6.21 6.30
7.61 6.64
7.60 7.38
SPSS操作步驟:
變數說明:X1:常規藥的血清總膽固醇, X2:新藥的血 清總膽固醇。
配對樣本 t檢驗
檢驗假設: H0:無效假設 H1:備擇假設
假設檢驗的目的 推斷兩個總體均數是否相等(雙側檢驗:μ1 = μ2?,單 側檢驗: μ1 >μ2? 或者μ1 < μ2? )
(一)樣本均數與總體均數的比較的t檢驗
又稱為單樣本t檢驗。已知的“總體均數”一般為理論值、
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 总体均数估计和假设检验
第一节 均数的抽样误差
总体
抽取部分观察单位 样本
参数
如:总体均数
统计量
? 统计推断 如:样本均数
X
总体标准差?
样本标准差S
总体率?
样本率 P
抽样误差
(sampling error) :由 于个体差异导 致的样本统计 量与总体参数 间的差别。
一、均数的抽样误差
从正态分布总体N(5.00,0.502)中, 每次随机抽取样本含量n=5,并计算其均
(一)、点值估计
? 点值估计:是直接用样本均数作为总体 均数的估计值。
? 此法计算简便,但由于存在抽样误差, 通过样本均数不可能准确地估计出总体 均数大小,也无法确知总体均数的可靠 程度 。
(二)、区间估计
?区间估计是按一定的概率( 1-α)估计包含总体 均数可能的范围,该范围亦称总体均数的可信区 间(confidence interval,缩写为CI)。
? 1-α称为 可信度 ,常取 1-α为0.95 和0.99 ,即总 体均数的 95% 可信区间和 99% 可信区间。
?1-α(如95%)可信区间的 含义是:总体均数被 包含在该区间内的可能性是 1-α,即(95%), 没有被包含的可能性为 α,即(5%)。 准确度、精度
总体均数的可信区间的计算
? 1.未知σ且n较小(n<100) 按t分布的原理
小结
均数的均数围绕总体均数上下波动。
均数的标准差即标准误 ? X ,与总体
标准差? 相差一个常数的倍数,即
? ?? / n X
样本均数的标准误(Standard Error) =样本标准差/ 样本含量=S n
实例:如某年某市 120名12岁健康男孩,已求得
均数为143.07 cm,标准差为 5.70cm,按公式计算,
? 95%的可信区间 ? 123.7±2.064×2.38 (118.79, 128.61) ? 故该地 1岁婴儿血红蛋白平均值 95%的可信区
间为118.7 ~128.61 (g/L)。
例3.2 上述某市120名12岁健康男孩身高均数为
143.07cm,标准误为 0.52cm,试估计该市 12岁康
?
X ? t ? ,? S X
2.已知σ或n较大(n≥100) 按u分布的原理
X
?
u?
S X
X ? u? ? X
例3.1 为了了解某地 1岁婴儿的血红蛋白浓度,从 该地随机抽取了 1岁婴儿25人,测得其血红蛋白的
平均数为123.7g/L,标准差为 11.9g/L。试求该地1
岁婴儿的血红蛋白平均值 95%的可信区间。
sample1 sample2
x1 x2
Sample n
sample3
xn
x3
正态分布
s = ? (x- m)2 N
总体中个体的变异程度
( )2
? x- x
s=
x
n- 1
均数的变异程度
x
1000份样本抽样计算结果
总体的 均数
5.00
总体标 准差?
均数的 均数标准差
均数
Sn
?
n
0.50 5.00 0.0920 0.0913
sample5
抽样试验(n=30)
抽样实验结果图示
450 400
n ? 30; S X ? 0.0920
350
300
数 250 频 200
150
100
50
0
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
总体 正态分布
? ②在相同|t|值时,双尾概率P为单 尾概率P的两倍。
复习
? 标准误和抽样误差 ? 标准误的计算公式 ? 标准差和标准误的联系和区别 ? t分布的特征 ? t分布的面积
三 总体均数的区间估计
? 参数估计:用样本指标(统计量)估计 总体指标(参数)称为参数估计。
? 估计总体均数的方法有两种,即: 点值估计(point estimation ) 区间估计(interval estimation)
则标准误为:
S ? 5.70 ? 0.52 X 120
标准误的应用
? 1.表示抽样误差的大小,也是说明样本 均数估计总体均数可靠程度的指标
? 2.进行总体均数的区间估计; ? 3.进行均数的假设检验等 。
标准差和标准的联系和区别
? 联系 在样本含量一定的情况下,标准误和标准差成 正比
? 区别 标准差:个体观察值的变异程度 标准误:样本均数的变异程度
t 分布有如下性质:
①单峰分布,曲线在t=0 处最高,并以t=0为中心
左右对称
②与正态分布相比,曲线 最高处较矮,两尾部翘得 高(见蓝线)
③ 随自由度增大,曲线逐 渐接近正态分布;分布的 极限为标准正态分布。
t分布曲线是一簇曲线,而不是一条曲线。
t分布曲线下面积(附表 2)
双侧t0.05/2 ,9=2.262 =单侧t0.025 ,9
单侧t0.05,9=1.833 双侧t0.01/2 ,9=3.250
=单侧t0.005 ,9 单侧t0.01,9=2.821 双侧t0.05/2 ,∞=1.96
=单侧t0.025 ,∞ 单侧t0.05,∞ =1.64
可见
? ①在相同的自由度时,|t|值增大, 概率P减少;反之,|t|值减小,概 率P增大。
男孩身高均数 95%和99%的可信区间。
? 95%的可信区间为 143.07±1.96×0.52 即(142.05,144.09)。
? 99%的可信区间为 143.07±2.58×0.52, 即(141.73,144.41)。
注意点
?标准误愈小 ,估计总体均数可信区间的范 围也愈窄,说明样本均数与总体均数愈接 近,对总体均数的估计也愈精确;
同一总体,标准误与样本含量的平方根成反比
二、t分布
随机变量X N(? ,? 2)
u
?
X?
?
?
u变换
均数X
N(? ,? 2 n)
u? X?? ?n
t ? X? ? ? X? ? , v? n?1
S n SX
标准正态分布
N(0,12)
标准正态分布
N(0,12) Student t分布 自由度:n-1
t分布曲线
数与标准差;重复抽取1000次,获得1000 份样本;计算1000份样本的均数与标准差 ,并对1000份样本的均数作直方图。
按上述方法再做样本含量n=10、样本 含量n=30的抽样实验;比较计算结果。
图示:总体与样本
population
sample1 sample2 sample3 sample4
第一节 均数的抽样误差
总体
抽取部分观察单位 样本
参数
如:总体均数
统计量
? 统计推断 如:样本均数
X
总体标准差?
样本标准差S
总体率?
样本率 P
抽样误差
(sampling error) :由 于个体差异导 致的样本统计 量与总体参数 间的差别。
一、均数的抽样误差
从正态分布总体N(5.00,0.502)中, 每次随机抽取样本含量n=5,并计算其均
(一)、点值估计
? 点值估计:是直接用样本均数作为总体 均数的估计值。
? 此法计算简便,但由于存在抽样误差, 通过样本均数不可能准确地估计出总体 均数大小,也无法确知总体均数的可靠 程度 。
(二)、区间估计
?区间估计是按一定的概率( 1-α)估计包含总体 均数可能的范围,该范围亦称总体均数的可信区 间(confidence interval,缩写为CI)。
? 1-α称为 可信度 ,常取 1-α为0.95 和0.99 ,即总 体均数的 95% 可信区间和 99% 可信区间。
?1-α(如95%)可信区间的 含义是:总体均数被 包含在该区间内的可能性是 1-α,即(95%), 没有被包含的可能性为 α,即(5%)。 准确度、精度
总体均数的可信区间的计算
? 1.未知σ且n较小(n<100) 按t分布的原理
小结
均数的均数围绕总体均数上下波动。
均数的标准差即标准误 ? X ,与总体
标准差? 相差一个常数的倍数,即
? ?? / n X
样本均数的标准误(Standard Error) =样本标准差/ 样本含量=S n
实例:如某年某市 120名12岁健康男孩,已求得
均数为143.07 cm,标准差为 5.70cm,按公式计算,
? 95%的可信区间 ? 123.7±2.064×2.38 (118.79, 128.61) ? 故该地 1岁婴儿血红蛋白平均值 95%的可信区
间为118.7 ~128.61 (g/L)。
例3.2 上述某市120名12岁健康男孩身高均数为
143.07cm,标准误为 0.52cm,试估计该市 12岁康
?
X ? t ? ,? S X
2.已知σ或n较大(n≥100) 按u分布的原理
X
?
u?
S X
X ? u? ? X
例3.1 为了了解某地 1岁婴儿的血红蛋白浓度,从 该地随机抽取了 1岁婴儿25人,测得其血红蛋白的
平均数为123.7g/L,标准差为 11.9g/L。试求该地1
岁婴儿的血红蛋白平均值 95%的可信区间。
sample1 sample2
x1 x2
Sample n
sample3
xn
x3
正态分布
s = ? (x- m)2 N
总体中个体的变异程度
( )2
? x- x
s=
x
n- 1
均数的变异程度
x
1000份样本抽样计算结果
总体的 均数
5.00
总体标 准差?
均数的 均数标准差
均数
Sn
?
n
0.50 5.00 0.0920 0.0913
sample5
抽样试验(n=30)
抽样实验结果图示
450 400
n ? 30; S X ? 0.0920
350
300
数 250 频 200
150
100
50
0
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
总体 正态分布
? ②在相同|t|值时,双尾概率P为单 尾概率P的两倍。
复习
? 标准误和抽样误差 ? 标准误的计算公式 ? 标准差和标准误的联系和区别 ? t分布的特征 ? t分布的面积
三 总体均数的区间估计
? 参数估计:用样本指标(统计量)估计 总体指标(参数)称为参数估计。
? 估计总体均数的方法有两种,即: 点值估计(point estimation ) 区间估计(interval estimation)
则标准误为:
S ? 5.70 ? 0.52 X 120
标准误的应用
? 1.表示抽样误差的大小,也是说明样本 均数估计总体均数可靠程度的指标
? 2.进行总体均数的区间估计; ? 3.进行均数的假设检验等 。
标准差和标准的联系和区别
? 联系 在样本含量一定的情况下,标准误和标准差成 正比
? 区别 标准差:个体观察值的变异程度 标准误:样本均数的变异程度
t 分布有如下性质:
①单峰分布,曲线在t=0 处最高,并以t=0为中心
左右对称
②与正态分布相比,曲线 最高处较矮,两尾部翘得 高(见蓝线)
③ 随自由度增大,曲线逐 渐接近正态分布;分布的 极限为标准正态分布。
t分布曲线是一簇曲线,而不是一条曲线。
t分布曲线下面积(附表 2)
双侧t0.05/2 ,9=2.262 =单侧t0.025 ,9
单侧t0.05,9=1.833 双侧t0.01/2 ,9=3.250
=单侧t0.005 ,9 单侧t0.01,9=2.821 双侧t0.05/2 ,∞=1.96
=单侧t0.025 ,∞ 单侧t0.05,∞ =1.64
可见
? ①在相同的自由度时,|t|值增大, 概率P减少;反之,|t|值减小,概 率P增大。
男孩身高均数 95%和99%的可信区间。
? 95%的可信区间为 143.07±1.96×0.52 即(142.05,144.09)。
? 99%的可信区间为 143.07±2.58×0.52, 即(141.73,144.41)。
注意点
?标准误愈小 ,估计总体均数可信区间的范 围也愈窄,说明样本均数与总体均数愈接 近,对总体均数的估计也愈精确;
同一总体,标准误与样本含量的平方根成反比
二、t分布
随机变量X N(? ,? 2)
u
?
X?
?
?
u变换
均数X
N(? ,? 2 n)
u? X?? ?n
t ? X? ? ? X? ? , v? n?1
S n SX
标准正态分布
N(0,12)
标准正态分布
N(0,12) Student t分布 自由度:n-1
t分布曲线
数与标准差;重复抽取1000次,获得1000 份样本;计算1000份样本的均数与标准差 ,并对1000份样本的均数作直方图。
按上述方法再做样本含量n=10、样本 含量n=30的抽样实验;比较计算结果。
图示:总体与样本
population
sample1 sample2 sample3 sample4