第三节 总体均数及总体概率的估计
统计学:总体均数的估计
![统计学:总体均数的估计](https://img.taocdn.com/s3/m/5e499061a76e58fafbb00335.png)
Student t分布
t X X ,
S n SX
v n 1 自由度:n-1
f(t)
ν─>∞(标准正态曲线)
ν=5
ν=1
f (t) ( 1) 2 (1 t 2 / )( 1) 2
( 2)
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
用希腊字母分别记为μ、
参 数 推断inference 统计量 σ。固定的常数
统计量:样本的统计指标,如样本均数、标准差,采用拉
丁字母分别记为
X、。S参数附近波动的随机变量 。
第一节 均数的抽样误差与标准误
例如,从总体均数 =4.83×1012/L、标准差 =0.52×1012/L 的正态分布总体
单侧t0.05,9=1.833 双侧t0.01/2,9=3.250
=单侧t0.005,9 单侧t0.01,9=2.821 双侧t0.05/2,∞=1.96
=单侧t0.025,∞ 单侧t0.05,∞ =1.64
第三节 总体均数的可信区间估计
总体均数的点估计(point estimation)与区间估计
20
15
10
5
0 4.2~ 4.3~ 4.4~ 4.5~ 4.6~ 4.7~ 4.8~ 4.9~ 5.0~ 5.1~ 5.2~ 红细胞数(×1012/L)
图4-1 随机抽样所得100个样本均数的分布
100个样本均数的抽样分布特点:
① 4.83 X 4.8276
② 100个样本均数中,各样本均数间存在差异, 但各样本均数在总体均数周围波动。
M
第100个样本S X
S 0.39 =0.123 n 10
卫生统计学七版 第五章参数估计基础电子教案
![卫生统计学七版 第五章参数估计基础电子教案](https://img.taocdn.com/s3/m/85be509852ea551811a68733.png)
P0.05
第三节 总体均数及总体概率的估计
一、参数估计的基础理论
参数估计区 点间 估估 计计
对总体参数估计 称的 为范 置围 信区C间( I , co用 nfidenicneterv)al
表示,其置信1度 )为,(一般取置95信 %,度即为取 为0.05,此区
间的较小值称为 限置 ,信 较下 大值称为 限置 。信 一上 般进行双 区侧 间的估计。
卫生统计学七版 第五ຫໍສະໝຸດ 参数估 计基础第一节 抽样分布与抽样误差
一、样本均数的抽样分布与抽样误差
……
x15 .55 1 sx0.9617
样本均数的标准差越,大抽样误差就越大
样本均数的标准差称标为准误
x
n
sx
s n
sx称为标准误估计值,简也称标准误
标准误与标准差成正比 ,与样本含量成反比
标准误越大,抽样误差越大。
2、正态近似法
当已知时X: u
n
当未知但n足够大时X:u0.05
s n
X1.96 s n
或:X1.96s X
例5-3(P95) 某医生于2000年在某市随机抽取90名 19岁的健康男大学生,测量了他们的身高,得样本均数 为172.2cm,标准差为4.5cm,试估计该市2000年19岁健 康男性大学生平均身高的95%置信区间 。
对任意分布,在样本含量足够大时,其样本均数的分布都 近似正态分布,且样本均数的均数等于原分布的均数。
二、样本频率的抽样分布与抽样误差
总体率的标准误:
p
(1 )
n
率的标准误的估计值:
sp
p(1 p) n
标准误大抽样误差就大。
第二节 t分布
一、t分布的概念
参数估计基础
![参数估计基础](https://img.taocdn.com/s3/m/81a407de763231126fdb1145.png)
p ~ B(n,π), 给定n=50, π =0.20. 共抽取100个样本,计算黑球的比例, p1,p2,…,p100.结果见表5-3。
表5-3 从B(n=50 =0.20)抽取的100 个样本频率的频数分布
黑球比例(%) 8.010.012.014.016.018.020.022.024.026.0-
试估计:该样本频率的抽样误差。 已知:p=41.5%,n=776,代入公式(5-4)得到标准误估 计值:
S pp 1 n p 0 .4 1 5 7 1 7 6 0 .4 1 5 0 .0 1 7 7 或 1 .7 7 %
标准误的估计值较小,说明用样本患病率 41.5%估计总体患病率的可靠性较好。
组段(cm) 152.6~
153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~158.6
合计
频数 1
4 3 19 25 23 18 4 1 2 100
频率(%) 1.0
4.0 3.0 19.0 25.0 23.0 18.0 4.0 1.0 2.0 100.0
= 时,t分布就完全等于标准正态分布。 3、标准正态分布有两个固定常数(0,1),t分 布只有一个参数 。
❖ 练习:
❖ 1、ν=10,双侧尾部面积为0.05的t界值是?
❖ 2、ν=100,单侧尾部面积为0.05的t界值是?
❖ 3、ν=∞,双测尾部面积和单侧尾部面积分别 为0.05的界值是?
❖1、t 0.05/2,10=2.228
两侧越分散; ➢ 随着 逐渐增大,t分布逐渐逼近标准正态分布;
当 趋于 时,t分布就完全成为标准正态分布。
3 总体均数的估计
![3 总体均数的估计](https://img.taocdn.com/s3/m/34966ff5a32d7375a517807e.png)
在相同自由度时,︱t ︳越大,概率P越小; 在相同t值时,双侧概率P是单侧概率P的两倍。
参数估计
参数估计: 是指用样本统计量估计总体参数。
1、点估计 2、区间估计
1. 点估计
是用样本统计量直接作为总体参数的估计值,即
用样本均数 X 作为总体均数μ 的估计值,用样本
率p作为总体率π的估计值。
中心极限定理(central limit theorem)
从均数为μ、标准差为σ 的总体中独立随机抽样,
当样本含量n增加时,样本均数的分布将趋于正 态分布,此分布的均数为μ,标准差为σ X 。
σ =σ X n
标准误(standard error)
标准误(standard error,SE):样本统计量 的标准差称为标准误,用来衡量抽样误差 的大小。
(1)该市市区95%的男孩出生体重在什么范围? (2)估计该市市区男孩的出生体重均数在什么范围? (3)该市区某男孩出生体重为3.65kg,如何评价? ( 4 ) 抽 查 郊 区 100 名 男 孩 的 出 生 体 重 , 得 均 数 为
3.23kg,标准差为0.52kg,问市区和郊区男孩的出 生体重是否不同?
方法简单,但没有考虑抽样误差,无法评估估计 值与真值之间的差距。
2. 区间估计
置信区间(confidence interval,CI):按预先 给定的概率1-α所确定的包含未知总体参数的一个 范围,称为总体参数的1-α置信区间(CI)。
1- α 称为可信度。 α一般取0.05或0.01。
σ X
=
σ
n
例 2000年某研究者随机抽查某地健康成年 男 子 27 人 , 得 到 血 红 蛋 白 的 均 数 为 125g/L,标准差为15g/L。试估计该样本均 数的抽样误差。
卫生统计学课程教学大纲
![卫生统计学课程教学大纲](https://img.taocdn.com/s3/m/91e33faba0116c175f0e485a.png)
卫生统计学课程教学大纲课程负责人:隋云南开课单位:卫生统计学教研室课程编码: 0510014 课程中文名称:卫生统计学课程英文名称:Health Statistics《卫生统计学》课程是预防医学专业成人高等教育的专业基础课程。
《卫生统计学学》以统计分析工作为逻辑起点,以预防医学专业成人教育本科为讲授对象,是集理论性与应用性为一体的学科。
设置本课程的目的是:使学习者在全面了解统计学历史、现状与发展趋势的基础上,系统掌握统计分析工作的理论、方法、技术,具备在数据整理归纳、信息提取、结果的解释等方面的实际技能,从而胜任疾病预防、控制与管理工作。
学习本课程的要求是:学习者应了解卫生统计学的发展史,掌握基本的统计学原理和方法,培养独特的统计思维方式,熟悉SPSS统计软件包的基本功能。
本教学大纲供预防医学专业成人教育本科使用。
先修课程要求:熟悉和掌握相关的数理统计原理和方法。
本课程计划36学时,2学分,其中理论学为16学时,实验为16学时。
选用教材:卫生统计学(第五版)主编:方积乾教学手段:多媒体课件、板书、统计学计算器、计算机。
考核方法:闭卷考试。
课内实验安排:第二章定量资料的统计描述一、学习目的通过本章的学习,熟悉利用统计图表描述定量资料的基本方法、制作统计图表的基本要求和规则及百分位数的计算方法;掌握描述定量资料集中趋势的算术均数、几何均数、中位数的计算方法和适用条件,描述定量资料离散趋势的极差、四分位数间距、方差、标准差和变异系数的计算方法和适用条件,常用统计图表的制作方法;了解定量资料的频数分布表的编制方法和分布规律,描述分布形态的偏度系数的计算和意义。
定量的资料的统计描述计划8学时。
二、课程内容第一节频数与频数分布了解定量资料的频数分布表的编制方法和分布规律。
第二节定量变量的特征数熟悉百分位数的计算方法;掌握描述定量资料集中趋势的算术均数、几何均数、中位数的计算方法和适用条件,描述定量资料离散趋势的极差、四分位数间距、方差、标准差和变异系数的计算方法和适用条件;了解描述分布形态的偏度系数的计算和意义。
总体均数与总体率的估计研
![总体均数与总体率的估计研](https://img.taocdn.com/s3/m/99e7782859fafab069dc5022aaea998fcd22406e.png)
05
总结与展望
研究总结
研究方法
本研究采用文献综述和实证分析相结 合的方法,对总体均数与总体率的估 计进行了系统研究。通过收集相关文 献,梳理了估计方法的发展历程和现 状,并对典型案例进行了实证分析。
研究结果
研究发现,总体均数与总体率的估计 是统计学中的重要内容,对于了解总 体特征和推断总体情况具有重要意义 。目前,估计方法多样,包括直接法 、抽样法、回归法等。这些方法在不 同情况下各有优劣,适用范围也不同 。此外,研究发现不同估计方法在精 度和可靠性方面存在差异,需根据实 际情况选择合适的方法。
样本量对总体率估计的偏倚影响较大
当样本量较小时,即使随机抽样,样本率也可能偏离总体率,因此样本量对估计的偏倚影响较大。
04 实例分析
实例一:总体均数估计实例
总结词
通过实例说明总体均数估计的方法和 步骤。
详细描述
介绍一个具体的总体均数估计实例, 包括研究背景、数据来源、样本选择、 数据处理和结果分析等步骤,以及在 估计过程中需要注意的问题和解决方 法。
实例二:总体率估计实例
总结词
通过实例说明总体率估计的方法和步骤。
详细描述
介绍一个具体的总体率估计实例,包括研究背景、数据来源、样本选择、数据处理和结果分析等步骤,以及在估 计过程中需要注意的问题和解决方法。
实例三:样本量对估计的影响实例
总结词
通过实例说明样本量对总体均数和总体率估计的影响。
详细描述
样本量越大,估计的总体均数的精度越高
随着样本量的增加,样本均数的波动范围逐渐缩小,更接近总体均数。
医学统计学第3章
![医学统计学第3章](https://img.taocdn.com/s3/m/c526812a2f60ddccda38a084.png)
均数的抽样示意图
X1 S1
μσ
X2 S2 XI Si Xn Sn
σx
X服从什么分布?
例3-1 若某市1999年18岁男生身高服从均数 =167.7cm、标准差 =5.3cm的正态分布。从该正态分布N(167.7,5.32)总体中随机抽样 100次即共抽取样本g=100个,每次样本含量nj=10人,得到每个样 本均数 及标准差Sj 如图3-1和表3-1所示。
95%CL 175.72 173.44 174.31 170.90 171.04 170.83 173.11 171.90 172.52 172.00 169.40 171.56 171.53 172.94
171.21 170.33 169.03 167.63 168.66 168.84 169.31 168.46 168.60 168.47 165.68 165.68 168.03 169.37
171.00 170.10 170.47 175.98 169.97 171.91 173.37
样本号 61 62 63 64 65 66 67 68 69 70 71 72 73 74
x
j
Sj 6.30 4.34 7.38 4.58 3.33 2.78 5.31 4.81 5.48 5.05 5.19 8.22 4.89 5.00 166.70 167.23 163.75 164.36 166.27 166.85 165.51 165.02 164.88 164.86 161.97 159.80 164.53 165.79
抽样误差:样本统计量与参数之间的差异, 称抽样误差。 样本统计量是一个随机变量,在随机的原则 下从同一总体抽取不同的样本,即使每个样 本的样本含量n相同,它们的结果也会不同。
第三章 总体均数的估计与检验 PPT课件
![第三章 总体均数的估计与检验 PPT课件](https://img.taocdn.com/s3/m/5c26966cfe4733687e21aa58.png)
三、总体均数的估计
区间估计:按预先给定的概率(1),以样本统计量及其 标准误确定的包含未知总体参数的可能范围。 可信区间或置信区间(confidence bound/confidence interval, CI):该可能范围; 可信度/置信度(水平/系数)(confidence level):。预先给定 的概率1,常取95%或99%。 可信限/置信限(confidence limit, CL):可信区间的两个 数值。有可信下限和上限之分。可信区间并不包含可 信区间上下限两个值,故用圆括弧( )表示其开区间。
X
X
f(t)
ν─>∞(标准正态曲线) ν =5
ν =1
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
不同自由度下的t分布图
二、t分布
t分布由英国统计学家WS Gosset于1908年 以“Student”笔名发表,故又称Student t 分布(Student's t-distribution)。 t分布主要用于总体均数的区间估计及t检验 等。
X 1 , s1
=167.7cm =5.3cm X1,X2,X3,Xi,
X 2 , s2
n=10
100个
X 3 , s3
一、均数的抽样误差与标准误
100个样本均数:新的变量值,样本均数服从正 态分布。 100个样本均数的均数为167.70cm,标准差为 1.73cm。 标准误(standard error, SE):样本统计量(均数) 的标准差。 标准误反映样本均数间的离散程度,也反映了样 本均数与相应总体均数间的差异,可说明了均 数抽样误差的大小
总体均数
![总体均数](https://img.taocdn.com/s3/m/a5adf00cc281e53a5902ff08.png)
第三单元总体均数的估计和假设检验第一节均数的抽样误差与标准误1.均数的抽样误差例如:在北京市估计10岁男孩身高。
样本均数与总体均数之间的差异或样本均数之间的差异都是由于抽样引起的,称为均数的抽样误差。
影响均数的抽样误差大小的因素有两个:总体内各个个体间的变异程度;样本的含量n的大小。
与样本量的关系:S 一定,n↑,标准误↓。
2.标准误描写抽样误差大小的统计量称为标准误。
对计量资料,其计算公式为:例1、测量140名正常人的空腹血糖,得试计算标准误。
第二节t分布1.概念William Sealey GossetBorn: 13 June 1876 in Canterbury, EnglandDied: 16 Oct 1937 in Beaconsfield, England2.图形特征(1)以0为中心,左右对称;(2)形状与自由度有关,自由度越小,曲线的峰部越低,尾部越高;(3)随自由度增大逼近标准正态分布,当自由度为∞时,t分布就是标准正态分布。
3.曲线下面积特点与t临界值表t 值表(附表1)横坐标:自由度,υ。
纵坐标:概率p, 即曲线下阴影部分的面积;表中的数字:相应的 |t| 界值。
第三节总体均数的估计参数估计:用样本指标值(统计量)估计总体指标值(参数)。
统计推断的任务就是用样本信息推论总体特征。
参数估计,用样本均数估计总体均数。
1、点(值)估计(近似值)2、区间估计(近似范围)▲概念:根据样本均数,按一定的可信度计算出总体均数很可能在的一个数值范围,这个范围称为总体均数的可信区间(confidence interval, CI)。
区间估计:1.当n足够大时,总体均数的区间估计:总体均数的95%的置信区间:总体均数的99%的置信区间:140名正常人的空腹血糖的95%与99%的区间估计为:(88.55-1.96×1.096,88.55+1.96×1.096)即:(86.40, 90.70)(88.55-2.58×1.096,88.55+2.58×1.096)即:(85.72,91.38)2.当n较小且总体方差未知时,总体均数的区间估计例2、测得25名1岁婴儿血红蛋白均数为123.7g/L,标准差为11.9g/L。
总体均数的估计ppt课件
![总体均数的估计ppt课件](https://img.taocdn.com/s3/m/afeb212876c66137ee06193a.png)
1. 样本均数的均数μ 与个体观察值的均数μ相等 x μ =μ x
2. 样本均数间存在变异(抽样误差),其变异程度 较个体值的小
σ σ=
xn
3. 来自正态分布总体的样本均数满足正态分布
x~N μ ,σ 2 xx
12
13
样本均数的均数为m证明*
E
x
E
x n
样本号
样本含量(n=10)
1 161.1 173.7 173.7 167.3 162.2 162.2 166.6 166.6 157.4 157.4 164.82
2 166.8 159.1 159.1 166.1 173.3 173.3 169.1 169.1 165.2 165.2 166.63
3 157.4 174.0 172.3 175.8 166.6 182.1 163.1 159.4 159.4 177.3 168.74
xi
27
t分布的概率密度函数*
若随机变量t满足以下概率密度函数,则称
t满足自由度为v的t分布:
f (t)
(v -1)! 2
v ( v - 2
)!
1
t2 v
- v1 2
2
28
t分布曲线是单峰的,且关于t = 0对称,这一特 征与标准正态分布很相似
0.4
(标准正态分布)
为了与个体的标准差相互区别,样本均数的标准差又称 为样本均数的标准误,简称标准误或理论标准误
反映了样本均数间的离散程度,如果标准误很大,则不 同的样本均数间参差不齐,同时样本均数的分布范围较 大,也反映了样本均数与总体均数间的差异可能较大, 因而标准误反映均数抽样误差的大小
总体均数和总体率的估计
![总体均数和总体率的估计](https://img.taocdn.com/s3/m/083ef5e24693daef5ef73da0.png)
均数估计
10
Frequency distribution of sample means
Value of mean 0.75 1.25 1.75 2.25 2.75 3.25 3.75 4.25 4.75 5.25 5.75 6.25 6.75 7.25-7.75
均数估计
Sample size=5 1 1 4 2 12 15 12 10 17 8 6 7 4 1
均数估计
21
t 分布
从N(0,1)中1000次抽样的 t 值的分布(n=4)
.35 .3
均数为 0.05696 标准差为 1.55827
Fraction
.25
.2
.15 .1 .05 0 -8 -6 -4 -2
均数估计
0 t
2
4
6
8
22
t 分布
2.1概念:从正态总体N(μ,σ2)中进行无数次
样本含量为n的随机抽样,每次均可得到一个
均数估计
2
以上问题为统计推断内容
假设检验:方差分析、秩和检验等
参数估计: 总体均数估计、总体率估计
均数估计
3
本章主要内容
抽样误差与标准误 t 分布 总体均数的估计 二项分布和Poisson分布 总体率的估计
均数估计
4
第一节
抽样误差与标准误
均数估计
5
抽样误差与标准误
【例 6-2】假设已知某地正常成年男性红细胞数
X ~ B(n, )
均数估计
48
P( X ) C n
5.01 5.00 5.06
36
37 38 39
5.12
5.12 5.09 5.23
总体均数的点估计
![总体均数的点估计](https://img.taocdn.com/s3/m/b6813c7b227916888486d7be.png)
④样本均数的变异范围较原变量的变异范围小;
⑤随着n增加,样本均数的变异程度减小。
⑥若原始变量服从正态分布,统计量服从正态分布。
⑦若原始变量不服从正态分布,当 n 较大时,统计量也服从正
态分布;当n较小时,统计量为非正态分布。
若x服从正态分布,则 xj 服从正态分布
样本含量n=4
样本均数不等由抽样误差所致
x~ N(,2)
n=30
样本1
x1 , s1 , s x1 , t1
…样本2 x 2 , s 2 , s x2 , t 2
… …… …
样本n xn , sn , sxn , tn
来自不同的总体
x ~ N(1,12)
1 2
n=30
样本1 x1 , s1
x~N(2,22)
二、总体均数的区间估计
区间估计(interval estimation)即结合样本统 计量和标准误确定一个具有较大可信度的包含总体参
数的区间,该区间称为总体参数的1-α可信区间 (confidence interval,CI)。
可信度:估计正确的概率。1-
可信区间(confidence level, CI):
样本含量n=16
样本含量n=36
x 的平均数=168.198
x 的标准差=2.9995
6 3.0
4
x 的平均数=168.185 x 的标准差=1.4868
6 1.5 16
x 的平均数=168.135 x 的标准差=0.9997
6
1 .0
36
若x不服从正态分布
(在=1的指数分布总体随机抽取一个样本 )
样本,样本均数 x 也服从正态分布;即使从偏态总 体抽样,当 n 足够大时 x 也近似正态分布。
生物统计学 第3章第三节 总体均值和总体比例的区间估计
![生物统计学 第3章第三节 总体均值和总体比例的区间估计](https://img.taocdn.com/s3/m/f32c95b4360cba1aa811daba.png)
1 1
2 2
计算每一对样本 的X1-X2
总体2
抽取简单随机样 样本容量 n2 计算X2
1 2
抽样分布
21
两个总体均值之差的估计
1. 假定条件 (12、22 已知)
▪ 两个样本是独立的随机样本 ▪ 两个总体都服从正态分布 ▪ 若不是正态分布, 可以用正态分布来近似
(n130和n230) 2. 两个独立样本均值之差的抽样分布服从正态分
生物统计学
第三章 抽样与参数估计(2)
第三章 抽样与参数估计
第一节 抽样与抽样分布 第二节 参数估计基本方法 第三节 总体均值和总体比例的区间估计 第四节 两个总体均值及两个总体比例之差的估计 第五节 正态总体方差及两正态总体方差比的区间估计
2
第三节 总体均值和估计 三. 样本容量的确定
我们可以95%的概率保证大白鼠体 重的总体均值在46.69~53.30 之间
10
总体比例的区间估计
11
总体比例的置信区间
1. 假定条件
– 两类结果 – 总体服从二项分布 – 可以由正态分布来近似
2. 使用正态分布统计量Z Z pˆ P ~ N (0,1) pˆ (1 pˆ )
n 3. 总体比例P 的置信区间为
28
两个总体均值之差的估计
[计算结果]
解:已知
X1~N(1,12) X2 ~N(2,22)
x1=22.2, x2=28.5,
Sp
n1
1S12
n2
1S
2 2
n1 n2 2
10 116.36 10 118.92 4.2
10 10 2
S12=16.63
1- 2置信度为95%的置信区间为
第三章 总体均数的估计
![第三章 总体均数的估计](https://img.taocdn.com/s3/m/64fa3fe9dd36a32d7275810b.png)
125 2.779 2.89 27
116.98,133.02g / L
第三节 总体均数的估计
二.总体均数可信区间的计算 1.单一总体均数可信区间
(2)σ已知:按U 分布 总体均数双侧1-α可信区间为
X U 2 X , X U 2 X
总体均数单侧1-α可信区间为
X U X X U X
区间估计(interval estimation):是按预先给定的 概率(1-α)所确定的包含未知总体参数的一个范 围。该范围称为参数的可信区间或置信区间 (confidence interval,CI),(1-α)称为可信度或 置信度(confidence level),用开区间表示的可信 区间中两个数值称为可信限或置信限(confidence limit,CL)
从总体标准差相等,但总体均数不等的两个正态总 体N(μ1,σ2)和 N(μ2,σ自2由)进度行:随机抽样。则 两总体均数(μ1- μ2)之ν=差n的1+双n2侧-21-α可信区间为
X1 X2 t 2, SX1X2 , X1 X2 t 2, SX1X2
SX1 X2
Sc2
1 n1
第三节 总体均数的估计
一.可信区间的概念
统计推断:从总体中随机抽样,由样本信息推断总 体特征,这一过程称为统计推断。包括两方面的内 容:参数估计和假设检验
参数估计:是指用样本指标值(统计量)推断总体 指标值(参数)。
参数估计
点估计 区间估计
第三节 总体均数的估计
点估计(point estimation):是用相应样本统计量 直接作为其总体参数的估计值。如 X , S , 但未考虑抽样误差的大小。
第一节 均数的抽样误差与标准误
样本均数的抽样分布特点:
卫生统计学专题六:总体均数与总体率的估计
![卫生统计学专题六:总体均数与总体率的估计](https://img.taocdn.com/s3/m/377b503dad02de80d4d8409b.png)
专题六 总体均数与总体率的估计样本均数(或样本率)不能直接作为总体均数(或总体率)的估计,而应该考虑抽样误差的存在,借助抽样分布对总体均数(或总体率)做出估计。
一、均数的抽样误差由个体变异产生的,随机抽样引起的样本统计量与总体参数之间的差异称为抽样误差。
在抽样研究中,抽样误差是不可避免的。
二、样本均数的分布及标准误⒈样本均数的分布:服从正态分布,样本均数大部分分布在总体均数的左右,中间多,两边少,左右基本对称。
⒉标准误样本均数的变异程度用样本均数的标准差来描述,样本均数的标准差称为均数的标准误,简称为标准误,符号σx 。
σx 说明个样本均数围绕总体均数的离散程度,可用来反映样本均数的抽样误差的大小。
在抽样研究中,总体标准差常常未知,一般用样本标准差作为总体标准差的估计值。
理论公式:n x σσ= 实际公式:n s s x =注:⒈σx 越大,样本均数分布越分散,样本均数与总体均数的差别越大,抽样误差越大,由样本均数估计总体均数的可靠性越小。
σx 越小,样本均数分布越集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大。
⒉标准差与标准误的区别:①标准差表示个体差异的大小;标准误描述样本均数的变异程度,说明抽样误差的大小。
②标准差描述资料的频数分布状况,可用于制定医学参考值范围;而标准误用于总体均数的区间估计和假设检验。
⒊以样本含量n 从正态总体N (μ,σ)或偏态总体随机抽样,样本均数仍服从或者近似正态分布N (μ,σx )。
⒋标准误的大小与标准差σ成正比,与样本含量n 的平方根成反比。
在实际工作中,可通过适当增加样本含量来减小抽样误差。
三、t 分布根据数理统计和中心极限定理:从均数为μ,标准差为σ的正态总体中,随机抽取例数为n 的样本,样本均数x 均服从均数为μ,标准差为σ/n 的正态分布;即使从均数为μ,标准差为σ的偏态总体中随机抽样,当样本含量足够大时,样本均数的分布逐渐逼近于均数为μ,标准差为σx 的正态分布。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《卫生统计学》第五版
第五章 参数估计基础
(二)总体概率的置信区间
根据样本含量n和样本频率p的大小,可以采用
查表法和正态近似法计算总体概率的置信区间。 .查表法 2.正态近似法
《卫生统计学》第五版
第五章 参数估计基础
1.查表法
当样本含量n较小(如n≤50),特别是p很接 近0或100%时,可查附表“百分率的可信区间 表”,求得总体概率的可信区间。
区间,我们就认为该区间包含了总体参数,根据
小概率事件不太可能在一次试验中发生的原理,
该结论错误的概率小于或者等于0.05(5%)
《卫生统计学》第五版
第五章 参数估计基础
二、置信区间的计算
(一)总体均数的置信区间
(二)总体概率的置信区间
《卫生统计学》第五版
第五章 参数估计基础
(一)总体均数的置信区间
含量的95%置信区间和99%置信区间各是多少?
《卫生统计学》第五版
第五章 参数估计基础
2.正态分布近似方法
(1)σ已知,采用Z转换成标准正态分布,根据标
准正态分布原理可得变量Z的双侧1-α 可信区间为:
Z / 2 X Z Z / 2 , Z X X Z / 2 X
《卫生统计学》第五版
第五章 参数估计基础
2.正态近似法
当n足够大,且样本频率p 和(1-p)均不太
小时,如np和n(1-p)均大于5时,p 的抽样分
布接近正态分布,则总体率的可信区间:
p Z / 2Sp
《卫生统计学》第五版
第五章 参数估计基础
2.正态近似法
例5-3-6 用某种仪器检查已确诊的乳腺癌患者 120名,检出乳腺癌患者94例,检出率为 78.3%。估计该仪器乳腺癌总体检出率的95%
即 t / 2,
即X t / 2, S X X t / 2, S X 该范围是总体均数的双 侧1 - 可信区间
《卫生统计学》第五版
第五章 参数估计基础
1.t分布方法
例5-3-2 已知例5-1中某地27名健康成年男子 的血红蛋白量均数为125g/L,标准差为 15g/L。试问该地健康成年男子血红蛋白平均
《卫生统计学》第五版
第五章 参数估计基础
(二)区间估计
置信区间(confidence interval,CI)
结合样本统计量和标准误可以确定一个具有较大置信度
的包含总体参数的区间,该区间称为总体参数的1-α 置信
区间。
α 值一般取0.05或0.01,故1-α 为0.95或0.99。如果没
第五章 参数估计基础
一、参数估计的概念
参数估计:是指用样本统计量估计总体参数 参数估计有两种方法:
点估计(point
estimation)
区间估计(interval estimation)
《卫生统计学》第五版
第五章 参数估计基础
(一)点估计
点估计:就是用相应的样本统计量直接作为总
体参数的估计值。
《卫生统计学》第五版
第五章 参数估计基础
(二)区间估计
由此可见:可信区间的确切含义指的是,如果 能够进行重复抽样试验,平均有1-α (如95%) 的可信区间包含了总体参数,而不是总体参数 落在该范围的可能性为1-α 。
《卫生统计学》第五版
第五章 参数估计基础
(二)区间估计
在实际工作中,只能根据一次试验结果估计可信
《卫生统计学》第五版
第五章 参数估计基础
1.查表法
例5-3-4 某医院对39名前列腺癌患者实施开 放手术治疗,术后有合并症者2人,试估计该 手术合并症发生概率的95%置信区间。
《卫生统计学》第五版
第五章 参数估计基础
1.查表法
例5-3-5 某医生用某药物治疗31例脑血管梗 塞患者,其中25例患者治疗有效,试求该药物 治疗脑血管梗塞有效概率的95%置信区间。
常取95%或99%。
《卫生统计学》第五版
第五章 参数估计基础
(二)区间估计
置信区间的确切含义:从正态总体中随机抽取 100个样本,可以计算100个样本均数和标准差, 也可以算得100个均数的可信区间。当1α =95%时,在算得的100个可信区间中,平均 约有95个可信区间包含了总体均数,而另外5个 不包括。
X Z S X 或 X Z S X
《卫生统计学》第五版
第五章 参数估计基础
2.正态分布近似方法
例5-3-3 某市2000年随机测量了90名19岁健 康大学生的身高,其均数为172.2cm,标准差 为4.5cm,试估计该市2000年19岁健康大学 生平均身高的95%置信区间。
置信区间。
《卫生统计学》第五版
第五章 参数估计基础
小结
掌握 1.总体均数可信区间的计算 2.正态近似法计算总体概率的可信区间的方法及 适用条件 了解 1.查表法估计总体概率的可信区间方法
《卫生统计学》第五版
即 Z / 2
即 X Z / 2 X X Z / 2 X 该范围是总体均数的双 侧1 - 可信区间
《卫生统计学》第五版
第五章 参数估计基础
2.正态分布近似方法
(2)σ未知,但n足够大(如n>50)时,t分布接
近于标准正态分布,所以也可以采用z分布的原理
总体均数的双侧 1 可信区间为 X Z / 2 S X X Z / 2 S X 总体均数的单侧 1 可信区间为
有特别的说明,一般作双侧的区间估计。
《卫生统计学》第五版
第五章 参数估计基础
(二)区间估计
置信区间(confidence interval,CI)
通常用样本均数和均数的标准误估计总体均数的置信
区间;用样本频率及其标准误估计总体频率的置信区 间。
预先给定的概率1-α 称为置信度(confidence lever),
1.t分布方法 2.正态分布近似方法
《卫生统计学》第五版
第五章 参数估计基础
1.t分布方法
σ未知且n较小时,按照t分布原理可知某自由度v
的t曲线下有95%的t值在+t0.05/2,v之间,即:
t / 2, X t t / 2, , t SX X t / 2, SX
点估计的方法简单,但没有考虑抽样误差,无
法评价估计值与真值之间的差距
《卫生统计学》第五版
第五章 参数估计基础
(一)点估计
例5-3-1 为了解某地1岁婴儿的血红蛋白浓度,从 该地随机抽取了1岁婴儿25人,测得其血红蛋白浓 度的平均值为123.7g/L,标准差为11.9g/L。试
估计该地1岁婴儿的血红蛋白的平均浓度。