总体均数的估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

x 或 样本均数的标准差为 n
s sx n
8
均数的抽样误差
中心极限定理(2)
从非正态分布总体(均数为μ,标准差为σ) 中随机抽样(每个样本的含量为n),可得 无限多个样本,每个样本计算样本均数, 则只要样本含量足够大(n>50),样本均数近 似正态分布。

样本均数的均数为 μ; 样本均数的标准差为 x
sX
=
s / n = 15/ 27
= 12.24 89g /L
11
正态分布的标准化变换
X X ~ N (, ) u ~ N (0,1)
2 u变换
X X ~ N (, ) u ~ N (0,1) X
2 X u变换
12
t分布的概念
实际工作中,总体方差一般未知,用样 本方差代替,此时:
15g/L 。
X 125g / L
即认为2000年该地所有健康成年男性血红蛋白量的
总体均数 为125 g /L 。
21
点估计的缺陷
μ=?cm σ=?cm
x1,x2,x3,x4……
N
x =143.3747
S = 5.2347
x1,x2,x3…x10
x =144.0681
S = 4.7245 x1,x2,x3…x10
X t0.05/ 2,v S X , X t0.05/ 2,v S X 95%双侧可信区间:
X t0.01/ 2,v S X , X t0.01/ 2,v S X 99%双侧可信区间:
27
例5-3 已知某地27名健康成年男子的血红蛋白量均 数=125 g /L,标准差S = 15 g /L。试问该市地健康 成年男子血红蛋白平均含量的95%可信区间和 99%可信区间各是多少?
意义 计算
偏态分布: Px~ P100 x (双侧) 应用 供判断观察对象某项指标正常与 否时参考(辅助诊断)
估计未知的总体均数所在范围
34
318.309 22.327 10.215 7.173 5.893 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733
636.619 31.599 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 17
μ=119.41cm
σ= 4.38cm
X 120.18cm s =4.90cm
X 120.81cm s =4.33cm
4
抽样误差的概念
由于个体变异的存在,在抽样过程中产生的样本统
计量与总体参数间的差异。
两种表现形式:

样本统计量与总体参数间的差异 样本统计量间的差异
5
抽样误差产生的基本条件
3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341
6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753
X sX X s n ?
13
t分布
设从正态分布N(,2)中随机抽取含量为n的样本,样本
均数和标准差分别为 x 和s,设:
t变换
X X t ~ t分布, = n 1 sX s n
则t值服从自由度为n-1的t分布(t-distribution)。
14
f(t)
63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947
127.321 14.089 7.453 5.598 4.773 4.317 4.029 3.833 3.690 3.581 3.497 3.428 3.372 3.326 3.286
1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691
1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866
25
2
正确理解可信区间
可信区间通常由两个可信限(confidence limit)构 成,其中较小者称为下限,记为CL,较大者称 为上限,记为CU。严格地讲,可信区间并不包 括上可信限和下可信限两个值,即可信区间(CL, CU)是一开区间。
26
1、σ未知且样本例数较小(n<50)时,按t分布
通式:X t / 2,v S X (双侧)
估计置信区间 估计参考值范围
33
总体均数可信区间与参考值范围的区别
参考值范围 绝大多数人某项指标的数值范围 正态分布: X Z/2S (双侧) 总体均数置信区间 按一定的概率估计总体参数所在的可能范围 小样本: X t/2, S X 大样本: X Z/2 S X (双侧) (双侧)
X Z / 2 S X X 1.96 S X 4 .5 172.2 1.96 90 (171.3 , 173.1)
30
总体均数的可信区间
估计方法: t分布方法:σ未知且样本例数n较小
正态分布近似方法: 样本例数n足够大(n>50)
或σ已知
31
Homework
某地随机抽查了360名健康男性的血红蛋白量, 均数为130.2g/L,标准差为9.0g/L。试求:1) 该地健康成年男性血红蛋白量的95%参考值范 围和99%参考值范围?2)该地健康成年男性 血红蛋白量总体均数的95%可信区间和99%可 信区间? 简述标准差和标准误的区别和联系
个体变异 抽样研究
6
抽样误差的特点

抽样误差是不可避免的! 抽样误差是有规律的!

7
均数的抽样误差
中心极限定理(1)
从正态分布总体 N(μ,σ) 中随机抽样 ( 每个样 本的含量为n),可得无限多个样本,每个样 本计算样本均数,则样本均数也服从正态 样本均数 分布。

样本均数的均数为 μ;
的标准误ห้องสมุดไป่ตู้
23
正确理解可信区间
结合样本统计量和标准误确定的
考虑了抽样误差
24
正确理解可信区间
可信度为95%的CI的涵义:
平均来说每100个样本所算得的 100个可信区间有95个包含总体 参数,有5个未包含总体参数。 做一次抽样,“该可信区间包含 总体参数”这句话未必正确,可 信的程度为95%。
-2
-1
0
1


n
s sx n
均数标准误(standard error)
样本统计量的标准差称为标准误。
样本均数的标准差称为均数的标准误,反映样本 均数的变异程度,反映样本均数抽样误差大小。
10
2000年某研究者随机调查某地健康成年 男子27人,得到血红蛋白量的均数为 125 g /L,标准差为15 g /L。试估计该 样本均数的抽样误差。
18
总体均数的估计

点估计(Point Estimation) 区间估计 (Interval Estimation)

19
点估计
样本统计量 总体参数
用样本均数 X 作为总体均数 的点估计值
20
点估计
例5-1 2000年某研究所随机调查某地健康成年男
子27人,得到血红蛋白的均数为125g/L,标准差为
=∞(标准正态曲线) =5
0.3
=1
0.2
0.1
-4
-3
-2
-1
0
1
2
3
4
图3.2 自由度分别为1、5、∞时的t分布
15
t分布的特征
单峰分布,曲线以 0 为中心,左右对称类似于标准正
态分布。
t分布的形状与自由度有关

自由度越小,则s X 越大,曲线越“扁平” ; 自由度越大,则s X 越小,曲线越“瘦高” ; 当自由度为无穷大时, t 分布曲线与标准正态分布 曲线完全吻合,故标准正态分布是t分布的特例。
t界值释义
双侧t0.05/2, 9=2.262 表明:从正态分布总体中抽取样本
含量n=10的样本,则由该样本计算的t值大于等于2.262
的概率为0.025,小于等于-2.262的概率亦为0.025。
P(t≤-2.262)+P(t≥2.262)=0.05 或:P(-2.262<t<2.262)=1-0.05=0.95。
12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131
31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602
Health statistics
医学统计学
---总体均数的估计
叶小华
1
统计推断
由样本信息对相应总体的特征进行推断 统计推断包括:参数估计 假设检验
2
计量资料的参数估计基础
样本均数的抽样误差 t分布 总体均数的估计
3
估计全国七岁男童的平均身高
总体参数 样本统计量
X 118.21cm s =4.45cm
样本含量n =10
x =142.7203
S= 9.2473 x1,x2,x3…x10
22
参数估计之二:区间估计
区间估计:结合样本统计量和标准误可以 确定一个具有较大可信度( 1 )的包 含总体参数的区间,该区间称为总体参 数 的 1 可 信 区 间 ( confidence interval , CI)。习惯上取95%的可信度。
计算自由度:v =27-1=26 查t 界值表 : = 0.05时,双侧 t0.05/2, 26=2.056, = 0.01时,双侧 t0.01/2, 26= 2.779; 按公式计算:
15 X t0.05 / 2,v S X = 125 2.056 119.06,130.94g / l 27 15 X t0.01/ 2,v S X = 125 2.779 116.98,133.02g / l 27
16
Page195
自由度

单侧 双侧
0.25 0.50
0.20 0.40
0.10 0.20
附表2 t 界值表 概 率,P 0.05 0.025 0.01 0.10 0.05 0.02
-t
0
t
0.005 0.01
0.0025 0.005
0.001 0.002
0.0005 0.001
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
28
2、样本例数n足够大(n>50)或σ已知时, 按标准正态分布
通式:X u / 2 S X (双侧)
X 2.58S X , X 2.58S X 99%双侧可信区间:
X 1.96S X , X 1.96S X 95%双侧可信区间:
29
例5-4 某市2000年随机测量了90名19岁健康男大 学生的身高,其均数为172.2 cm,标准差为4.5 cm,试估计该市2000年19岁健康男大学生平均 身高的95%可信区间。
简述参考值范围与均数的可信区间的区别和联 系
32
标准差与标准误的区别
标准误 意义 公式 反映样本统计量的离散程度及抽 样误差大小 标准差 反映观察值的变异程度
SX
与 n 的关系 用途
S n
S
X X
n 1
2
n , S X 0,无抽样误差 n , S , 越稳定
相关文档
最新文档