3抽样误差参数估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正常人:n1=12, X 1 271.89,

病人
问题:两组平均相差多少?
问题:
正常组
1=?
病人组
2=?
1- 2 =?
均 数: 271.89ug/dl 标准差: 10.28ug/dl
均 数: 235.21ug/dl 标准差: 14.39ug/dl
X1 X 2 36.68
X t / 2,v sX

X u / 2 s
可信度:1-α
4.均数的可信区间构建方法
-u分布
1-
/2 /2
-u
0
u
P(u u u )=1-
样本含量较大时,均数(1-)100%的可信区间:
P(u u u )=1-
X P ( u u )=1- sX

2

( n 1) s
2

2
2值服从自由度为n-1的2分布(2-distribution)
2 分布
0.5
=1
0.4
f(2) 0.3
=2
=3
0.2
=4 =5 =6
0.1
0.0
0
2
4
6
8
10
12
2
2分布的特征



(1) 2分布为一簇单峰正偏态分布曲线 ;随 的逐渐加大,分布趋于对称。 (2) 自由度为的2分布,其均数为,方差为 2。 (3) 自由度为的2分布实际上是个标准正态 分布变量之平方和。 2=u12+ u22+……+ uv2

2分布近似描述具有某种属性的实际频数Ai与
理论频数Ti之间的抽样误差
2
( Ai Ti ) Ti
2
抽样分布(3)
F-distribution


抽样分布 参数估计
F分布

设 从 两 个 方 差 相 等 的 正 态 分 布 N(1,2) 和 N(2,2) 总体中随机抽取含量分别为 n1 和 n2 的 样本,样本均数和标准差分别为 X、 s1和 X 和 1 2 s2。 设:
F

2 s1 2 s2
则 F 值服从自由度为 (n1-1 , n2-1) 的 F 分布 (Fdistribution)。
F分布的特征




(1) F分布为一簇单峰正偏态分布曲线,与两个自由 度有关。 (2) 若F服从自由度为(1,2)的F分布,则其倒数1/F服 从自由度为(2,1)的F分布。 (3) 自由度为(1,2)的F分布,其均数为2/(2-2),与 第一自由度无关。 (4) 第一自由度1=1时,F分布实际上是t分布之平方; 第二自由度2=∞时,F分布实际上等于2分布。
X t sX
P( X t , s X X t , s X ) 1
4.均数的可信区间构建方法
-t分布

均数的(1-)100%的可信区间:
( X t / 2,v sX ,

X t / 2,v sX )
参考值范围
可信限(confidence limit):
与均数之差有关的抽样分布
“均数之差”与“均数之差的标准误”之比, 服从自由度 = n1+n2 -2的 t 分布。
t
X1 X 2 s X1 X 2
X1 X 2 s X1 X 2
~ tn1 n2 2
样本含量较大时,服从标准正态分布。
t
~ N (0,1)
合并方差与均数之差的标准误
(271.89-235.21 ) ± 2.060 × 4.95 = 26.48 ~ 46.88
结论:

病毒性肝炎患者的血清转铁蛋白含量较正常 人平均低 36.68(g/dl) ,其 95 %可信区间为 26.48~46.88(g/dl)。
6.可信区间的两个要素

可信度(1-), 可靠性

F分布的特征

(5) 每一对自由度下的F分布曲线下的面积分 布规律。
P
F
F分布的特征

F分布表明,从两个方差相等的正态分布总体 中随机抽取含量分别为n1和n2的样本,计算所 得F值,应接近v2/(v2-2)。 F(0.05;20,20)= 2.12表示,从方差相等的正态分布 总体中随机抽取 n1=n2=21 的样本,则由两样 本计算的F值大于等于2.12的可能性为0.05
参数的估计
概念:由样本指标(统计量)估计总体指标 (参数)称为参数估计 点估计
(point estimation)

区间估计
(interval estimation)
点估计

用样本统计量作为总体参数的估计值 简单易行 未考虑抽样误差
点估计

总体:某市2001年所有7岁男童的身高 样本:n=120 mean=123.62 s=4.75 点估计:本市7岁男童的平均身高为123.62, 标准差为4.75

样本统计量的抽样分布
任何一个样本统计量均有其分布规律。
从正态分布总体中抽样:

均数的抽样分布为正态分布; 样本方差的分布服从2分布; 样本方差之比服从F分布; t 值服从 t 分布; ……
参数估计
Parameter estimation
抽样分布 参数估计
统计推断的思路
总体
P (118.79 128.61) 0.95
可信区间(confidence interval):


区间(118.79, 128.61)包含了总体均数,其信 度为95%。 可信度(1-α): 95% . 结论:该地区 1 岁婴儿的平均血红蛋白浓度为 118.79~128.61(g/L)(可信度为95%)。
个体、个体变异
随机 抽样
样本
代表性、抽样误差
总体参数
未知
统计 推断
样本统计量
已知
风 险
统计推断(statistical inference)
概念:根据样本所提供的信息,以一 定的概率推断总体的性质。

总体参数的估计
(parameter estimation)

Fra Baidu bibliotek
假设检验
(hypothesis test)
1 1 1 1 163.3679 4.95 12 15 n1 n 2
自 由 度 为 =n1+n2-2=12+15-2=25 、 = 0.05 的 t 界 值 为 : t0.05,25=2.060 ,则两组均数之差的95%可信区间为:

区间估计


均数 率 事件数 方差
1.区间估计的实质

假设某个总体的均数为µ,需要找到两个量A 和B,使得在一个比较高的可信度下(如95%), 区间(A,B)能包含µ。即
P(A<µ<B)=0.95
2.可信区间的定义


按一定的概率或可信度(1-α)用一个区间估 计总体参数所在范围,这个范围称作可信 度为1-α的可信区间。 可信区间(CL, CU )是一开区间 CL、CU 称为可信限
P ( 2.064 t 2.064) 0.95
-2.064
0
2.064
区间估计
sX
P ( 2.064 t 2.064) 0.95
11.9 25
2.38
123.7 P(2.064 2.064) 0.95 2.38
P ( 2.064 2.38 123.7 2.064 2.38) 0.95 P (123.7 2.064 2.38 123.7 2.064 2.38) 0.95
例题:血红蛋白浓度


为了解某地 1 岁婴儿的血红蛋白浓度,从 该地区随机抽取 25 名 1 岁婴儿,测得其 血红蛋白 试估计该地区1岁婴儿的平均血红蛋白浓度。 均 数 = 123.7(g/L) 标准差 = 11.9(g/L) 标准误=11.9/sqrt(25)=2.38
t 值的分布

理论基础:均数的抽样分布 v=24
抽样分布、参数估计
Sampling distribution and Parameter estimation
刘丽亚
Department of Epidemiology & Biostatistics, School of Public Health Nanjing Medical University

合并方差(方差的加权平均)
2 2 ( n 1) s ( n 1) s 2 1 2 2 sC 1 n1 n2 2

均数之差的标准误
s X1 X 2
1 1 s ( ) n1 n2
2 C
根据 P(t , t t , ) 1
可得1-2的可信区间:
一般取90%,95%。 可人为控制。 是指区间的大小(或长短)
均数为 0.007559 标准差为 1.006294
Fraction
.15
.1
.05
0
-4
-3
-2
-1
0 u
1
2
3
4
X 从正态分布总体中1000次抽样的 s X
值的
分布(n=4)
.35 .3
均数为 0.05696 标准差为 1.55827
Fraction
.25
.2
.15 .1 .05 0 -8 -6 -4 -2 0 t 2 4 6 8
2分布-与正态分布的关系
0.025 0.025
-1.96

1.96
0.05
3.84

(4) 每一自由度下的2分布曲线都有其自身分 布规律。
0.5 0.4 0.3 0.05 0.2 0.1 0.0 3.84
自由度为1的2分布界值
2分布的特征


2分布是方差的抽样分布。 2分布说明,从正态分布的总体中随机抽样, 所得样本的方差s2接近于总体方差2的可能性 大,远离总体方差的可能性小。 即2值接近其均数n-1的可能性大,远离n-1的 可能性小。
P( X u sX X u sX )=1-
此时,均数的(1-)100%的可信区间:
( X u sX , X u sX )
5.均数之差的(1-)100%可信区间
例4.3

转铁蛋白含量(page39)
s 10.38 s 14.39
:n2=15, X 2 235.21,
-t

0
t
单尾:P(t≤- t,)=,或P(t≥t,)= 双尾:P(t≤- t/2,)+P(t≥t/2,)=, 即P(-t/2,<t< t/2,)=1-
抽样分布(2)
chi-distribution


抽样分布 参数估计
2 分布

设从正态分布N(,2)中随机抽取含量为n的样本,样 本均数和标准差分别为 X 和s,设:
2分布的特征



自由度= 10 时, 20.025,10 = 20.48 , 20.975,10 = 3.25。 从正态分布的总体中随机抽样,得到的样本其 2值大于等于20.48的概率为0.025,小于等于 3.25的概率亦为0.025。 P(2≤3.25)+P(2≥20.48)=0.05
或:该地区 1 岁婴儿的平均血红蛋白浓度的 95%可信区间为118.79~128.61(g/L)。

3.可信区间估计的理论基础 -均数的抽样分布
P( t t / 2, )
/2
-t/2, v
1-
/2 t/2, v
0
4.均数的可信区间构建方法
-t分布
P(t , t t , ) 1
t 分布的概念

用样本方差代替总体方差,此时
X sX
不服从正态分布。
t分布的特征


t分布是一簇曲线,当ν不同时,曲线形状不同; 单峰分布,以0为中心,左右对称; 当 ν 逼近 ∞ 时, t 分布逼近 u 分布 , 故标准正态分布 是t分布的特例; t分布曲线下面积是有规律的。
t分布曲线下面积规律
抽样分布(1)
t-distribution
抽样分布 参数估计
正态分布的标准化变化
若 X ~ N(μ,σ) , 则

X

~ N (0,1) 。

因 X ~ N ( , X ),则 u
X
X
~ N (0,1)。
从正态分布总体中1000次抽样的 u 值的分 布(n=4)
.2
[ X
1
X 2 ] t ,( n1 n2 2) s X
1X2
, [ X 1 X 2 ] t ,( n1 n2 2) s X
1X2

计算:
则合并方差为:
sc
2
11 10.382 14 14.392 163.3679 12 15 2
2
s X 1 X 2 sc
相关文档
最新文档