43均数、率的抽样误差和参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
意义:此类调查,每个样本的样本率与总体率都不相 等,相差有多有少,平均相差1.77%。
二、总体率的估计
1.查表法(当n50 ;p或1-p很小) (附表7)
例3.6 某医生用某方法矫正30名近视眼患者的视力,其中 8人近期有效,求该方法的近期有效率的95%可信区间。
依n=30,X=8查附表7 故该方法近期有效率的95%可信区间为:12%46%
** P(- t/2, ≤t≤ t/2, )=1-
练习:
1. n=20,=0.05,双测t界值=? 2. n=23,=0.05,单测t界值=? n=23,=0.02,双测t界值=?
二、 总体均数的估计
总体均数的估计有点(值)估计和区间估计。 1.点(值)估计(point estimation):即用样 本均数作为总体均数的估计值。
(106.2,121.8) cm)
P(u / 2
X
sX
u / 2 ) 1
P( X u / 2s / n X u / 2s / n ) 1
例3.3 某地调查110名18岁健康男大学生的身高, 计算其平均身高为172.73cm,标准差为4.19cm。试 估计该地18岁男大学生身高均数的95%可信区间。
X 172.73, s 4.09 n=110,=0.05,u0.05/2=1.96
P(t / 2,
X
s
t / 2, ) 1
X
X X
t / 2, s
, s
t / 2,
X
X
X t / 2, sX , X t / 2, sX
P( X
t / 2, sX
X
t
/
2,
s X
)
1
例3.2 某地20名18岁男大学生身高均数的样本资料是: 均数为172.25cm,s=3.31cm。试估计该地18岁男大学 生身高均数的95%可信区间。
(二)正态近似法(np5,且n(1-p)5)
总体率的1-可信区间为:
p u / 2s p
例4.7 某病患者120人用同一方法治疗,治愈94 人。试估计该疗法治愈率的95%可信区间。
n=120,X=94,p=X/n=78.3% np=X=94>5,n(1-p)=n-X=120-94=26>5
p(1 p) 0.783(1 0.783)
sp
n
0.0376 120
故该疗法治愈率的95%可信区间为:
p u / 2s p 0.783 1.96 0.0376
0.7ห้องสมุดไป่ตู้9 ~ 0.857
70.9% ~ 85.7%
例题
某市2001年随即抽取了7岁正常女童400名, 测量其身高,并计算得算术平均数为114cm, 标准差为4.0cm: (1)估计该市7岁正常女童身高均数的95%可 信区间。 (2)今有一名7岁女童身高为102cm,则该女 童身高发育是否正常?
该地20岁男大学生身高均数的95%可信区间为:
X u / 2sx 172.73 1.96 4.09 / 110 即 (171.97,173.49)(cm)
该地20岁男大学生身高均数的99%可信区间为:
(171.72,173.74)(cm) 可信度并非愈高愈好。应兼顾精度。
⑶ 已知
的1- 可信区间为:
t界值
附表 t分布表
单侧界值: P(t≥ t, )=
例. n=20,=0.05 求t ,=?
=n-1
t, =t0.05, 19 =1.729 P(t,19≥1.729)=0.05
0
t,
t
双侧界值t/2, : P(t≥ t/2, )=/2 P(t≤- t/2, )=/2,
t0.05/2, 19 =2.093
(172.25 2.093 3.31/ 20,172.25 2.093 3.31/ 20)
即(170.70,173.80)(cm) 故该地18岁男大学生身高均数的95%可信区间为: 170.70cm—173.80cm。
⑵ 未知,但n足够大(n100)
当n充分大时,t分布逼近u分布,此时, 的1 可信区间为:
( X u / 2sX , X u / 2sX ) X u / 2sX
中心极限定理:
若XN(,),则 X N(, / n )
u X ~ N (0,1),t X ~ t( )
/ n
s/ n
若n充分大,有t u, u X ~ N (0,1)
s/ n
P(u / 2 u u / 2 ) 1
该地20名18岁男大学生身高均数的95%可信区间为:
( X t / 2, sX , X t / 2, sX ) X 172.25cm, s 3.31cm, n 20 sX s / n
=n-1=20-1=19, 1-= 0.95, = 0.05 ,由t界值表,t0.05/2,19=2.093
1.( X t / 2, sX , X t / 2, sX ), orX t / 2, sX
2.( X u / 2sX , X u / 2sX ), X u / 2sX 3.( X u / 2 X , X u / 2 X ), X u / 2 X
第四节 总体率的估计
一、阳性率p 的标准误
P(t19≥2.093)=0.05/2 P(t19≤-2.093)=0.05/2
/2
/2
- t/2,
0
t/2, t
** P(- t/2, ≤t≤ t/2, )=1-
1.单侧: P(t≤- t, )= , P(t ≥t, )=
2.双侧: P(t≤- t/2, )= P(t≥ t/2, )= /2 P(t≤- t/2, )+P(t≥ t/2, )=,
1.该市7岁正常女童身高均数的95%可信区间为 :
( X u / 2sX , X u / 2sX ) (114 1.96 4 / 400,114 1.96 4 / 400) 即,(113.6,114.4)(cm) 2.该市7岁正常女童身高的95%正常值范围为:
( X u / 2s, X u / 2s) (114 1.96 4,114 1.96 4)
端点值。
⑴ 未知且样本例数n较小(<100)
总体均数的100(1-)% 可信区间为:
X t / 2, sX X t / 2, sX
( X t / 2, sX , X t / 2, sX ) X t / 2, sX
由t分布
** P(- t/2, < t < t/2, )=1-
** P(- t/2, <t< t/2, )=1-
例4.6 某中学用一新方法矫治近视50例,其中26名近期 有效。试求该法近期有效率的99%可信区间。
表7只列出Xn/2部分。本例n=50,X=26> n/2 应先以n-X查“阴性率”的可信区间,再用100%减之。 以n=50,X`=50-26=24查表, “阴性率”的99%可信
区间为:30% 67% 100%-30%=70%,100%-67%=33% 故该法近期有效率的99%可信区间为:33% 70%
第三节 均数抽样误差的分布- t分布和总体均数估计
lyy
统计推断有2个重要方面: 参数估计(estimating parameters) 假设检验(hypothesis testing)
一、 t分布
t分布的特征
t分布的特征
1.t分布曲线以0为中心,单峰,左右两侧对称;
2.t分布是一簇曲线。 t分布有一个参数,即自由 度=n-1。越小,t变量值的离散程度越大, 曲线越扁平;逐渐增大, t分布曲线逐渐逼近 标准正态曲线,若 ,则t分布曲线和标准正 态曲线完全吻合。
p 的标准误理论值: p 的标准误估计值:
例4.2 2003年某市随机调查50岁以上的中老年 妇女776人,其中患有骨质疏松症的322人,患 病率为41.5%,试估计该样本率的抽样误差。
p 322 / 776 0.415 41.5%
sp
p(1 p) n
0.415(1 0.415) 0.0177 1.77% 776
缺点是没有考虑抽样误差。
2.总体均数的区间估计:
总体均数的区间估计(interval estimation):是 根据抽样误差的规律,按一定概率(可信度)估 计总体均数所在的区间(范围)。
可信区间(confidence interval):(a ,b) 可信度( confidence level):1- 常用的可信度为1- =95%,99%。 可信限( confidence limit):可信区间的两个