抽样误差与区间估计(精)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章抽样误差与区间估计

(中大.公卫学院.医学统计与流行病学系.骆福添.020-********)

第一节均数的抽样误差

·统计推断:用样本的信息去推断总体特征的方法称为统计推断(statistical inference)。

·抽样误差(sampling error):样本指标与总体指标(参数)的差别要点:由个体变异引起的、不可避免的、有规律性的

·抽样实验:表4-1,图4-1

表4-1 从总体N(4.83, 0.522)中抽出100个样本(n=10)的

X、S、t值与 的95%的可信区间tCI

tCI

·抽样实验结果提示:

(1)样本均数X 以μ为中心呈正态分布

(2)离样本均数X 的散程度为

·

标准误(standard error):度量抽样误差大小的指标(统计量),

其实质是样本指标的变异程度,(联系抽样实验:样本均数的标准差称为样本均数的标准误)

可推导出计算公式为:

此公式几乎不实用,不妨称之为理论标准误

用样本S 代替σ,得样本标准误为: ·标准误意义:

(1)标准误小表示样本均数可靠性越大

(2)样本均数结合标准误,对总体作统计推断(后述)

例4-1随机抽取某地200名成年男性的红细胞数均数为4.95×

1012/L ,标准差为0.57×1012/L ,估计其抽样误差。

040.020057

.0===n S S X (1012/L)

所以该样本的抽样误差为0.04×1012/L 。

样本均数 图4-1 100个样本均数的直方图

第二节 均数的抽样误差的分布-t 分布

·标准化变换:()X X σμ

-

·标准化值的分布:

(1)已知总体标准差σ时,()X X u σ

μ

-=,服从标准正态分布 (2)未知总体标准差σ时,)X S X t μ-=,服从t 分布

(3)大样本时,()X S X u μ-≈,近似服从标准正态分布

·t 分布:

ν为自由度(degree of freedom),每个自由度都对应一条分布曲线

·t 分布的特征:

①以0为中心,左右对称的单峰分布;(外观:…)

②t 分布曲线是一簇曲线,其形态变化与自由度ν的大小有关。自由度ν越小,则t 值越分散,曲线越低平;自由度ν逐渐增大时,t 分布逐渐逼近u 分布(标准正态分布);(参数:+ν)

③当ν趋于∞时,t 分布即为u 分布。(面积:尾巴较大、界值较大) ·t 分布界值表(Page406)

双侧t 0.10(30) = 单侧t 0.05(30) = 1.679

第三节 总体均数的可信区间估计 ·点估计:估计总体参数在某一点上,如μ

ˆ=X ·区间估计·可信度/置信度/把握度:区间估计时,估计正确的概率

约定α=错误概率,则可信度为(1-α) t4_1

常用可信度为95%,99%;往后仅以95%可信度为例

一、σ未知且n 较小:按t 分布的原理用式(4-4)估计可信区间 图4-2不同自由度下t 分布

例4-2由随机抽查某地30名20岁男大学生身高均数资料得,

X =172.01cm ,S =4.20cm ,试估计该地20岁男大学生身高总体均数的95%可信区间。

本例n =30,则ν=29,查附表2,t 界值表,双侧t 0.05(29)=2.045,按式(4-4)计算:

)60.173,42.170()2920.4045.201.1722920.4045.201.172(=⨯+⨯-,

所以该地20岁男大学生身高均数的95%可信区间

为170.42cm~173.60cm 。

二、σ未知但n 足够大: 这时t 分布近似服从标准正态分布

例4-3根据例4-1资料,估计该地正常成年男子红细胞数的总体均数的95%可信区间。

本例n =200, X =4.95,X S =0.57, 双侧2/05.0u =1.96,

本资料的n 较大,所以可按式(4-5)计算:

)03.5,87.4()20057.096.195.420057.096.195.4(=⨯+⨯-,

该地正常成年男性红细胞数的总体均数的95%可信区间为4.87 ×

1012/L ~5.03×1012/L 。

三、σ已知(不论样本大小):按正态分布原理

·正确与精确问题:

区间越大,可信度越大——正确率越高,精确度越小

区间越小,可信度越小——正确率越低,精确度越大

第四节 方差的抽样误差与可信区间估计(略)

n X X X ,,,21 是正态总体),(2σμN 的一个样本,样本方差为2S ,则

2

2

)1(σS n -~2)1(-n χ 并且分布2)1(-n χ与2σ无关,故有

P(<--2)1(2/1n αχ2

2)1(σS n -<2)1(2/-n αχ)=1-α 由此得,当总体),(

2σμN 的参数2,σμ都为未知时,方差2σ的

100(1-α)%可信区间为

例4-4随机抽查了某地区80名血吸虫病人,测得血红蛋白均数为95g/L ,标准差为15g/L ,试估计总体方差。

本例n=80,2S =225,若求总体方差95%可信区间,05.0=α,

查2χ界值表得63.1062)180(025.0=-χ,15.57

2)180(975.0=-χ,按式(4-7)得 )03.311,70.166(15.57225)180(,63.106225)180(=⎪⎭

⎫ ⎝⎛⨯-⨯- 故该地区血吸虫感染者的血红蛋白的总体方差的点估计值为

225g/L ,95%区间估计值为166.70~311.02g/L 。

第五节 率的抽样误差与可信区间估计

·大样本才计算率

·率的可信区间用正态近似法

一、率的抽样误差

率的抽样误差可用率的标准误来表示

·理论公式:

式中p σ为率的标准误,π为总体率,n 为样本例数。总体率π在 ·应用公式:

例4-5如抽样调查某地40~60岁的成年男性高血压患病得P =0.1410,n =780,估计抽样误差。

根据式(4-9),求得 标准误为 0125.0780

)1410.01(1410.0=-=p S ·率的标准误意义:类似均数标准误的意义

二、总体率的可信区间估计

1.查表法:n ≤50,且P 接近0或1的资料

例4-6某新药的毒理研究中,用20只小白鼠作急性毒性实验,死亡3只,估计该药急性致死率的95%可信区间。

解:从附表7查得,在n =20与X =3纵列交叉处的数值为3~38,即该药急性致死率的95%的可信区间为3%~38%。

注意附表7中的X 值只列出了2n X ≤部分,当2

n X >,应以X n -值查表,求总体阴性率的可信区间,然后用1减去阴性率可信区间,即得阳性率的可信区间。如要估计例4-6资料的生存率的95%可信区间,就不能从附表7中直接查得,应先按例4-6求出急性致死率的95%可信区间,然后计算(1-38%,1-3%)=(62%,97%),即该药急性毒性实验的生存率95%可信区间为62%~97%。

2.正态近似法

当n 足够大,且nP 和n (1-P )均大于5时

相关文档
最新文档