应用统计-第05章-参数估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(单位:周岁)
36 31 47 44 48 45 44 33 24 40 50 32
试确立投保人年龄90%的置信区间。
应 用 统 计 第 五 章
16
解:已知,n=36,1-α =90%,zα/2=1.645。由 于总体方差未知,但为大样本,可用样本方 差来求总体方差。 根据样本数据计算的样本均值和标准差如下:
第五章 参数估计
主要内容
应 用 统 计 第 五 章
2
5.1 参数估计的一般问题 5.2 一个总体参数的区间估计 本章小结
应 用 统 计 第 五 章
3
参数估计是推断统计的重要内容之一,就是 在抽样及抽样分布的基础上,根据样本统计 量来推断我们所关心的总体参数。 讨论参数估计的基本方法 一个总体参数的估计,如总体均值的估计、 总体比率的估计、总体方差的估计。 讨论参数估计中样本容量的确定问题。
χ 1-α / 2
χα / 2
2
χ2
第 五 章
27
5.2.3 总体方差的区间估计 总体方差σ2在(1-α)置信水平下的置信区间为:
(n − 1) s 2
2 χα / 2
≤σ 2 ≤
(n − 1) s 2
χ12−α / 2
例5.5
应 用 统 计 第 五 章
28
根据例5.1的数据,以95%的置信水平建立该种食品 重量方差的置信区间。 解:根据样本数据计算的样本标准差为:
p±z
α /2
p(1 − p) 65% × (1 − 65%) = 65% ± 1.96 × = 65% ± 9.35% n 100
即(55.56%,74.35%),该城市下岗职工中女性比率 95%的置信区间为(55.56%,74.35%)。
表5.7 比率近似正态分布要求的 样本容量
应 用 统 计 第 五 章
σ已知
σ未知
大样本(n≥30) 正态分布 小样本(n<30)
x ± zα / 2
σ
n
x ± zα / 2
s n
x ± tα/2
σ
n
x ± tα / 2
s n
s n
非正态分布
大样本(n≥30)
x ± zα / 2
σ
n
x ± zα / 2
课堂练习
应 用 统 计 第 五 章
23
从班上随机调查10名同学的月支出。 要求以95%的把握程度,估计全班同学的平 均月支出的区间范围及其允许误差。
x−μ z= ~ N (0,1) σ/ n
应 用 统 计 第 五 章
12
总体均值μ所在(1-α)置信水平下的置信区间为:
x ± zα / 2
σ
n
如果总体服从正态分布但σ2未知,或总体并不 服从正态分布,只要是在大样本条件下,公 式中的总体方差σ2可以用样本方差s2代替,这 时总体均值μ在(1-α)置信水平下的置信区间可 以写为: s x ± zα / 2 n
应 用 统 计 第 五 章
21
解:根据抽样结果计算得:
x=
∑x
i =1
n
i
n
23840 = = 1490(小时) s = 16
( ∑ x - x)Hale Waihona Puke 2 i =1 in
n -1
=
9200 = 24.77(小时) 16 - 1
根据α=0.05查t分布得tα/2(n-1)=t0.025(15)=2.131, 由公式得平均使用寿命的置信区间为:
10
5.1.3 评价估计量的标准 无偏性(unbiasedness) 无偏性是指估计量抽样分布的数学期望等 于被估计的总体参数。 有效性(effciency) 一个无偏的估计量并不意味着它非常接近 被估计的参数,它还必须与总体参数的离 散程度比较小。对同一总体参数的两个无 偏点估计量,标准差越小的估计量越有效。 相合性(consistency) 相合性是指随着样本容量的增大,点估计 量的值越来越接近被估总体的参数。
应 用 统 计 第 五 章
17
某地区抽查64个18周岁的男青年的高度,平 均身高为168cm,标准差为8cm。求该地区18 周岁青年的平均身高95%的置信区间。 答案 166.04cm~169.96cm
应 用 统 计 第 五 章
18
2. 小样本的估计方法 如果总体服从正态分布,则无论样本容量如 何,样本均值的抽样分布都服从正态分布。 这时,只要总体方差σ2已知,即使在小样本 的情况下,也可以按公式建立总体均值的置 信区间。但是,如果总体方差σ2未知,而且 是在小样本的情况下,则需要用样本方差s2代 替σ2 ,这时样本均值经过标准化后的随机变 量则服从自由度为(n-1)的t分布,即 x-μ
图5.2 置信区间示意图
置信区间
应 用 统 计 第 五 章
9
置信水平=1–α
置信下限
点估计值
置信上限
表5.3 常用置信水平的zα/2值
置信水平 90% 95% 99%
α
0.10 0.05 0.01
α/2
0.05 0.025 0.005
zα/2 1.645 1.96 2.58
应 用 统 计 第 五 章
s =
2 2 (xi - x ) ∑ i =1 n
根据显著水平α=0.05和自由度(n-1)=25-1=24,查χ2分布 表的χ2 α/2(n-1)= χ2 0.025(25-1)=39.364, χ2 1-α/2(n-1)= χ2 2 0.975(25-1)=12.401。总体方差σ 的置信区间为:
应 用 统 计 第 五 章
24
5.2.2 总体比率的区间估计 当样本容量足够大时,样本比率p的抽样分布 可用正态分布近似。p的数学期望等于总体的 比率,即E(p)=π;p的方差为σ2p=π(1-π)/n。而 样本比率经标准化后的随机变量则服从标准 正态分布,即 p -π z= ~ N (0,1) π (1 − π ) / n 在样本比率p的基础上允许误差zα/2σp,即得 总体比率p在(1-α)置信水平下的置信区间:
5
θˆ =θ caret
用来估计总体参数的统计量的名称,称为估 计量(estimator) 。 样本均值、样本比率、样本方差等都可以 是一个估计量。 用来估计总体参数时计算出来的估计量的具 体数值,称为估计值。
应 用 统 计 第 五 章
6
5.1.2 点估计与区间估计 点估计(point estimation)就是用样本估计量的 值直接作为总体参数的估计值。
5.1 参数估计的一般问题
应 用 统 计 第 五 章
4
5.1.1 估计量与估计值 所谓参数估计(parameter estimation)也就是用 样本统计量去估计总体的参数。
样本均值 x 总体均值μ 总体方差σ2
样本方差 s2
估计
样本比率p 总体比率π 总体参数θ 样本统计量
应 用 统 计 第 五 章
26
P 0.5 0.4~0.6 0.3~0.7 0.2~0.8 0.1~0.9 近似正态分布要求的样本容量 30 50 80 200 600
Professor W.G. Cochran (1909-1980)
图5.7 自由度为(n-1)的χ
应 用 统 计
o
2
2分布
总体方差在 (1–α )的置信区间
t=
这时则需要采用t分布来建立总体均值μ的置 信区间。
s/ n
~ t (n − 1)
图5.6 不同自由度的t分布与标准 正态分布的比较
应 用 统 计 第 五 章
f (x)
标准正态分布 自由度为20的t分布 自由度为10的t分布
o
19
x
例5.3
应 用 统 计 第 五 章
20
已知某种灯泡的寿命服从正态分布,现从一 批灯泡中随机抽取16只,测得其使用寿命 (小时)如下: 1510 1450 1480 1460 1520 1480 1490 1460 1480 1510 1530 1470 1500 1520 1510 1470 试确定该批灯泡平均使用寿命95%的置信区间。
5.2 一个总体参数的区间估计
应 用 统 计 第 五 章
11
5.2.1 总体均值的区间估计 大样本的估计方法 当总体服从正态分布且σ2已知时,或者总体 不是正态分布但为大样本时,样本均值x-bar 的抽样分布均为正态分布,其数学期望为总 体均值μ,方差为σ2/n。而样本均值经过标准 化以后的随机变量则服从标准正态分布,即
n -1
2237.02 = = 93.21 25 - 1
(25 − 1) × 93.21 (25 − 1) × 93.21 2 ≤σ ≤ 39.364 12.401
即56.83≤σ2≤ 180.39。相应地,总体标准差的置信区间 为:(7.54,13.43)。该企业生产的食品总体重量标准差 为95%的置信区间为(7.45,13.43)。
x ± tα / 2 s 24.77 = 1490 ± 2.131× = 1490 ± 13.2 n 16
即(1476.8,1503.2),该种灯泡平均使用寿命95% 的置信区间为(1476.8,1503.2)小时。
表5.6 不同情况总体均值的区间估计
应 用 统 计 第 五 章
22
总体分布 样本容量
样本统计量 θˆ 直接作为 总体参数θ
区间估计(interval estimation)通常是由样本统 计量加减抽样误差而得到的。 根据样本统计量的抽样分布,我们能够对 样本统计量与总体参数的接近程度给出一 个概率度量。
图5.1 区间估计示意图
应 用 统 计 第 五 章
7
f (x )
x 的抽样分布
例5.1
应 用 统 计 第 五 章
13
一家食品生产企业以生产袋装食品为主,每天的产量 为8000袋左右。按规定每袋的重量应为100g。为对产 品质量进行监测,企业质检部门经常要进行抽检,以 分析每袋重量是否符合要求。现从某天生产的一批食 品中随机抽取了25袋,测得每袋重量如表5.4所示。 表5.4 25袋食品的重量(单位:g)
x=
∑ xi
i =1
n
n
x ± zα / 2
n -1 s 7.77 = 39.5 ± 1.645 × = 39.5 ± 2.13 n 36
= 39.5
s=
2 (xi - x ) ∑ i =1
n
= 7.77
即(37.37,41.63),投保人平均年龄90%的置信 区间为(37.37,41.63)。
课堂练习
112.5 102.6 重量 100.0 116.6 136.8 101.0 107.5 123.5 95.4 102.8 103.0 95.0 102.0 97.8 101.5 102.0 108.8 101.6 108.6 98.4 100.5 115.6 102.2 105.0 93.3
已知产品重量的分布服从正态分布,且总体标准差为 10g。试估计该批产品平均重量的置信区间,置信水 平为95%。
应 用 统 计 第 五 章
14
解:已知σ=10,n=25,置信水平为1-α =95%,查标准正态分布表得zα/2=1.96 根据样本数据计算的样本均值为:
x=
∑x
i =1
n
i
n
2634 = = 105.36 25
x ± zα / 2
σ
10 = 105.36 ± 1.96 × = 105.36 ± 3.92 n 25
即(101.44,109.28),该批食品平均重量95%的 置信区间为(101.44,109.28)。
例5.2
应 用 统 计 第 五 章
15
一家保险公司收集到由36个投保个人组成的随机样 本,得到每个投保人的年龄(周岁)数据如表5.5所 示。 表5.5 36个投保人年龄的数据
23 36 重量 42 34 39 34 35 42 53 28 49 39 39 46 45 39 38 45 27 43 54 36 34 48
o μ – 2.58σx μ – 1.96σx μ – 1.65σx μ
μ + 1.65σx μ + 1.96σx μ + 2.58σx
x
90%的样本 95%的样本 99%的样本
应 用 统 计 第 五 章
8
由样本统计量所构造的总体参数的区间估 计,称为置信区间(confidence interval),其中 区间的最小值称为置信下限,最大值称为置 信上限。 将构造置信区间的步骤重复多次,置信区间 中包含总体参数真值的次数所占的比率称为 置信水平(confidence level) ,或称为置信系数 (confidence coefficient)。
p ± zα / 2 p (1 − p) n
例5.4
应 用 统 计 第 五 章
25
某城市想要估计下岗职工中女性所占的比率, 随机抽取了100个下岗职工,其中65人为女性 职工。试以95%的置信水平估计该城市下岗职 工中女性比率的置信区间。 解:已知n=100,zα/2=1.96,根据抽样结果计算的 样本比率为p=65/100=65%。 根据公式得: