05第五章参数估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果对于事先给定的 (通常 是大于 0 小于 1 之间的一个较小的数,
如 0.05,0.01 等),存在两个统计量L (X1,, X n ) 和U (X1,, X n ) 使得
P(L (X1,, X n ) U (X1,, X n )) 1
则称 (L,U ) 为参数 的置信度为1 的置信区间(confidence interval),
U x
M
(x )2
i1
M
Up
M
( p )2
i1
M
大数法则
大数法则(大数定律)
1 n
lim P(
n n
i1
Xi
)1
大数法则从数量关系角度阐明了样本
和总体之间的内在联系,证明了随着抽样
容量n的增加,能够以接近1的概率期望抽
样平均数与总体平均数的偏差为任意小。
中心极限定理
图示
各种分布的图示
【解】以 表示瓶装饮料的平均容量,由已知可得,样本容量为n 25 ,
样本均值 x 499.5,样本标准差为 s 2.63 ,因为置信水平1 0.99 ,查
自 由 度 为 n 1 24 的
t







t (n 2
1)
t0.005 (24)
2.797



, ,因 x t (n 1) s 499 .5 2.797 2.63 / 25 499 .5 1.4712 498 .03 x t (n 1) s 499 .5 1.4712 500 .97
3.通过不等式变形,即可求出未知参数 的置信水平为1 的
置信区间。
单正态总体均值的区间估计(方差已知)
设样本 X1,, X n 来自正态总体 N (, 2) ,这里 2 已知,总体均值 未知,如 何求总体均值 的置信水平为1 的置信区间?
构造枢轴量 Z X ,服从标准正态分布 N (0,1) ,给定置信水平1 ,有 n
特点
抽样推断方法与其它统计调查方法相 比,具有省时、省力、快捷的特点,能以 较小的代价及时获得总体的有关信息。
1. 根据样本资料对总体的数量特征作出具有一定 可靠性的估计和推断 2. 按照随机性原则从全部总体中抽取样本单位 3. 抽样推断必然会产生抽样误差
作用
1. 某些现象不可能进行全面调查,为了解其全面资料 就必须采用抽样推断方法
第四节 一般总体均值的大样本区间估计
一、非正态总体均值的大样本区间估计
二、总体成数的大样本区间估计 三、总体成数的大样本单侧区间估计
第五节 正态总体方差的区间估计 一、单正态总体方差的区间估计 二、两正态总体方差的区间估计
第六节 样本容量的确定
一、总体均值估计的必要样本容量 二、总体成数估计的必要样本容量 三、影响必要样本容量的因素
2
2
1478 1.96 n
1296 / 27 1478 13.58 1464 .42 ,
x z 1478 1.96 1296 / 27 1478 13.58 1491 .58 ,
2n
因此该厂 60W 灯泡的平均寿命的置信水平为 95% 的置信区间为
(x z , x z ) (1464 .42, 1491 .58) 。
这类置信区间也称为双侧置信区间,L 和U 分别称为置信水平1 的 置信下限和置信上限;1 称为置信水平(confidence level)或置信系 数(confidence coefficient)。
区间估计的概念
置信区间越小,说明估计的精度越高,即我们对未 知参数的了解越多、越具体;置信水平越大,估计可 靠性就越大。
【解】问题实际上就是求总体均值(60W 灯泡的平均寿命)的置信区间,
由已知条件可得,总体方差 2 1296 ,样本容量为 n 27 ,样本均值
x 1478 。 因 为 置 信 水 平 为 1 0.95 , 所 以 查 标 准 正 态 分 布 表 可 得
z z0.025 1.96, x z
假设湖水中钠的含量为随机变量 X ,服从正态分布 N (, 2 ) ,试求湖水钠的平均含量
的 95%置信区间。
【解】由已知可得,样本容量为n 32,样本均值 x 19.0688,样本标准差为
s 3.2555,因为置信水平1 0.95,查自由度为 n 1 31的 t 分布表得分位
数 ,所以 , t2 (n 1) t0.025(31) 2.04
s
x t (n 1) 19.0688 2.04 3.2555 / 32 19.0688 1.1737 17.90
2Hale Waihona Puke Baidu
n
x t (n 1) s 19.0688 1.1737 20.24 ,因此湖水钠的平均含量 的 95%置信区间为
是1 ”;但这个具体区间到底包含还是不包含参数 ,我们无法知道;
然而根据大数定律,我们宁愿相信这个区间是包含未知参数 的那 100(1 )% 区间中的一个。
一般步骤
1 . 寻 找 样 本 X1, X n 的 一 个 函 数 u( X1, X n; ) , 通 常 称 为 枢 轴 量
(pivotal),它只含待估的未知参数 ,不含其它任何未知参数,并且
2
s n
)

【例 5.5】某饮料公司生的一种瓶装例软题饮料,其包装上标明净容量是 500ml,
在市场上随机抽取了 25 瓶,测得到其平均容量为 499.5ml,标准差为 2.63ml。 试求该公司生产的这种瓶装饮料的平均容量的置信水平为 99%的置信区间 (假定饮料的容量服从正态分布 N(, 2) )。
抽样误差主要包括样本平均数与总体平均数的差 数,样本成数与总体成数的差数。抽样误差愈小,表 示样本的代表性愈高;反之,代表性就愈低。
抽样误差的大小决定于以下几个因素: 1. 样本容量n的多少。 2. 总体被研究标志的变异程度。 3. 抽样方法的选择。
抽样平均误差
抽样平均误差就是抽样平均数或 成数的标准差。
点估计
点估计,也称定值估计,就是以样本估计量 直接代替总体参数的一种推断方法。 点估计常用方法:矩估计法、极大似然估计法。
点估计量的优良标准
1. 无偏性
E(x); E(p)
2. 一致性
lP i x m 1 ; lP i p m 1
n
n
3. 有效性
ˆ 1 ˆ
区间估计的概念
实际上,也可以证明当样本容量
n
充分大时,枢轴量
t
X S
n
近似服
从标准正态分布,这也可以解释当 n 较大时,用标准正态分布的分位数
z
2
来近似
t
分布的分位数
t 2
(n
1)
的合理性。
t分布与标准正态分布的比较
例题 【例 5.6】为研究某内陆湖的湖水的含盐量,随机地从该湖的 32 个取样点采了 32 个湖水
2
n
2
n
正态总体方差 2 未知时,总体均值 的置信水平为1 的(双侧)置信
区间为 ( X t (n 1) 2
S, n
X t (n 1)
2
S n
)

总 体 均 值 的 置 信 水 平 为 1 的 ( 双 侧 )置 信 区 间 的 观 测 值 为
(x t (n 1)
2
s, n
x t (n 1)
在样本容量一定的前提下,精度与置信度往往是相 互矛盾的。若要同时提高置信度和精度,只能增加样 本容量。
区间估计和假设检验(下章)有着对偶的关系,有 一种假设检验就可根据该检验构造相应的置信区间。
置信区间的构建往往要借助于未知参数点估计或其 函数的抽样分布来进行。
直观含义
直观含义:在大量多次抽样下,由于每次抽到的样本一般不会完全相同, 用同样的方法构造置信水平为1 的置信区间,将得到许多不同区间 (L(x1,, xn ), U (x1,, xn )) ,这些区间中大约有100(1 )%的区间包含未知参数 的真值,大约有100%的区间不包含参数 的真值。但是在实际问题中, 往往只有一个具体的样本,即样本的一次观测值,根据这个实际样本数 据做区间估计,代入置信区间公式得到一个具体的、固定的区间 (L(x1,, xn ), U (x1,, xn )) ,比如 (495, 506) ,不再是随机区间,其两个端点是 两个具体的数,这个区间要么包含参数 的真值,要么不包含 的真值, 根本不存在这个具体区间“可能包含 的真值”“可能不包含 的真值” 问题,因此不能说“某具体区间 (L(x1,, xn ), U (x1,, xn )) 包含参数 的概率
2n
2n
单正态总体均值的区间估计(方差未知时)
枢轴量t X ,服从自由度为 n-1 的 t 分布 t(n 1) ;可得
Sn
P(| t | t (n 1)) P( X t (n 1)) 1 ,即
2
Sn 2
P( X t (n 1) S X t (n 1) S ) 1 。
样本,测得它们的含钠量(单位:ppm)分别为:
13.0 18.5 16.4 14.8 19.4 17.3 23.2 24.9 20.8 19.3 18.8 23.1 15.2 19.9 19.1 18.1 25.1 16.8 20.4 17.4 25.2 23.1 15.3 19.4 16.0 21.7 15.2 21.3 21.5 16.8 15.6 17.6
P( X
n
z ) 1 ,即 2
P( X z X z ) 1 ;所以
2n
2n
总体均值
的置信水平为1
的(双侧)置信区间
(X
z
2
, X z
n
2
n) ;
得到样本观测值后,对该样本观测值,总体均值 的置信水平为1 的
(双侧)置信区间为 (x z 2
, x z
n
2
n ) ,它是一个具体的区间。
x z
2n
x
x z
2n
例题 【例 5.4】某灯具生产厂家生产一种 60W 的灯泡,假设其寿命为随机变量
X,服从正态分布 N(,1296) 。现在从该厂生产的 60W 的灯泡中随机地抽取 了 27 个产品进行测试,直到灯泡烧坏,测得它们的平均寿命为 1478 小时。 请计算该厂 60W 灯泡的平均寿命的置信水平为 95%的置信区间。
参数估计的基本步骤
1. 按照一定的抽样方式抽取适当的样本进行调查, 针对该种抽样方式选择总体参数的最优样本估计量, 计算估计值,以此作为总体参数的点估计;
2. 根据该种抽样方式的抽样平均误差公式计算出 抽样误差,我们往往要先计算样本标准差以替代未知 的总体标准差;
3. 根据所要求的置信水平,查正态分布表、t分布 表或其他分布表获得对应的概率度,然后再计算出抽 样极限误差,最后对总体参数作出区间推断。
u(X1, Xn; ) 的分布要已知但不含任何未知参数(当然也不包含待估参数 ),在很多情况下, u( X1, X n; ) 可以从 的点估计经过变换获得;
2.对给定的置信水平1 ,由u( X1, Xn; ) 的抽样分布确定分位点。 由于枢轴量 u( X1, X n; ) 的分布已知(多数情况下都是常见分布)且不 含任何未知参数,因此它的分位点可以计算出来(通过查表或利用统 计分析软件);
2. 某些理论上可以进行全面调查的现象,采用抽样推 断可以达到事半功倍的效果
3. 抽样推断可以对全面调查的结果进行评价和修正
4. 抽样推断可用于工业生产过程中的质量控制
5. 利用抽样推断的原理,可以对某些总体的假设进行 检验,来判断假设的真伪,为决策提供依据
重复抽样
重复抽样又叫有放还抽样或重置抽 样。它是每抽出一个样本单位后,把结 果记录下来,随即将该单位放回到总体 中去,使它和其余的单位在下一次抽选 中具有同等被抽中的机会。在重复抽样 过程中,总体单位数始终保持不变,并 且同一个单位有多次被抽中的可能性。
不重复抽样
不重复抽样又叫无放还抽样或不重 置抽样。它是每抽出一个样本单位后,把 结果记录下来,该单位就不再放回到总体 中去参加以后的抽选。在不重复抽样过程 中,总体单位数逐渐减少,并且每个单位 至多只有一次被抽中的可能性。
抽样误差
用样本指标来代表总体指标时就会产生一定的误 差,这种误差是抽样推断方法本身所固有的,所以叫 抽样误差,属于代表性误差。
2
n
2
n
此该公司生产的这种瓶装饮料的平均容量的置信水平为 99%的置信区
间为(498.03, 500.97)。由于该区间包含了 500,故该公司的这种瓶装饮料
的容量符合其包装上的标准,不存在容量不足欺骗消费者的行为。
正 近似 态分t 分布布极的为分接位近数(见t下(nt图分1)),布。所与以也正可态以分用标布准正态分布的分位数 z2 来 2
相关文档
最新文档