第6章 参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对 括 号 里 的 不 等 式 进 行 整 理 , 便 得 到 总 体 均 值 在 置 信 水 平 为
x z
这里假设抽样比
2
n
n N 0.05 。对于有限总体不重复抽样,抽样比
n N 0.05 时,由于
x
n
N n , 因 此 , 在 置 信 水 平 为 N 1 x z
标准正态分布 自由度为30的t分布 自由度为5的t分布 自由度为1的t分布
图 6.4 自由度不同的 t 分布和标准正态分布的比较
10 - 19
【例6.3】对于例6.1中,若不知道总体标准 差,其它数据一样,试给出这批货物平均 重量的置信水平为95%的置信区间。
10 - 20
解:由例 6.1 知:
10 - 9
6.2 总体均值的估计
6.2.1 一个总体均值的估计
前面已经介绍了总体均值的点估计就是样本均值,因此
这里只对总体均值的区间估计进行分析,后面两节的总体比
例和总体方差的估计也是如此。对于总体均值的区间估计, 我们主要分两种情况来分别进行讨论,即总体方差已知和总 体方差未知。
10 - 10
第6章 参数估计
• 6.1 参数与参数估计的概念 • 6.2 总体均值的估计 • 6.3 总体比例的估计 • 6.4 总体方差的估计 • 6.5 样本容量的确定 • 6.6 SPSS在统计推断中的应用—参数估计
10 - 1
学习目的与要求
掌握参数估计、估计量和估计值等基本概念 了解参数估计量的特性——无偏性、有效性和一致性 做到在不同的置信水平下,在不同的情形下,都能够
1 时,总体均值的置信区间为:
N n N 1
(6 . 2 )
2
n
10 - 11
总体方差已知(续)
图6.3 总体均值的置信区间
10 - 12
【例 6.1】某公司为了对运来的一批原料货物的平均重量进行估计,从一批 2000 包原 料货物中随机抽取 20 包,测得的数据为(单位:千克) : 38 48 35 39 61 52 52 54 47 60 59 47 43 76 65 51 50 60 52 57 假设这批货物的重量服从正态分布,标准差为 10 千克,试给出这批货物的平均重量的置信 区间,置信水平取 95%。
以反映总体参数区间估计的精确性。其中 1 为置信水平,表示区间估计的可靠程度。 尽管可以取任何置信水平值来构造置信区间,但常用的是 0.9、0.95 和 0.99,习惯上常称 为置信水平分别是 90%、95%和 99%。例如,若1 0.95 ,则说明估计区间有 95%的可能 包括总体参数。
x z 2
N n 10 100 20 52.3 1.96 52.3 3.94 n N 1 20 100 1
即 48.36,56.24 ,表明这批货物的平均重量的置信区间为 48.36 ~ 56.24 千克。这也说明 了在同样的置信水平下,抽样比越大,给出的置信区间宽度越窄。
即这批货物平均重量的置信水平为 95%的置信区间为 47.71 ~ 56.89 千克。
10 - 21
6.2.2 两个总体均值差的估计
设两个总体的均值分别为 1 和 2 ,从两个总体中分别抽取出两个随机样本,样本容量 分别为 n1 和 n2 ,其样本均值分别是 x1 和 x 2 。和一个总体均值点估计为样本均值类似,两 个总体均值之差的点估计是 x1 x2 。下面我们分析两个总体均值之差的区间估计,分别 考虑方差已知和方差未知,及独立样本和配对样本等情形。
2
y n 服从自由度为 n
2
的 t 分布。现在假设总体服从正态分布,在小样本情形下,当总体方差 未知时,利用样 本方差 s 来代替总体方差 ,此时我们有:
2 2
x n x ~ t n 1 n 1 s 2 2 n 1 s n
10 - 5
(一)无偏性
无偏性是指估计量的期望值(平均数)等于被估计的总体参数。例如,假设总体参数
ˆ ,则称 ˆ ,若 E ˆ 为参数 的无偏估计。 为 ,估计量为
ˆ 的期望值 图 6.1 说明了点估计的无偏和有偏的情形。在无偏估计量的图中,估计量 ˆ 的期望值不等于总体参数 。 等于总体参数 。而在有偏估计的情形下,估计量
10 - 13
解:已知 10 , n 20 ,置信水平为 95%时临界值 z 2 1.96 由样本数据计算的样本均值为 x 52.3 代入公式得:
x z 2
n 52.3 1.96 10 20 52.3 4.38
即 47.92,56.68 ,表明这批货物的平均重量的置信区间为 47.92 ~ 56.68 千克。
准正态分布厚。 t 分布的形状依赖于自由度参数,随着自由度的增大, t 分布逐渐趋于标准 正态分布,参见图 6.4。 因此,在正态总体小样本方差未知的情形下,总体均值 的置信水平为 1 的置信 区间为:
x t 2 n 1 s n
10 - 18
(6.3)
总体方差未知(续)
10 - 22
(一)总体方差σ 和σ 已知
1. 独立样本
所谓独立样本,是指两个样本是从两个总体中独立地抽取,两个样本中的元素互相独 立。若两个总体都服从正态分布,或两个总体不服从正态分布但两个样本都是大样本(样 本容量不小于 30) ,由抽样分布理论知,两个样本均值之差服从正态分布,为;
2 1
2 2
^ 的பைடு நூலகம்样分布
^ 的抽样分布
图 6.1 估计量的无偏和有偏情形(左图是无偏)
10 - 6
无偏性(续)
由于样本平均数的期望值等于总体平均数,样本比例的期望值等于总体比例,样本方 差的期望等于总体方差。即:
Ex , E p , E s 2 2
这表明,样本平均数、样本比例和样本方差分别为总体平均数、总体比例和总体方差 的无偏估计量。
ˆ 1 lim P
n
上式中, 为一任意小的正数。这个公式表明当 n 趋于无穷大时,估计量 ˆ 依概率收敛 于参数 。 一般地, 如果当样本容量更大时, 点估计的值更接近于总体参数, 那么该点估计是一致的。 换言之,大样本比小样本趋于推导出一个更好的点估计。对于样本均值,它是总体均值的 无偏估计,其标准差为 x ,与样本单位数 n 的平方根成反比,表明样本单位数越多则这个 标准差就越小,这样大样本容量给出的点估计更接近于总体均值。也就是说样本均值作为 总体均值的估计是符合一致性原则的。同样样本比例是总体比例的一致估计,样本方差也 是总体方差的一致估计。
x1 x2 ~ N 1 2 , 12
标准化后有:
2 n1 2 n2
z
x1 x 2 1 2
2 1
n1
2 2
n2
~ N 0,1
在置信水平为 1 时,两个总体均值之差 1 2 的置信区间为:
x1 x2 z 2 12
10 - 14
【例6.2】若例6.1中这批货物总量为100包, 其它数据一样,试给出这批货物平均重量的 置信水平为95%的置信区间。
10 - 15
解:根据例 6.1 知:
10 , n 20 ,置信水平为 95%时临界值 z 2 1.96 , x 52.3
由于 n N 20 100 0.2 0.05 ,因此需要用修正系数对样本均值的方差进行修正, 把相关数据代入公式,可得:
(一)总体方差 已知
由抽样分布理论我们知道,若总体服
2 2 x ~ N , x , 其 中 x
从正态分布,则样本均值也服从正态分布,为
2
n, 是 样 本 均 值 的 方 差 ; 若 总 体 不 是 服 从 正 态 分 布 , 但 样 本
2 x ~ N , x 。
容 量 n充 分 大 时 , 则 样 本 均 值 也 近 似 地 服 从 正 态 分 布 根 据 样 本 均 值 的 分 布 , 我 们 可 以 得 到 :
熟练求出一个总体均值、总体比例和总体方差的置信
区间
了解不同情形下两个总体均值之差、总体比例之差和
总体方差比置信区间的求法。掌握总体均值和总体比 例估计时样本容量的确定
10 - 2
对于上面总体均值的置信区间,我们利用公式可表示为:x x x x , x 为 我们再给出置信区间严格的统计学定义:若被估计总体均值参数 在区间
z
这样 , 对于 给 定的 置 信水 平 使 得 下 式 成 立 ( 见 图 6 . 3 ) :
x
x
~ N 0,1
到 临界 值 z ,
1 ,我们可以利用标准正态分布表得
P z z z
2
2
2
1
1 时的置信区间为:
(6 . 1 )
10 - 17
总体方差未知(续)
其中 x
n 服从标准正态分布, n 1 s 2 2 服从自由度为 n 1 的 2
分布,且两者互相独立。即在样本均值标准化式子里,若利用样本标准差来代替总体标准 差后,则其服从自由度为 n 1 的 t 分布。
t 分布也是对称分布,类似于标准正态分布,不过比标准正态分布平坦,尾部一般比标
ˆ 比 ˆ 比 ˆ 的方差小,因此估计量 ˆ 更为有效。 计量 1 1 2 2
10 - 8
(三)一致性
当样本单位数达到充分大的时候,样本统计量也会越来越接近总体参数。就是说,随 着样本单位数 n 的无限增加,样本统计量和被估计的总体参数之差的绝对值小于任意小的 正数,它的可能性也将趋近于必然性,或者说实际上是几乎肯定的。用公式可以表示为:
10 - 7
(二)有效性
ˆ 和 ˆ 都是参数 的无偏估计量,若 ˆ 假设 1 2
2
1
2 ˆ ˆ ˆ ,则说明估计量 1 比 2 更有效。
2
即作为优良估计量的方差应该比其他估计量的方差小。
^ 1
的抽样分布
^ 2
的抽样分布
图 6.2 两个无偏点估计的抽样分布 对于同一总体参数的两个不同的无偏点估计,我们会偏好于采用方差较小的点估计, 因为它给出的估计更为可靠。图 6.2 给出了同一总体参数的两个无偏估计的情形,由于估
n 20 , x 52.3 ,置信水平为 95%时自由度为 19 的 t 分布临界值 t 2 2.09 ,
s
x x 2
n 1
1836 .2 9.83 19
代入置信区间计算公式得:
x t 2 n 1 s
n 52.3 2.09 9.83
20 52.3 4.59
10 - 16
(二)总体方差 未知
若总体方差 未知,在大样本情形下,则可以利用样本方差 s 来代替总体方差 ,
2 2 2
这样总体均值在置信水平为 1 时的置信区间为 x z 2 s
n。
但在小样本情形下则有所不同,我们需要用到概率论数理统计中的结论:当 x 服从标 准正态分布, y 服从自由度为 n 的 分布时,若 x 和 y 独立,则 x
极限误差,它与 x 的标准差 x 的大小和置信水平 1 的高低相关,且都成正比例关系。
x x , x x 内的概率为 1 ,即: Px x x x 1 则称 x x , x x 为置信区间。所谓置信区间就是在一定置信水平下所构造的区间,可
10 - 4
6.1.2 估计量优劣的评价标准
估计总体参数时,估计量一般不是唯一的,可能会有多个。如估计总体平均数时,可 以用样本平均数,也可以用样本中位数、众数等等。那么,究竟应当以哪一种样本统计量 来估计总体参数才是最优的呢?为解决这一问题,需要给出一定的评价标准,以下就是统 计学家在实际中常用来评价估计量优良与否的一些标准。