第七章参数估计(统计学贾俊平)总结
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如:用样本均值直接作为总体均值的估计 没有给出估计值接近总体参数程度的信息 由于样本是随机的,抽出一个具体的样本 得到的估计值很可能不同于总体真值 一个具体的点估计值无法给出估计的可靠 性度量
是总体分布的一个待估参数,根据随 机样本X1,X2,…Xn,估计 的统计量
为:
Z X n ~ N (0,1)
使用正态分布统计量Z构造置信区间
s
总体均值 在1-置信水平下的置信区间
X z 2
s
n
/2
1-
/2
Z
X
s
n
~ N (0,1)
P(-Z /2
-Z / 2 Z / 2 随机变量 X Z /2 ) 1 s n
n 1S 2
2
s 总体方差在1-置信水平下的置信区间为
~ 2 n 1
n 1S 2 s 2 n 1S 2 2 2
2 1 2
总体方差的区间估计
(图示)
n 1S 2
总体方差 1的置信区间
s
22
2
~ n 1
2
n 1 S 2 2 P( / 2 ) 1 2 s n 1 S 2 n 1 S 2 2 P( s ) 1 2 2 / 2 1 / 2
置信下限
置信上限
置信水平
(confidence level)
将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例称为置信水平(置信度)。
表示为 (1 -
为是总体参数未在区间内的比例
常用的置信水平值有 99%, 95%, 90%
相应的 为0.01,0.05,0.10
2 1 / 2
212
2
未知总体方差的区间估计
(例题分析)
【例】一家食品生产企业以生产袋装食品为主,现从某 天生产的一批食品中随机抽取了 25袋,测得每袋重量如 下表7所示。已知产品重量的分布服从正态分布。以95% 的置信水平建立该种食品重量方差的置信区间
25袋食品的重量 112.5 102.6 101.0 107.5 103.0 95.0 102.0 108.8 100.5 115.6
1.96 2.58
区间估计的图示
x z 2s x
- 2.58sx -1.65 sx
+1.65sx
+2.58sx
x
-1.96 sx
+1.96sx
90%的样本 95% 的样本 99% 的样本
s2已知时总体均值的区间估计
(例题分析)
【例】一家食品生产企业以生产袋装食品为主,为对产量质 量进行监测,企业质检部门经常要进行抽检,以分析每袋重 量是否符合要求。现从某天生产的一批食品中随机抽取了 25 袋,测得每袋重量如下表所示。已知产品重量的分布服从正 态分布,且总体标准差为10克。试估计该批产品平均重量的 置信区间,置信水平为95%
p(1-p) n
总体比例的区间估计 (例题分析)
【例】某城市想 要估计下岗职工 中女性所占的比 例,随机地抽取 了 100 名 下 岗 职 工,其中 65 人为 女性职工。试以 95% 的置信水平 估计该城市下岗 职工中女性比例 的置信区间 解:已知 n=100,p=65% , 1- = 95%, z/2=1.96
ˆ) P(
无偏 有偏
A
B
ˆ
有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计量 ˆ ,有更小标准差的估计量更有效 ˆ1 2 ˆ 的抽样分布 ˆ P( )
1
B A
ˆ 的抽样分布 2
ˆ
一致性
(consistency)
一致性:随着样本容量的增大,估计量 的 值越来越接近被估计的总体参数
24.77 16
1476.8,1503.2
该种灯泡平均使用寿命的置信区间为1476.8小时~ 1503.2小时
总体均值区间估计
总体分布 正态分布 小样本 非正态分布 大样本 样本量 大样本
X z 2
s已知
s未知
X z 2
s
n
X t 2
X z 2
s n S n s n
(例题分析)
【例】已知某种灯泡的寿命服从正态分布,现从一 批灯泡中随机抽取16只,测得其使用寿命(小时)如下 。建立该批灯泡平均使用寿命95%的置信区间
16灯泡使用寿命的数据
1510 1450 1480 1460 1520 1480 1490 1460 1480 1510 1530 1470 1500 1520 1510 1470
实际估计时往往只抽取一个样本,据此构 造的置信区间是大量包含总体参数真值的 区间中的一个,但也可能是少数几个不包 含参数真值的区间中的一个。
置信区间的表述
(confidence interval)
一个特定的置信区间总是“包含”或“绝
对不包含”参数的真值,不存在“以多大
的概率包含总体参数”的问题;
(例题分析)
解:已知X~N(,102),n=25, 1- = 95%,z/2=1.96。根 据样本数据计算得:x 105.36 总体均值在1-置信水平下的置信区间为
n 105.36 3.92
x z
s
2
105.36 1.96
10 25
101.44,109.28
s2未知总体均值的区间估计
(例题分析)
解:已知X~N(,s2),n=16, 1- = 95%,t/2=2.131 根据样本数据计算得: x 1490 , s 24.77 总体均值在1-置信水平下的置信区间为
n 1490 13.2
x t
s
2
1490 2.131
置信区间
s s P X Z X Z 1 2 2 n n
确定数值
s X Z 2 n
常用置信水平的Za/2值
置信水平 90% a 0.10 a/2 0.05 Za/2 1.645
95% 99%
0.05 0.01
0.025 0.005
p z
2
p (1 p ) n
65%(1 65%) 65% 1.96 100 65% 9.35% 55.65%, 74.35%
该城市下岗职工中女性比例的置信 区间为55.65%~74.35%
未知总体均值求总体方差的 置信区间
估计一个总体的方差或标准差 假设总体服从正态分布 总体方差 s2 的点估计量为S2,且
2 2
s2置信度为95%的置信区间为
39.364 12.401 56.83 s 2 180.39 该企业生产的食品总体重量标准差的的置信区 间为7.54克~13.43克
25 1 93.21 s 2
25 1 93.21
第三节 两个总体参数的 区间估计
两个总体均值之差的估计
2.
两个独立样本均值之差的抽样分布服从正态分布,其期望 值为
E( x1 x2 ) 1 2
其标准误差为
s (xx )
2
s 12
n1
2 s2
n2
两个总体均值之差的估计
(s12、s22 已知)
3.
使用正态分布统计量Z
Z ( X 1 X 2 ) ( 1 2 )
置信区间与置信水平
用某种方法构造的所有区间中,有95%的区间 包含总体参数的真值,5%的区间不包含,该
区间称为置信水平为95%的置信区间。
75 % 的区间包 含.
25 %的区间不包 含. 根据样本得到的多个区间
置信区间的表述
(confidence interval)
置信区间是一个随机区间,会因样本的不 同而变化,而且不是所有的区间都包含总 体参数;
ˆ) P(
较大的样本容量
B A
较小的样本容量
ˆ
Biblioteka Baidu
第二节 一个总体参数的 区间估计
已知总体方差求总体 均值的置信区间
参数区间估计
未知总体方差求总体均 值的置信区间 未知总体均值求总体方 差的置信区间
已知总体方差求总体均值的 置信区间
假定条件
总体服从正态分布,且方差(s2) 已知 不是正态分布,方差已知,大样本 (n 30)
该食品平均重量的置信区间为101.44克~109.28克之间
未知总体方差求总体均值的 置信区间
假定条件
总体服从正态分布,且方差(s2) 未知 小样本
X S n
使用 t 分布统计量
t ~ t (n 1)
总体均值 在1-置信水平下的置信区间为 S X t 2 n
/2
估计量(estimator)
用于估计总体参数的统计量
如样本均值,样本比例,样本方差等
ˆ 表示 用符号
用具体样本计算出来的估计量的数值 如果样本均值x =80,则80就是 的估计值
估计值(estimated value)
点估计
(point estimate)
ˆ的某个取值直接作为总体参数 用样本的估计量 的估计值;
100.0
116.6 136.8
123.5
95.4 102.8
102.0
97.8 101.5
101.6
108.6 98.4
102.2
105.0 93.3
未知总体方差的区间估计
(例题分析)
解 : 已 知 n = 25 , 1- = 95% , 根 据 样 本 数 据 计 算 得 s2 =93.21 2 (n 1) 02.025 (24) 39.364 12 (n 1) 02.975 (24) 12.401
根据样本观察值x1,x2,…xn,得到 的 估计值:
( X 1 ,X 2 ,...,X n )
( x1 ,x2 ,...,xn )
区间估计
(概念要点)
1.根据一个样本的观察值给出总体参数的估计范 围
2.
例如: 总体均值落在50~70之间,置信水平为 95%
置信区间 样本统计量 (点估计)
置信水平表示在多次估计得到的区间中有
多少个区间包含参数真值,而不是针对所
抽取的这个样本所构建的区间而言的。
置信区间的表述
(95%的置信区间)
点估计值
我没有抓住参数!
从均值为185的总体中抽出20个样本构造出的20个置信区间
判断点估计的优劣标准
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于 被估计的总体参数.
25袋食品的重量
112.5
102.6 100.0 116.6 136.8
101.0
107.5 123.5 95.4 102.8
103.0
95.0 102.0 97.8 101.5
102.0
108.8 101.6 108.6 98.4
100.5
115.6 102.2 105.0 93.3
s2已知时总体均值的区间估计
两个样本均值之差的抽样分布
总体1
s1 1
s2 2
总体2
抽取简单随机样 样本容量 n1 计算X1
计算每一对样本 的X1-X2
抽取简单随机样 样本容量 n2 计算X2
所有可能样本 的X1-X2
抽样分布
1 2
两个总体均值之差的估计
(s12、s22 已知)
1.
假定条件
两个样本是独立的随机样本 两个总体都服从正态分布 若不是正态分布, 可以用正态分布来近似(n130和n230)
1-
/2
X P -t t 1 s 2 2 n s s P X t X t 1 2 2 n n
-t / 2
t / 2
t
X S n
~ t (n 1)
s2未知总体均值的区间估计
与方差未知的置信区间不一样
总体比例的区间估计
假定条件
总体服从二项分布 可以由正态分布来近似 np(成功次数)和n(1-p)(失败次数)均应该大于5
使用正态分布统计量 z p z ~ N (0,1) (1 )
n
总体比例在1-置信水平下的置信区间为
p z 2
第七章 参数估计
学习要求
1 掌握参数估计的基本原理 2 理解并掌握一个总体参数的区间估计 3 理解两个总体参数的区间估计
4 掌握估计总体均值时样本容量的确定
第一节 参数估计的基本原理
参数估计 (parameter estimation)
参数估计
用样本统计量去估计总体的参数
用样本均值x 估计总体均值 ;用样本方差s2估计s2
是总体分布的一个待估参数,根据随 机样本X1,X2,…Xn,估计 的统计量
为:
Z X n ~ N (0,1)
使用正态分布统计量Z构造置信区间
s
总体均值 在1-置信水平下的置信区间
X z 2
s
n
/2
1-
/2
Z
X
s
n
~ N (0,1)
P(-Z /2
-Z / 2 Z / 2 随机变量 X Z /2 ) 1 s n
n 1S 2
2
s 总体方差在1-置信水平下的置信区间为
~ 2 n 1
n 1S 2 s 2 n 1S 2 2 2
2 1 2
总体方差的区间估计
(图示)
n 1S 2
总体方差 1的置信区间
s
22
2
~ n 1
2
n 1 S 2 2 P( / 2 ) 1 2 s n 1 S 2 n 1 S 2 2 P( s ) 1 2 2 / 2 1 / 2
置信下限
置信上限
置信水平
(confidence level)
将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例称为置信水平(置信度)。
表示为 (1 -
为是总体参数未在区间内的比例
常用的置信水平值有 99%, 95%, 90%
相应的 为0.01,0.05,0.10
2 1 / 2
212
2
未知总体方差的区间估计
(例题分析)
【例】一家食品生产企业以生产袋装食品为主,现从某 天生产的一批食品中随机抽取了 25袋,测得每袋重量如 下表7所示。已知产品重量的分布服从正态分布。以95% 的置信水平建立该种食品重量方差的置信区间
25袋食品的重量 112.5 102.6 101.0 107.5 103.0 95.0 102.0 108.8 100.5 115.6
1.96 2.58
区间估计的图示
x z 2s x
- 2.58sx -1.65 sx
+1.65sx
+2.58sx
x
-1.96 sx
+1.96sx
90%的样本 95% 的样本 99% 的样本
s2已知时总体均值的区间估计
(例题分析)
【例】一家食品生产企业以生产袋装食品为主,为对产量质 量进行监测,企业质检部门经常要进行抽检,以分析每袋重 量是否符合要求。现从某天生产的一批食品中随机抽取了 25 袋,测得每袋重量如下表所示。已知产品重量的分布服从正 态分布,且总体标准差为10克。试估计该批产品平均重量的 置信区间,置信水平为95%
p(1-p) n
总体比例的区间估计 (例题分析)
【例】某城市想 要估计下岗职工 中女性所占的比 例,随机地抽取 了 100 名 下 岗 职 工,其中 65 人为 女性职工。试以 95% 的置信水平 估计该城市下岗 职工中女性比例 的置信区间 解:已知 n=100,p=65% , 1- = 95%, z/2=1.96
ˆ) P(
无偏 有偏
A
B
ˆ
有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计量 ˆ ,有更小标准差的估计量更有效 ˆ1 2 ˆ 的抽样分布 ˆ P( )
1
B A
ˆ 的抽样分布 2
ˆ
一致性
(consistency)
一致性:随着样本容量的增大,估计量 的 值越来越接近被估计的总体参数
24.77 16
1476.8,1503.2
该种灯泡平均使用寿命的置信区间为1476.8小时~ 1503.2小时
总体均值区间估计
总体分布 正态分布 小样本 非正态分布 大样本 样本量 大样本
X z 2
s已知
s未知
X z 2
s
n
X t 2
X z 2
s n S n s n
(例题分析)
【例】已知某种灯泡的寿命服从正态分布,现从一 批灯泡中随机抽取16只,测得其使用寿命(小时)如下 。建立该批灯泡平均使用寿命95%的置信区间
16灯泡使用寿命的数据
1510 1450 1480 1460 1520 1480 1490 1460 1480 1510 1530 1470 1500 1520 1510 1470
实际估计时往往只抽取一个样本,据此构 造的置信区间是大量包含总体参数真值的 区间中的一个,但也可能是少数几个不包 含参数真值的区间中的一个。
置信区间的表述
(confidence interval)
一个特定的置信区间总是“包含”或“绝
对不包含”参数的真值,不存在“以多大
的概率包含总体参数”的问题;
(例题分析)
解:已知X~N(,102),n=25, 1- = 95%,z/2=1.96。根 据样本数据计算得:x 105.36 总体均值在1-置信水平下的置信区间为
n 105.36 3.92
x z
s
2
105.36 1.96
10 25
101.44,109.28
s2未知总体均值的区间估计
(例题分析)
解:已知X~N(,s2),n=16, 1- = 95%,t/2=2.131 根据样本数据计算得: x 1490 , s 24.77 总体均值在1-置信水平下的置信区间为
n 1490 13.2
x t
s
2
1490 2.131
置信区间
s s P X Z X Z 1 2 2 n n
确定数值
s X Z 2 n
常用置信水平的Za/2值
置信水平 90% a 0.10 a/2 0.05 Za/2 1.645
95% 99%
0.05 0.01
0.025 0.005
p z
2
p (1 p ) n
65%(1 65%) 65% 1.96 100 65% 9.35% 55.65%, 74.35%
该城市下岗职工中女性比例的置信 区间为55.65%~74.35%
未知总体均值求总体方差的 置信区间
估计一个总体的方差或标准差 假设总体服从正态分布 总体方差 s2 的点估计量为S2,且
2 2
s2置信度为95%的置信区间为
39.364 12.401 56.83 s 2 180.39 该企业生产的食品总体重量标准差的的置信区 间为7.54克~13.43克
25 1 93.21 s 2
25 1 93.21
第三节 两个总体参数的 区间估计
两个总体均值之差的估计
2.
两个独立样本均值之差的抽样分布服从正态分布,其期望 值为
E( x1 x2 ) 1 2
其标准误差为
s (xx )
2
s 12
n1
2 s2
n2
两个总体均值之差的估计
(s12、s22 已知)
3.
使用正态分布统计量Z
Z ( X 1 X 2 ) ( 1 2 )
置信区间与置信水平
用某种方法构造的所有区间中,有95%的区间 包含总体参数的真值,5%的区间不包含,该
区间称为置信水平为95%的置信区间。
75 % 的区间包 含.
25 %的区间不包 含. 根据样本得到的多个区间
置信区间的表述
(confidence interval)
置信区间是一个随机区间,会因样本的不 同而变化,而且不是所有的区间都包含总 体参数;
ˆ) P(
较大的样本容量
B A
较小的样本容量
ˆ
Biblioteka Baidu
第二节 一个总体参数的 区间估计
已知总体方差求总体 均值的置信区间
参数区间估计
未知总体方差求总体均 值的置信区间 未知总体均值求总体方 差的置信区间
已知总体方差求总体均值的 置信区间
假定条件
总体服从正态分布,且方差(s2) 已知 不是正态分布,方差已知,大样本 (n 30)
该食品平均重量的置信区间为101.44克~109.28克之间
未知总体方差求总体均值的 置信区间
假定条件
总体服从正态分布,且方差(s2) 未知 小样本
X S n
使用 t 分布统计量
t ~ t (n 1)
总体均值 在1-置信水平下的置信区间为 S X t 2 n
/2
估计量(estimator)
用于估计总体参数的统计量
如样本均值,样本比例,样本方差等
ˆ 表示 用符号
用具体样本计算出来的估计量的数值 如果样本均值x =80,则80就是 的估计值
估计值(estimated value)
点估计
(point estimate)
ˆ的某个取值直接作为总体参数 用样本的估计量 的估计值;
100.0
116.6 136.8
123.5
95.4 102.8
102.0
97.8 101.5
101.6
108.6 98.4
102.2
105.0 93.3
未知总体方差的区间估计
(例题分析)
解 : 已 知 n = 25 , 1- = 95% , 根 据 样 本 数 据 计 算 得 s2 =93.21 2 (n 1) 02.025 (24) 39.364 12 (n 1) 02.975 (24) 12.401
根据样本观察值x1,x2,…xn,得到 的 估计值:
( X 1 ,X 2 ,...,X n )
( x1 ,x2 ,...,xn )
区间估计
(概念要点)
1.根据一个样本的观察值给出总体参数的估计范 围
2.
例如: 总体均值落在50~70之间,置信水平为 95%
置信区间 样本统计量 (点估计)
置信水平表示在多次估计得到的区间中有
多少个区间包含参数真值,而不是针对所
抽取的这个样本所构建的区间而言的。
置信区间的表述
(95%的置信区间)
点估计值
我没有抓住参数!
从均值为185的总体中抽出20个样本构造出的20个置信区间
判断点估计的优劣标准
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于 被估计的总体参数.
25袋食品的重量
112.5
102.6 100.0 116.6 136.8
101.0
107.5 123.5 95.4 102.8
103.0
95.0 102.0 97.8 101.5
102.0
108.8 101.6 108.6 98.4
100.5
115.6 102.2 105.0 93.3
s2已知时总体均值的区间估计
两个样本均值之差的抽样分布
总体1
s1 1
s2 2
总体2
抽取简单随机样 样本容量 n1 计算X1
计算每一对样本 的X1-X2
抽取简单随机样 样本容量 n2 计算X2
所有可能样本 的X1-X2
抽样分布
1 2
两个总体均值之差的估计
(s12、s22 已知)
1.
假定条件
两个样本是独立的随机样本 两个总体都服从正态分布 若不是正态分布, 可以用正态分布来近似(n130和n230)
1-
/2
X P -t t 1 s 2 2 n s s P X t X t 1 2 2 n n
-t / 2
t / 2
t
X S n
~ t (n 1)
s2未知总体均值的区间估计
与方差未知的置信区间不一样
总体比例的区间估计
假定条件
总体服从二项分布 可以由正态分布来近似 np(成功次数)和n(1-p)(失败次数)均应该大于5
使用正态分布统计量 z p z ~ N (0,1) (1 )
n
总体比例在1-置信水平下的置信区间为
p z 2
第七章 参数估计
学习要求
1 掌握参数估计的基本原理 2 理解并掌握一个总体参数的区间估计 3 理解两个总体参数的区间估计
4 掌握估计总体均值时样本容量的确定
第一节 参数估计的基本原理
参数估计 (parameter estimation)
参数估计
用样本统计量去估计总体的参数
用样本均值x 估计总体均值 ;用样本方差s2估计s2