参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5 - 22 July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(大样本的估计)
总体服从正态分布,且方差(2) 已知 如果不是正态分布,可由正态分布来近似 (n 30)
1. 假定条件
2. 使用正态分布统计量 z x z ~ N (0,1) n 3. 总体均值 在1- 置信水平下的置信区间为
5-3 July 31, 2010
统计学
STATISTICS
大学生每周上网花多少时间?
人数(人) 32 35 33 29 71 200 频率(%) 16 17.5 16.5 14.5 35.5 100
回答类别 3小时以下 3~6小时 6~9小时 9~12小时 12小时以上 合计
平均上网时间为8.58小时,标准差为0.69小时。全校学生每周 的平均上网时间是多少?每周上网时间在12小时以上的学生比 例是多少?你做出估计的理论依据是什么?
+1.96x
90%的样本 95% 的样本 99% 的样本
5 - 10 July 31, 2010
统计学
STATISTICS
置信水平
(confidence level)
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例,也称置信度 2. 表示为 (1 -
x z
2
s 7.77 39.5 1.645 n 36 39.5 2.13 37.37,41.63
投保人平均年龄的置信区间为37.37岁~41.63岁
5 - 25
July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(小样本的估计)
1. 假定条件
总体服从正态分布,但方差(2) 未知 小样本 (n < 30)
有效性:对同一总体参数的两个无偏点估计
量,有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
July 31, 2010
5 - 17
统计学
STATISTICS
一致性
(consistency)
一致性:随着样本量的增大,估计量的 值越来越接近被估计的总体参数
ˆ P( )
为了解学生每周上网花费的时间,中国人民大学公 共管理学院的4名本科生对全校部分本科生做了问 卷调查。调查的对象为中国人民大学在校本科生, 调查内容包括上网时间、途径、支出、目的、关心 的校园网内容,以及学生对收费的态度,包括收费 方式、价格等 问卷调查由调查员直接到宿舍发放并当场回收。对 四个年级中每年级各发60份问卷,其中男、女生各 30份。共收回有效问卷共200份。其中有关上网时 间方面的数据经整理如下表所示
x t
2
s 24.77 1490 2.131 n 16 1490 13.2 1476.8,1503.2
101.44,109.28
该食品平均重量的置信区间为101.44g~109.28g
5 - 28
July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(小样本的估计)
【例】已知某种灯泡的寿命服从正态分布,现从一 批灯泡中随机抽取16只,测得其使用寿命(单位:h) 如下。建立该批灯泡平均使用寿命95%的置信区间
23
36 42 34 39 34
5 - 24
35
42 53 28 49 39
39
46 45 39 38 45
27
43 54 36 34 48
36
31 47 44 48 45
44
33 24 40 50 32
July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(大样本的估计)
解:已知n=36, 1- = 90%,z/2=1.645。根据样本数 据计算得: 39.5 ,s 7.77 x 总体均值在1- 置信水平下的置信区间为
较大的样本量
B A
较小的样本量
5 - 18
ˆ
July 31, 2010
第 5 章 参数估计
5.2 一个总体参数的区间估计
5.2.1 总体均值的区间估计 5.2.2 总体比例的区间估计 5.2.3 总体方差的区间估计
5.2 一个总体参数估计的区间估计 5.2.1 总体均值的区间估计
统计学
STATISTICS
统计学
STATISTICS
总体均值的区间估计
(小样本的估计)
解:已知X~N(,102),n=25, 1- = 95%,z/2=1.96 x 。根据样本数据计算得: 105.36。由于是正态总 体,且方差已知。总体均值 在1-置信水平下的 置信区间为 10 x z 2 105.36 1.96 n 25 105.36 3.92
比如,天气预报说“在一年内会下一场雨”,虽然这很有 把握,但有什么意义呢?另一方面,要求过于准确(过窄) 的区间同样不一定有意义,因为过窄的区间虽然看上去很 准确,但把握性就会降低,除非无限制增加样本量,而现 实中样本量总是有限的
3.
区间估计总是要给结论留点儿余地
July 31, 2010
5 - 14
第 5 章 参数估计
5.1 5.2 5.3 5.4 参数估计的基本原理 一个总体参数的区间估计 两个总体参数的区间估计 样本量的确定
统计学
STATISTICS
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
参数估计
假设检验
5-2
July 31, 2010
统计学
STATISTICS
大学生每周上网花多少时间?
16灯泡使用寿命的数据
1510 1450 1480 1460
5 - 29
1520 1480 1490 1460
1480 1510 1530 1470
1500 1520 1510 1470
July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(小样本的估计)
解:已知X~N(,2),n=16, 1- = 95%,t/2=2.131 根据样本数据计算得:x 1490 ,s 24.77 总体均值在1-置信水平下的置信区间为
为是总体参数未在区间内的比例
相应的 为0.01,0.05,0.10
3. 常用的置信水平值有 99%, 95%, 90%
5 - 11
July 31, 2010
统计学
STATISTICS
置信区间的表述
(confidence interval)
1. 由样本估计量构造出的总体参数在一定置信水平 下的估计区间 2. 统计学家在某种程度上确信这个区间会包含真正 的总体参数,所以给它取名为置信区间 3. 如果用某种方法构造的所有区间中有95%的区间 包含总体参数的真值,5%的区间不包含总体参数 的真值,那么,用该方法构造的区间称为置信水 平为95%的置信区间。同样,其他置信水平的区 间也可以用类似的方式进行表述
5.1 参数估计的一般问题 5.1.2 评价估计量的标准
统计学
STATISTICS
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数
ˆ P( )
无偏 有偏
A
B
5 - 16
ˆ
July 31, 2010
统ቤተ መጻሕፍቲ ባይዱ学
STATISTICS
有效性
(efficiency)
如样本均值,样本比例,样本方差等 例如: 样本均值就是总体均值 的一个估计量
ˆ 3. 参数用 表示,估计量用 表示 4. 估计值:估计参数时计算出来的统计量的具体值
如果样本均值 x =80,则80就是 的估计值
5-7
July 31, 2010
统计学
STATISTICS
点估计
(point estimate)
5-4 July 31, 2010
第 5 章 参数估计
5.1 参数估计的基本原理
5.1.1 点估计与区间估计 5.1.2 评价估计量的标准
5.1 参数估计的一般问题 5.1.1 点估计与区间估计
统计学
STATISTICS
估计量与估计值
(estimator & estimated value)
1. 参数估计(parameter estimation)就是用样本统计 量去估计总体的参数 2. 估计量:用于估计总体参数的统计量的名称
x z 2
5 - 23
n
或 x z 2
s n
( 未知)
July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(大样本的估计)
【例】一家保险公司收集到由36个投保人组成的随 机样本,得到每个投保人的年龄(单位:周岁)数据如 下表。试建立投保人年龄90%的置信区间
36个投保人年龄的数据
5 - 13 July 31, 2010
统计学
STATISTICS
置信区间的表述
(confidence interval)
1.
2.
使用一个较大的置信水平会得到一个比较宽的置信区 间,而使用一个较大的样本则会得到一个较准确(较 窄)的区间。直观地说,较宽的区间会有更大的可能 性包含参数 但实际应用中,过宽的区间往往没有实际意义
一个总体参数的区间估计
总体参数
符号表示
样本统计量
均值
比例
x p
2
方差
5 - 21
s
2
July 31, 2010
统计学
STATISTICS
总体均值区间的一般表达式
1. 总体均值的置信区间是由样本均值加减估计误差 得到的 2. 估计误差由两部分组成:一是点估计量的标准误 差,它取决于样本统计量的抽样分布。二是估计 时所要的求置信水平为时,统计量分布两侧面积 为的分位数值,它取决于事先所要求的可靠程度 3. 总体均值在置信水平下的置信区间可一般性地表 达为 样本均值±分位数值×样本均值的标准误差
July 31, 2010
2. 无法给出估计值接近总体参数程度的信息
5-8
统计学
STATISTICS
区间估计
(interval estimate)
1. 2.
在点估计的基础上,给出总体参数估计的一个估计 区间,该区间由样本统计量加减估计误差而得到 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量
5 - 12 July 31, 2010
统计学
STATISTICS
置信区间的表述
(confidence interval)
1. 总体参数的真值是固定的,而用样本构造的区 间则是不固定的,因此置信区间是一个随机区 间,它会因样本的不同而变化,而且不是所有 的区间都包含总体参数 2. 实际估计时往往只抽取一个样本,此时所构造 的是与该样本相联系的一定置信水平(比如95%) 下的置信区间。我们只能希望这个区间是大量 包含总体参数真值的区间中的一个,但它也可 能是少数几个不包含参数真值的区间中的一个
25袋食品的重量
112.5
102.6 100.0 116.6 136.8
5 - 27
101.0
107.5 123.5 95.4 102.8
103.0
95.0 102.0 97.8 101.5
102.0
108.8 101.6 108.6 98.4
100.5
115.6 102.2 105.0 93.3
July 31, 2010
1. 用样本的估计量的某个取值直接作为总体参 数的估计值
例如:用样本均值直接作为总体均值的估计;用 两个样本均值之差直接作为总体均值之差的估计 由于样本是随机的,抽出一个具体的样本得到的 估计值很可能不同于总体真值
一个点估计量的可靠性是由它的抽样标准误差来 衡量的,这表明一个具体的点估计值无法给出估 计的可靠性的度量
比如,某班级平均分数在75~85之间,置信水平是95%
置信区间
样本统计量 (点估计)
置信下限
5-9
置信上限
July 31, 2010
统计学
STATISTICS
区间估计的图示
x z 2 x
- 2.58x -1.65 x
x
+1.65x +2.58x
x
-1.96 x
2. 使用 t 分布统计量
t x s n ~ t (n 1)
3. 总体均值 在1-置信水平下的置信区间为 s x t 2 n
5 - 26 July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(小样本的估计)
【 例 】一家食品生产企业以生产袋装食品为主,为对产量质 量进行监测,企业质检部门经常要进行抽检,以分析每袋重 量是否符合要求。现从某天生产的一批食品中随机抽取了25 袋,测得每袋重量如下表所示。已知产品重量的分布服从正 态分布,且总体标准差为10克。试估计该批产品平均重量的 置信区间,置信水平为95%
统计学
STATISTICS
总体均值的区间估计
(大样本的估计)
总体服从正态分布,且方差(2) 已知 如果不是正态分布,可由正态分布来近似 (n 30)
1. 假定条件
2. 使用正态分布统计量 z x z ~ N (0,1) n 3. 总体均值 在1- 置信水平下的置信区间为
5-3 July 31, 2010
统计学
STATISTICS
大学生每周上网花多少时间?
人数(人) 32 35 33 29 71 200 频率(%) 16 17.5 16.5 14.5 35.5 100
回答类别 3小时以下 3~6小时 6~9小时 9~12小时 12小时以上 合计
平均上网时间为8.58小时,标准差为0.69小时。全校学生每周 的平均上网时间是多少?每周上网时间在12小时以上的学生比 例是多少?你做出估计的理论依据是什么?
+1.96x
90%的样本 95% 的样本 99% 的样本
5 - 10 July 31, 2010
统计学
STATISTICS
置信水平
(confidence level)
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例,也称置信度 2. 表示为 (1 -
x z
2
s 7.77 39.5 1.645 n 36 39.5 2.13 37.37,41.63
投保人平均年龄的置信区间为37.37岁~41.63岁
5 - 25
July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(小样本的估计)
1. 假定条件
总体服从正态分布,但方差(2) 未知 小样本 (n < 30)
有效性:对同一总体参数的两个无偏点估计
量,有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
July 31, 2010
5 - 17
统计学
STATISTICS
一致性
(consistency)
一致性:随着样本量的增大,估计量的 值越来越接近被估计的总体参数
ˆ P( )
为了解学生每周上网花费的时间,中国人民大学公 共管理学院的4名本科生对全校部分本科生做了问 卷调查。调查的对象为中国人民大学在校本科生, 调查内容包括上网时间、途径、支出、目的、关心 的校园网内容,以及学生对收费的态度,包括收费 方式、价格等 问卷调查由调查员直接到宿舍发放并当场回收。对 四个年级中每年级各发60份问卷,其中男、女生各 30份。共收回有效问卷共200份。其中有关上网时 间方面的数据经整理如下表所示
x t
2
s 24.77 1490 2.131 n 16 1490 13.2 1476.8,1503.2
101.44,109.28
该食品平均重量的置信区间为101.44g~109.28g
5 - 28
July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(小样本的估计)
【例】已知某种灯泡的寿命服从正态分布,现从一 批灯泡中随机抽取16只,测得其使用寿命(单位:h) 如下。建立该批灯泡平均使用寿命95%的置信区间
23
36 42 34 39 34
5 - 24
35
42 53 28 49 39
39
46 45 39 38 45
27
43 54 36 34 48
36
31 47 44 48 45
44
33 24 40 50 32
July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(大样本的估计)
解:已知n=36, 1- = 90%,z/2=1.645。根据样本数 据计算得: 39.5 ,s 7.77 x 总体均值在1- 置信水平下的置信区间为
较大的样本量
B A
较小的样本量
5 - 18
ˆ
July 31, 2010
第 5 章 参数估计
5.2 一个总体参数的区间估计
5.2.1 总体均值的区间估计 5.2.2 总体比例的区间估计 5.2.3 总体方差的区间估计
5.2 一个总体参数估计的区间估计 5.2.1 总体均值的区间估计
统计学
STATISTICS
统计学
STATISTICS
总体均值的区间估计
(小样本的估计)
解:已知X~N(,102),n=25, 1- = 95%,z/2=1.96 x 。根据样本数据计算得: 105.36。由于是正态总 体,且方差已知。总体均值 在1-置信水平下的 置信区间为 10 x z 2 105.36 1.96 n 25 105.36 3.92
比如,天气预报说“在一年内会下一场雨”,虽然这很有 把握,但有什么意义呢?另一方面,要求过于准确(过窄) 的区间同样不一定有意义,因为过窄的区间虽然看上去很 准确,但把握性就会降低,除非无限制增加样本量,而现 实中样本量总是有限的
3.
区间估计总是要给结论留点儿余地
July 31, 2010
5 - 14
第 5 章 参数估计
5.1 5.2 5.3 5.4 参数估计的基本原理 一个总体参数的区间估计 两个总体参数的区间估计 样本量的确定
统计学
STATISTICS
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
参数估计
假设检验
5-2
July 31, 2010
统计学
STATISTICS
大学生每周上网花多少时间?
16灯泡使用寿命的数据
1510 1450 1480 1460
5 - 29
1520 1480 1490 1460
1480 1510 1530 1470
1500 1520 1510 1470
July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(小样本的估计)
解:已知X~N(,2),n=16, 1- = 95%,t/2=2.131 根据样本数据计算得:x 1490 ,s 24.77 总体均值在1-置信水平下的置信区间为
为是总体参数未在区间内的比例
相应的 为0.01,0.05,0.10
3. 常用的置信水平值有 99%, 95%, 90%
5 - 11
July 31, 2010
统计学
STATISTICS
置信区间的表述
(confidence interval)
1. 由样本估计量构造出的总体参数在一定置信水平 下的估计区间 2. 统计学家在某种程度上确信这个区间会包含真正 的总体参数,所以给它取名为置信区间 3. 如果用某种方法构造的所有区间中有95%的区间 包含总体参数的真值,5%的区间不包含总体参数 的真值,那么,用该方法构造的区间称为置信水 平为95%的置信区间。同样,其他置信水平的区 间也可以用类似的方式进行表述
5.1 参数估计的一般问题 5.1.2 评价估计量的标准
统计学
STATISTICS
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数
ˆ P( )
无偏 有偏
A
B
5 - 16
ˆ
July 31, 2010
统ቤተ መጻሕፍቲ ባይዱ学
STATISTICS
有效性
(efficiency)
如样本均值,样本比例,样本方差等 例如: 样本均值就是总体均值 的一个估计量
ˆ 3. 参数用 表示,估计量用 表示 4. 估计值:估计参数时计算出来的统计量的具体值
如果样本均值 x =80,则80就是 的估计值
5-7
July 31, 2010
统计学
STATISTICS
点估计
(point estimate)
5-4 July 31, 2010
第 5 章 参数估计
5.1 参数估计的基本原理
5.1.1 点估计与区间估计 5.1.2 评价估计量的标准
5.1 参数估计的一般问题 5.1.1 点估计与区间估计
统计学
STATISTICS
估计量与估计值
(estimator & estimated value)
1. 参数估计(parameter estimation)就是用样本统计 量去估计总体的参数 2. 估计量:用于估计总体参数的统计量的名称
x z 2
5 - 23
n
或 x z 2
s n
( 未知)
July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(大样本的估计)
【例】一家保险公司收集到由36个投保人组成的随 机样本,得到每个投保人的年龄(单位:周岁)数据如 下表。试建立投保人年龄90%的置信区间
36个投保人年龄的数据
5 - 13 July 31, 2010
统计学
STATISTICS
置信区间的表述
(confidence interval)
1.
2.
使用一个较大的置信水平会得到一个比较宽的置信区 间,而使用一个较大的样本则会得到一个较准确(较 窄)的区间。直观地说,较宽的区间会有更大的可能 性包含参数 但实际应用中,过宽的区间往往没有实际意义
一个总体参数的区间估计
总体参数
符号表示
样本统计量
均值
比例
x p
2
方差
5 - 21
s
2
July 31, 2010
统计学
STATISTICS
总体均值区间的一般表达式
1. 总体均值的置信区间是由样本均值加减估计误差 得到的 2. 估计误差由两部分组成:一是点估计量的标准误 差,它取决于样本统计量的抽样分布。二是估计 时所要的求置信水平为时,统计量分布两侧面积 为的分位数值,它取决于事先所要求的可靠程度 3. 总体均值在置信水平下的置信区间可一般性地表 达为 样本均值±分位数值×样本均值的标准误差
July 31, 2010
2. 无法给出估计值接近总体参数程度的信息
5-8
统计学
STATISTICS
区间估计
(interval estimate)
1. 2.
在点估计的基础上,给出总体参数估计的一个估计 区间,该区间由样本统计量加减估计误差而得到 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量
5 - 12 July 31, 2010
统计学
STATISTICS
置信区间的表述
(confidence interval)
1. 总体参数的真值是固定的,而用样本构造的区 间则是不固定的,因此置信区间是一个随机区 间,它会因样本的不同而变化,而且不是所有 的区间都包含总体参数 2. 实际估计时往往只抽取一个样本,此时所构造 的是与该样本相联系的一定置信水平(比如95%) 下的置信区间。我们只能希望这个区间是大量 包含总体参数真值的区间中的一个,但它也可 能是少数几个不包含参数真值的区间中的一个
25袋食品的重量
112.5
102.6 100.0 116.6 136.8
5 - 27
101.0
107.5 123.5 95.4 102.8
103.0
95.0 102.0 97.8 101.5
102.0
108.8 101.6 108.6 98.4
100.5
115.6 102.2 105.0 93.3
July 31, 2010
1. 用样本的估计量的某个取值直接作为总体参 数的估计值
例如:用样本均值直接作为总体均值的估计;用 两个样本均值之差直接作为总体均值之差的估计 由于样本是随机的,抽出一个具体的样本得到的 估计值很可能不同于总体真值
一个点估计量的可靠性是由它的抽样标准误差来 衡量的,这表明一个具体的点估计值无法给出估 计的可靠性的度量
比如,某班级平均分数在75~85之间,置信水平是95%
置信区间
样本统计量 (点估计)
置信下限
5-9
置信上限
July 31, 2010
统计学
STATISTICS
区间估计的图示
x z 2 x
- 2.58x -1.65 x
x
+1.65x +2.58x
x
-1.96 x
2. 使用 t 分布统计量
t x s n ~ t (n 1)
3. 总体均值 在1-置信水平下的置信区间为 s x t 2 n
5 - 26 July 31, 2010
统计学
STATISTICS
总体均值的区间估计
(小样本的估计)
【 例 】一家食品生产企业以生产袋装食品为主,为对产量质 量进行监测,企业质检部门经常要进行抽检,以分析每袋重 量是否符合要求。现从某天生产的一批食品中随机抽取了25 袋,测得每袋重量如下表所示。已知产品重量的分布服从正 态分布,且总体标准差为10克。试估计该批产品平均重量的 置信区间,置信水平为95%