统计学第5章 参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 估计量:用于估计总体参数的统计量的名称
如样本均值,样本比例,样本方差等
例如: 样本均值就是总体均值 的一个估计量
3. 参数用 表示,估计量用 ˆ 表示
4. 估计值:估计参数时计算出来的统计量的具体值
如果样本均值 x =80,则80就是 的估计值
5-9
2020-4-8
统计学
STATISTICS (第五版)
2. 使用正态分布统计量 z z x ~ N (0,1) n
3. 总体均值 在1- 置信水平下的置信区间为
x z 2 n
或 x z 2
s ( 未知)
n
5 - 27
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(大样本的估计)
【例5-1】一家保险公司收集到由36个投保人组成的 随机样本,得到每个投保人的年龄(单位:周岁)数据 如下表。试建立投保人年龄90%的置信区间
➢ 问卷调查由调查员直接到宿舍发放并当场回收。对 四个年级中每年级各发60份问卷,其中男、女生各 30份。共收回有效问卷共200份。其中有关上网时 间方面的数据经整理如下表所示
5-5
2020-4-8
统计学
STATISTICS (第五版)
大学生每周上网花多少时间?
回答类别
人数(人)
频率(%)
3小时以下
32
16
3~6小时
35
17.5
6~9小时
33
16.5
9~12小时
29
14.5
12小时以上
71
35.5
合计
200
100
平均上网时间为8.58小时,标准差为0.69小时。全校学生每周 的平均上网时间是多少?每周上网时间在12小时以上的学生比 例是多少?你做出估计的理论依据是什么?
5-6
2020-4-8
第 5 章 参数估计
据计算得:x 39.5 ,s 7.77
总体均值在1- 置信水平下的置信区间为
x z 2
s 39.5 1.645 7.77
n
36
39.5 2.13
37.37,41.63
投保人平均年龄的置信区间为37.37岁~41.63岁
5 - 29
2020-4-8
统计学
STATISTICS (第五版)
10 25
105.36 3.92
101.44,109.28
该食品平均重量的置信区间为101.44g~109.28g
5 - 32
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(小样本的估计)
【例5-3】已知某种灯泡的寿命服从正态分布,现从 一批灯泡中随机抽取16只,测得其使用寿命(单位:h) 如下。建立该批灯泡平均使用寿命95%的置信区间
点估计
(point estimate)
1. 用样本的估计量的某个取值直接作为总体参 数的估计值
▪ 例如:用样本均值直接作为总体均值的估计;用 两个样本均值之差直接作为总体均值之差的估计
2. 无法给出估计值接近总体参数程度的信息
由于样本是随机的,抽出一个具体的样本得到的 估计值很可能不同于总体真值
一个点估计量的可靠性是由它的抽样标准误差来 衡量的,这表明一个具体的点估计值无法给出估 计的可靠性的度量
为是总体参数未在区间内的比例
3. 常用的置信水平值有 99%, 95%, 90%
相应的 为0.01,0.05,0.10
5 - 13
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
1. 由样本估计量构造出的总体参数在一定置信水平 下的估计区间
3. 区间估计总是要给结论留点儿余地
5 - 18
2020-4-8
5.1 参数估计的基本原理 5.1.2 评价估计量的标准
统计学
STATISTICS (第五版)
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数
5 - 20
2020-4-8
统计学
STATISTICS (第五版)
5 - 15
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
1. 当抽取了一个具体的样本,用该样本所构造的区间是 一个特定的常数区间,我们无法知道这个样本所产生 的区间是否包含总体参数的真值,因为它可能是包含 总体均值的区间中的一个,也可能是未包含总体均值 的那一个
5 - 16
2020-4-8
统计学
STATISTICS (第五版)
点估计值
置信区间的表述
(95%的置信区间)
☺ 我没有抓住参数!
从均值为185的总体中抽出n=10的20个样本构造出的20个置信区间
5 - 17
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
5.1 参数估计的基本原理
5.1.1 点估计与区间估计 5.1.2 评价估计量的标准
5.1 参数估计的基本原理 5.1.1 点估计与区间估计
统计学
STBiblioteka BaiduTISTICS (第五版)
估计量与估计值
(estimator & estimated value)
1. 参数估计(parameter estimation)就是用样本统计 量去估计总体的参数
统计学
STATISTICS (第五版)
学习目标
参数估计的基本原理 点估计与区间估计 评价估计量优良性的标准 一个总体参数的区间估计方法 两个总体参数的区间估计方法 样本量的确定方法
5-4
2020-4-8
统计学
STATISTICS (第五版)
大学生每周上网花多少时间?
➢ 为了解学生每周上网花费的时间,中国人民大学公 共管理学院的4名本科生对全校部分本科生做了问 卷调查。调查的对象为中国人民大学在校本科生, 调查内容包括上网时间、途径、支出、目的、关心 的校园网内容,以及学生对收费的态度,包括收费 方式、价格等
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(小样本的估计)
解:已知X~N(,102),n=25, 1- = 95%,z/2=1.96 。根据样本数据计算得:x 105.36。由于是正态总 体,且方差已知。总体均值在1-置信水平下的
置信区间为
x z 2
n
105.36 1.96
1. 使用一个较大的置信水平会得到一个比较宽的置信区 间,而使用一个较大的样本则会得到一个较准确(较 窄)的区间。直观地说,较宽的区间会有更大的可能 性包含参数
2. 但实际应用中,过宽的区间往往没有实际意义
比如,天气预报说“在一年内会下一场雨”,虽然这很有 把握,但有什么意义呢?另一方面,要求过于准确(过窄) 的区间同样不一定有意义,因为过窄的区间虽然看上去很 准确,但把握性就会降低,除非无限制增加样本量,而现 实中样本量总是有限的
统计学 数据分析
(方法与案例)
作者 贾俊平
统计学
STATISTICS (第五版)
统计名言
不象其他科学,统计从来不打算使 自己完美无缺,统计意味着你永远 不需要确定无疑。
—— Gudmund R.Iversen
5-2
2020-4-8
第 5 章 数值变量的推断—参数估计
5.1 参数估计的基本原理 5.2 一个总体参数的区间估计 5.3 两个总体参数的区间估计 5.4 样本量的确定
总体均值的区间估计
(小样本的估计)
【例5-2】一家食品生产企业以生产袋装食品为主,为对产量 质量进行监测,企业质检部门经常要进行抽检,以分析每袋 重量是否符合要求。现从某天生产的一批食品中随机抽取了 25袋,测得每袋重量如下表所示。已知产品重量的分布服从 正态分布,且总体标准差为10克。试估计该批产品平均重量 的置信区间,置信水平为95%
总体均值的区间估计
(小样本的估计)
1. 假定条件
总体服从正态分布,但方差(2) 未知
小样本 (n < 30)
2. 使用 t 分布统计量
t x ~ t(n 1)
sn
3. 总体均值 在1-置信水平下的置信区间为
x t 2
s n
5 - 30
2020-4-8
统计学
STATISTICS (第五版)
5 - 10
2020-4-8
统计学
STATISTICS (第五版)
区间估计
(interval estimate)
1. 在点估计的基础上,给出总体参数估计的一个估计 区间,该区间由样本统计量加减估计误差而得到
2. 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量
比如,某班级平均分数在75~85之间,置信水平是95%
5 - 11
2020-4-8
统计学
STATISTICS (第五版)
区间估计的图示
5 - 12
2020-4-8
统计学
STATISTICS (第五版)
置信水平
(confidence level)
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例,也称置信度
2. 表示为 (1 -
3. 总体均值在置信水平下的置信区间可一般性地表 达为
样本均值±分位数值×样本均值的标准误差
5 - 26
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(大样本的估计)
1. 假定条件
总体服从正态分布,且方差(2) 已知
如果不是正态分布,可由正态分布来近似 (n 30)
2
样本统计量
x p s2
2020-4-8
统计学
STATISTICS (第五版)
总体均值区间的一般表达式
1. 总体均值的置信区间是由样本均值加减估计误差 得到的
2. 估计误差由两部分组成:一是点估计量的标准误 差,它取决于样本统计量的抽样分布。二是估计 时所要的求置信水平为时,统计量分布两侧面积 为的分位数值,它取决于事先所要求的可靠程度
36个投保人年龄的数据
23
35
39
27
36
44
36
42
46
43
31
33
42
53
45
54
47
24
34
28
39
36
44
40
39
49
38
34
48
50
34
39
45
48
45
32
5 - 28
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(大样本的估计)
解:已知n=36, 1- = 90%,z/2=1.645。根据样本数
5 - 14
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
1. 总体参数的真值是固定的,而用样本构造的区 间则是不固定的,因此置信区间是一个随机区 间,它会因样本的不同而变化,而且不是所有 的区间都包含总体参数
2. 实际估计时往往只抽取一个样本,此时所构造 的是与该样本相联系的一定置信水平(比如95%) 下的置信区间。我们只能希望这个区间是大量 包含总体参数真值的区间中的一个,但它也可 能是少数几个不包含参数真值的区间中的一个
112.5 102.6 100.0 116.6 136.8
5 - 31
101.0 107.5 123.5
95.4 102.8
25袋食品的重量 103.0 95.0 102.0 97.8 101.5
102.0 108.8 101.6 108.6
98.4
100.5 115.6 102.2 105.0
93.3
2. 统计学家在某种程度上确信这个区间会包含真正 的总体参数,所以给它取名为置信区间
3. 如果用某种方法构造的所有区间中有95%的区间 包含总体参数的真值,5%的区间不包含总体参数 的真值,那么,用该方法构造的区间称为置信水 平为95%的置信区间。同样,其他置信水平的区 间也可以用类似的方式进行表述
5.2 一个总体参数的区间估计
5.2.1 总体均值的区间估计 5.2.2 总体比例的区间估计 5.2.3 总体方差的区间估计
5.2 一个总体参数估计的区间估计 5.2.1 总体均值的区间估计
统计学
STATISTICS (第五版)
一个总体参数的区间估计
总体参数 均值 比例 方差
5 - 25
符号表示
2. 一个特定的区间总是“包含”或“绝对不包含”参数 的真值,不存在“以多大的概率包含总体参数”的问 题
3. 置信水平只是告诉我们在多次估计得到的区间中大概 有多少个区间包含了参数的真值,而不是针对所抽取 的这个样本所构建的区间而言的
4. 正确的表述:计算置信水平为95%的置信区间是一种 方法,该方法使得区间以95%的概率覆盖总体参数
有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效
5 - 21
2020-4-8
统计学
STATISTICS (第五版)
一致性
(consistency)
一致性:随着样本量的增大,估计量的 值越来越接近被估计的总体参数
5 - 22
2020-4-8
第 5 章 参数估计
如样本均值,样本比例,样本方差等
例如: 样本均值就是总体均值 的一个估计量
3. 参数用 表示,估计量用 ˆ 表示
4. 估计值:估计参数时计算出来的统计量的具体值
如果样本均值 x =80,则80就是 的估计值
5-9
2020-4-8
统计学
STATISTICS (第五版)
2. 使用正态分布统计量 z z x ~ N (0,1) n
3. 总体均值 在1- 置信水平下的置信区间为
x z 2 n
或 x z 2
s ( 未知)
n
5 - 27
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(大样本的估计)
【例5-1】一家保险公司收集到由36个投保人组成的 随机样本,得到每个投保人的年龄(单位:周岁)数据 如下表。试建立投保人年龄90%的置信区间
➢ 问卷调查由调查员直接到宿舍发放并当场回收。对 四个年级中每年级各发60份问卷,其中男、女生各 30份。共收回有效问卷共200份。其中有关上网时 间方面的数据经整理如下表所示
5-5
2020-4-8
统计学
STATISTICS (第五版)
大学生每周上网花多少时间?
回答类别
人数(人)
频率(%)
3小时以下
32
16
3~6小时
35
17.5
6~9小时
33
16.5
9~12小时
29
14.5
12小时以上
71
35.5
合计
200
100
平均上网时间为8.58小时,标准差为0.69小时。全校学生每周 的平均上网时间是多少?每周上网时间在12小时以上的学生比 例是多少?你做出估计的理论依据是什么?
5-6
2020-4-8
第 5 章 参数估计
据计算得:x 39.5 ,s 7.77
总体均值在1- 置信水平下的置信区间为
x z 2
s 39.5 1.645 7.77
n
36
39.5 2.13
37.37,41.63
投保人平均年龄的置信区间为37.37岁~41.63岁
5 - 29
2020-4-8
统计学
STATISTICS (第五版)
10 25
105.36 3.92
101.44,109.28
该食品平均重量的置信区间为101.44g~109.28g
5 - 32
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(小样本的估计)
【例5-3】已知某种灯泡的寿命服从正态分布,现从 一批灯泡中随机抽取16只,测得其使用寿命(单位:h) 如下。建立该批灯泡平均使用寿命95%的置信区间
点估计
(point estimate)
1. 用样本的估计量的某个取值直接作为总体参 数的估计值
▪ 例如:用样本均值直接作为总体均值的估计;用 两个样本均值之差直接作为总体均值之差的估计
2. 无法给出估计值接近总体参数程度的信息
由于样本是随机的,抽出一个具体的样本得到的 估计值很可能不同于总体真值
一个点估计量的可靠性是由它的抽样标准误差来 衡量的,这表明一个具体的点估计值无法给出估 计的可靠性的度量
为是总体参数未在区间内的比例
3. 常用的置信水平值有 99%, 95%, 90%
相应的 为0.01,0.05,0.10
5 - 13
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
1. 由样本估计量构造出的总体参数在一定置信水平 下的估计区间
3. 区间估计总是要给结论留点儿余地
5 - 18
2020-4-8
5.1 参数估计的基本原理 5.1.2 评价估计量的标准
统计学
STATISTICS (第五版)
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数
5 - 20
2020-4-8
统计学
STATISTICS (第五版)
5 - 15
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
1. 当抽取了一个具体的样本,用该样本所构造的区间是 一个特定的常数区间,我们无法知道这个样本所产生 的区间是否包含总体参数的真值,因为它可能是包含 总体均值的区间中的一个,也可能是未包含总体均值 的那一个
5 - 16
2020-4-8
统计学
STATISTICS (第五版)
点估计值
置信区间的表述
(95%的置信区间)
☺ 我没有抓住参数!
从均值为185的总体中抽出n=10的20个样本构造出的20个置信区间
5 - 17
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
5.1 参数估计的基本原理
5.1.1 点估计与区间估计 5.1.2 评价估计量的标准
5.1 参数估计的基本原理 5.1.1 点估计与区间估计
统计学
STBiblioteka BaiduTISTICS (第五版)
估计量与估计值
(estimator & estimated value)
1. 参数估计(parameter estimation)就是用样本统计 量去估计总体的参数
统计学
STATISTICS (第五版)
学习目标
参数估计的基本原理 点估计与区间估计 评价估计量优良性的标准 一个总体参数的区间估计方法 两个总体参数的区间估计方法 样本量的确定方法
5-4
2020-4-8
统计学
STATISTICS (第五版)
大学生每周上网花多少时间?
➢ 为了解学生每周上网花费的时间,中国人民大学公 共管理学院的4名本科生对全校部分本科生做了问 卷调查。调查的对象为中国人民大学在校本科生, 调查内容包括上网时间、途径、支出、目的、关心 的校园网内容,以及学生对收费的态度,包括收费 方式、价格等
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(小样本的估计)
解:已知X~N(,102),n=25, 1- = 95%,z/2=1.96 。根据样本数据计算得:x 105.36。由于是正态总 体,且方差已知。总体均值在1-置信水平下的
置信区间为
x z 2
n
105.36 1.96
1. 使用一个较大的置信水平会得到一个比较宽的置信区 间,而使用一个较大的样本则会得到一个较准确(较 窄)的区间。直观地说,较宽的区间会有更大的可能 性包含参数
2. 但实际应用中,过宽的区间往往没有实际意义
比如,天气预报说“在一年内会下一场雨”,虽然这很有 把握,但有什么意义呢?另一方面,要求过于准确(过窄) 的区间同样不一定有意义,因为过窄的区间虽然看上去很 准确,但把握性就会降低,除非无限制增加样本量,而现 实中样本量总是有限的
统计学 数据分析
(方法与案例)
作者 贾俊平
统计学
STATISTICS (第五版)
统计名言
不象其他科学,统计从来不打算使 自己完美无缺,统计意味着你永远 不需要确定无疑。
—— Gudmund R.Iversen
5-2
2020-4-8
第 5 章 数值变量的推断—参数估计
5.1 参数估计的基本原理 5.2 一个总体参数的区间估计 5.3 两个总体参数的区间估计 5.4 样本量的确定
总体均值的区间估计
(小样本的估计)
【例5-2】一家食品生产企业以生产袋装食品为主,为对产量 质量进行监测,企业质检部门经常要进行抽检,以分析每袋 重量是否符合要求。现从某天生产的一批食品中随机抽取了 25袋,测得每袋重量如下表所示。已知产品重量的分布服从 正态分布,且总体标准差为10克。试估计该批产品平均重量 的置信区间,置信水平为95%
总体均值的区间估计
(小样本的估计)
1. 假定条件
总体服从正态分布,但方差(2) 未知
小样本 (n < 30)
2. 使用 t 分布统计量
t x ~ t(n 1)
sn
3. 总体均值 在1-置信水平下的置信区间为
x t 2
s n
5 - 30
2020-4-8
统计学
STATISTICS (第五版)
5 - 10
2020-4-8
统计学
STATISTICS (第五版)
区间估计
(interval estimate)
1. 在点估计的基础上,给出总体参数估计的一个估计 区间,该区间由样本统计量加减估计误差而得到
2. 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量
比如,某班级平均分数在75~85之间,置信水平是95%
5 - 11
2020-4-8
统计学
STATISTICS (第五版)
区间估计的图示
5 - 12
2020-4-8
统计学
STATISTICS (第五版)
置信水平
(confidence level)
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例,也称置信度
2. 表示为 (1 -
3. 总体均值在置信水平下的置信区间可一般性地表 达为
样本均值±分位数值×样本均值的标准误差
5 - 26
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(大样本的估计)
1. 假定条件
总体服从正态分布,且方差(2) 已知
如果不是正态分布,可由正态分布来近似 (n 30)
2
样本统计量
x p s2
2020-4-8
统计学
STATISTICS (第五版)
总体均值区间的一般表达式
1. 总体均值的置信区间是由样本均值加减估计误差 得到的
2. 估计误差由两部分组成:一是点估计量的标准误 差,它取决于样本统计量的抽样分布。二是估计 时所要的求置信水平为时,统计量分布两侧面积 为的分位数值,它取决于事先所要求的可靠程度
36个投保人年龄的数据
23
35
39
27
36
44
36
42
46
43
31
33
42
53
45
54
47
24
34
28
39
36
44
40
39
49
38
34
48
50
34
39
45
48
45
32
5 - 28
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(大样本的估计)
解:已知n=36, 1- = 90%,z/2=1.645。根据样本数
5 - 14
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
1. 总体参数的真值是固定的,而用样本构造的区 间则是不固定的,因此置信区间是一个随机区 间,它会因样本的不同而变化,而且不是所有 的区间都包含总体参数
2. 实际估计时往往只抽取一个样本,此时所构造 的是与该样本相联系的一定置信水平(比如95%) 下的置信区间。我们只能希望这个区间是大量 包含总体参数真值的区间中的一个,但它也可 能是少数几个不包含参数真值的区间中的一个
112.5 102.6 100.0 116.6 136.8
5 - 31
101.0 107.5 123.5
95.4 102.8
25袋食品的重量 103.0 95.0 102.0 97.8 101.5
102.0 108.8 101.6 108.6
98.4
100.5 115.6 102.2 105.0
93.3
2. 统计学家在某种程度上确信这个区间会包含真正 的总体参数,所以给它取名为置信区间
3. 如果用某种方法构造的所有区间中有95%的区间 包含总体参数的真值,5%的区间不包含总体参数 的真值,那么,用该方法构造的区间称为置信水 平为95%的置信区间。同样,其他置信水平的区 间也可以用类似的方式进行表述
5.2 一个总体参数的区间估计
5.2.1 总体均值的区间估计 5.2.2 总体比例的区间估计 5.2.3 总体方差的区间估计
5.2 一个总体参数估计的区间估计 5.2.1 总体均值的区间估计
统计学
STATISTICS (第五版)
一个总体参数的区间估计
总体参数 均值 比例 方差
5 - 25
符号表示
2. 一个特定的区间总是“包含”或“绝对不包含”参数 的真值,不存在“以多大的概率包含总体参数”的问 题
3. 置信水平只是告诉我们在多次估计得到的区间中大概 有多少个区间包含了参数的真值,而不是针对所抽取 的这个样本所构建的区间而言的
4. 正确的表述:计算置信水平为95%的置信区间是一种 方法,该方法使得区间以95%的概率覆盖总体参数
有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效
5 - 21
2020-4-8
统计学
STATISTICS (第五版)
一致性
(consistency)
一致性:随着样本量的增大,估计量的 值越来越接近被估计的总体参数
5 - 22
2020-4-8
第 5 章 参数估计