第7章 参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
p p(1 p) 0.651 0.65 n 100
p(1 p) n
4)
构建置信区间:
p z 2 0.65(1 0.65) 100 55.65%,74.35% 65% 1.96
以95%的概率估计,该城市下岗职 工中女性比例的置信区间为 55.65%~74.35% 。
p
1 p(1 p) n n
4.计算置信上下限,得出估计区间。
例题分析
【例】某城市想 要估计下岗职工 中女性所占的比 例,随机抽取了 100个下岗职工, 其中65人为女性 职工。试以95% 的置信水平估计 该城市下岗职工 中女性比例的置 信区间。
解: 1) 求样本比例 p=65/100=65% 2) 根据 1-= 95%,查表得z0.025=1.96 3) 求样本比例的标准差:
2)区间估计
给出总体参数估计的一个区间范围,该区间由样本 统计量加减抽样误差(边际误差)得到。
(区间估计的基本原理 :167.161页。)
根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量 比如,某班级平均分数在75~85之间,置信水平 是95% 样本统计量 置信区间
解: 已知 =2000,E=400, 1-=95% 查表得z/2=1.96 置信度为90%的置信区间为
2. 估计总体比例时确定样本容量的公式
重复抽样
n Z P (1 P ) 2 E 2
不重复抽样
n
Z NP(1 P) 2 2 E N Z P(1 P)
2
式中:
E z
(1 )
置信水平% 90 95 95.45 99 双测概率 α 0.10 0.05 0.0455 0.01 右侧概率α/2 0.05 0.025 0.005 临界值zσ/2 1.645 1.96 2.00 2.58
影响置信区间宽度的因素
1.总体数据的离散程度,用 来测度 2.样本容量 3.置信水平 (1 - ),影响 z 的大小
36个投保人年龄的数据
23 36 42
35 42 53
39 46 45
27 43 54
36 31 47
44 33 24
34
39 34
28
49 39
39
38 45
36
34 48
44
48 45
40
50 32
解:已知n =36, 1- = 90% 1) 确定z值, z/2= z0.05 =1.645
1.估计总体均值时确定样本容量的公式:
n Z 2 E
2
2
2
重复抽样
不重复抽样
Z N n 2 2 2 E NZ
2
式中: E z 2
n
【例】拥有工商 管理硕士学位的 毕业生年薪的标 2 2 准差大约为2000 (z ) 2 n 2 元,假定想要估 E 计年薪95%的置 2 2 (1.96) 2000 信区间,希望边 2 400 际误差为400元, 96.04 97 应抽取多大的样 即应抽取97人作为样本。 本容量?
n 1476.8,1503.2 x t0.025 1490 2.131 6.1925
即:以95%的概率估计,该种灯泡平均使用寿命的 置信区间为1476.8小时~1503.2小时。
不同情况总体均值的区间估计
总体分布 样本容量
大样本 (n>=30)
已知
x z / 2
未知
Z P
(1 )
n
~ N (0,1)
根据正态分布的性质可以构造出总体比例在1–α 置信水平下的置信间为 :
pZ /2 (1 ) n
实际上π 未知,可以样本的比例替代,所以总体 比例的置信区间可表示为:
pZ
/2
p(1 p) n
构建总体比例估计区间的步骤
1.计算样本的比例; 2.确定置信水平、z值; 3.计算样本比例的标准差:
置信区间是一个随机区间,它会因样本 的不同而不同,而且不是所有的区间都 包含总体参数的真值。
7.2 一个总体参数的区间估计
百度文库
总体均值的区间估计 正态总体、方差巳知 正态总体、方差未知 总体比率的区间估计
7.2.1 总体均值的区间估计
1.正态总体、方差巳知 或非正态总体、大样本 根据正态分布的性质可以构造出总体均值μ 在 1–α 置信水平下的置信间为
指标名称 均值 比例 方差
总体参数
样本统计量
X
2
P
S
2
7.1.1 估计量与估计值
估计量:用于估计总体参数的样本指标 如样本均值,样本比例、样本方差等 ˆ 总体参数用 表示,估计量用 表示 估计值:统计量的具体值 如果样本均值 x =80,则80就是的估计值
7.1.2 评价估计量的标准
Z
t 分布与标准正态分布的比较
X
不同自由度的t分布
t
例题分析
【例】已知某种灯泡的寿命服从正态分布,现从一 批灯泡中随机抽取16只,测得其使用寿命(小时)如下 。建立该批灯泡平均使用寿命95%的置信区间。
16灯泡使用寿命的数据 1510 1450 1480 1520 1480 1490 1480 1510 1530 1500 1520 1510
x t s
/2
n
/2
应根据概率α 查t分布表(456页)求t
值。
t 分布
t分布是类似正态分布的一种对称分布,它通常要比 正态分布平坦和分散。一个特定的分布依赖于称之 为自由度的参数。随着自由度的增大,分布也逐渐 趋于正态分布
标准正态分布
标准正态分布
t (df = 13)
t 分布
t (df = 5)
即:以 90%的概率估计,投保人平均年龄的置信区间 为37.37岁~41.63岁
2. 正态总体、方差未知、小样本
由于用样本方差计算的标准值服从自由度为 n-1的t分布,使用 t 分布统计量
t X S n ~ t (n 1)
根据t分布建立的总体均值μ 在1–α 置信水平 下的置信区间为
n
x z / 2
s n s n
正态分布
小样本 (n<30)
x z / 2
n
x z / 2
非正态分布 大样本
(n>=30)
x t / 2
s n
x t / 2
s n
7.2.2 总体比例的区间估计
假定条件 当样本容量很大(np大于或等于5)时,样 本比例的抽样分布可由正态分布来近似。 样本比例经标准化后的随机变量Z服从标准 正态分布,即:
7.3.3 应注意的问题
例:
一所大学的保健医生想了解学生戴眼镜 的比例,随即抽取了100名学生,其中戴 眼镜的有31人。取置信度为90%,求全校 学生戴眼镜比例的置信区间。 解:p=31%;
Z0.05 =1.65;
p
区间:23.4%——38.6%。
1 n
课堂练习
某广告公司进行一项空调用户特点的调查。从 装有空调的家庭中随机抽取300户,其中年人 均收入超过了7000元的有170户;从未装空调 的家庭中随机抽取了200户,其中年人均收入 超过了7000元的有46户。试对已装空调和未装 空调的两种家庭年人均生活费收入超过7000元 的比例做区间估计(置信度为95%)。
(点估计)
置信下限
置信上限
区间估计的图示
X z 2 X
- 2.58x -1.65 x
X
+1.65x + 2.58x
X
-1.96 x
+1.96x
90%的样本 95% 的样本 99% 的样本
置信区间
由样本统计量所构造的总体参数的估计 区间称为置信区间 区间的最小值称为置信下限,最大值称 为置信上限。
2) 计算样本的均值和标准差
x 39.5
2 n
s 7.77
n S n
3) 计算样本均值的方差、标准差:
x
4) 总体均值在1-置信水平下的置信区间为
s 7.77 39.5 1.645 2 n 36 39.5 2.13 x z
37.37,41.63
置信区间与置信水平
均值的抽样分布
/2
x
1-
/2
x
(1 - ) % 区间包含了
X
% 的区间未包含
正态分布曲线下右侧面积
将构造置信区间的步骤重复多次,置信区间中包 含总体参数真值的次数所占的比率称为置信水平, 或称为置信系数。 比较常用的置信水平及正态分布曲线下右侧面积 为α /2时的z值zσ /2如下表所示。
第7章 参数估计
主要内容
一、参数估计的一般问题 二、总体均值的估计 总体比例的估计 三、必要样本容量的确定
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
参数估计
假设检验
7.1 参数估计的一般问题
一. 估计量与估计值 二. 评价估计量的标准 三. 点估计与区间估计
参数估计是用实际调查的样本指标来估 计相应的总体指标的数值,由于总体指 标是反映总体数量特征的参数,例如总 体平均数、标准差、比例等,所以叫参 数估计。
随着样本容量的增大,估计量的 值越来越接近被估计的总体参数
ˆ P( )
较大的样本容量
B A
较小的样本容量
ˆ
7.1.3 参数估计的方法
估 计 方 法
点
估
计
区间估计
1)点估计
点估计就用样本的估计量直接作为总体参 数的估计值 优点:简单、具体明确。 缺点:无法说明估计结果的误差大小;无 法说明估计结果的把握程度。
1.无偏性
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数。 样本的 x 、p是总体均值和比例的无偏估计量。
ˆ P( )
无偏 有偏
A
B
ˆ
2.有效性
对同一总体参数的两个无偏估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
3.一致性
影响置信区间宽度(估计结果的准确程度) 的主要因素 1.总体数据的离散程度,用 来测度
2.样本容量, X n
3.置信水平 (1 - ),影响 z 的大小
7.3
必要样本容量的确定
一、必要样本容量的影响因素 二、必要样本容量的确定 三、应注意的问题
7.3.1影响必要样本容量的因素
n ( z 2 ) 2 (1 )
E2 (1.96) 2 0.9 (1 0.9) 0.05 2 138.3 139
应抽取139个产品作为样本
课堂练习
据统计,具有工商管理学士学位的大学 毕业生年薪的标准差约为2000元,假定 想要以95%的置信水平估计年薪的置信区 间,希望的误差范围为400元,应抽取多 少具有工商管理学士学位的大学毕业生 做调查? •应抽取97人。
x z / 2
n
x z / 2
s n
构建估计区间步骤
1.计算样本的均值 X 和标准差 S 2 ; 2.确定置信水平1–α 、z值; 3.计算样本均值的方差、标准差:
2 x n 2
x n n 2
4.计算置信上下限,得出估计区间。
例题分析
【例】一家保险公司收集到由36投保个人组成的随 机样本,得到每个投保人的年龄(周岁)数据如下表。 试建立投保人年龄90%的置信区间。
1460
1460
1470
1470
解:已知X~N(,2),n=16, 1- = 95%, 1) 查t分布表(456页):t0.0.25(n-1)=2.131 2) 根据样本数据计算得:
x 1490
3) 4)
s 24.77
样本均值的标准差: x
24.77 6.1925 16
总体均值在95%置信水平下的置信区间为
2
n
1. 2.
E的取值一般小于0.1 未知时,可取最大值0.5
例题分析
【例】根据以往
的生产统计,某 种产品的合格率 约为90%,现要 求边际误差为5% ,在求95%的置 信区间时,应抽 取多少个产品作 为样本?
解:已知=90%,E=5%,1-=0.95, 查表得Z/2=1.96,
应抽取的样本容量为
1.总体各单位标志值变异程度(2)的大小,与样本容量成 正比。 2. 边际误差(抽样误差范围) E ,与样本容量成反比。 3.置信程度(水平)1-a,Z或t ,与样本容量成正比。
4.抽样的组织形式和方法。
应合理地确定边际误差和置信程度,选择合适的抽 样的组织形式和方法
7.3.2 必要样本容量的确定
p(1 p) n
4)
构建置信区间:
p z 2 0.65(1 0.65) 100 55.65%,74.35% 65% 1.96
以95%的概率估计,该城市下岗职 工中女性比例的置信区间为 55.65%~74.35% 。
p
1 p(1 p) n n
4.计算置信上下限,得出估计区间。
例题分析
【例】某城市想 要估计下岗职工 中女性所占的比 例,随机抽取了 100个下岗职工, 其中65人为女性 职工。试以95% 的置信水平估计 该城市下岗职工 中女性比例的置 信区间。
解: 1) 求样本比例 p=65/100=65% 2) 根据 1-= 95%,查表得z0.025=1.96 3) 求样本比例的标准差:
2)区间估计
给出总体参数估计的一个区间范围,该区间由样本 统计量加减抽样误差(边际误差)得到。
(区间估计的基本原理 :167.161页。)
根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量 比如,某班级平均分数在75~85之间,置信水平 是95% 样本统计量 置信区间
解: 已知 =2000,E=400, 1-=95% 查表得z/2=1.96 置信度为90%的置信区间为
2. 估计总体比例时确定样本容量的公式
重复抽样
n Z P (1 P ) 2 E 2
不重复抽样
n
Z NP(1 P) 2 2 E N Z P(1 P)
2
式中:
E z
(1 )
置信水平% 90 95 95.45 99 双测概率 α 0.10 0.05 0.0455 0.01 右侧概率α/2 0.05 0.025 0.005 临界值zσ/2 1.645 1.96 2.00 2.58
影响置信区间宽度的因素
1.总体数据的离散程度,用 来测度 2.样本容量 3.置信水平 (1 - ),影响 z 的大小
36个投保人年龄的数据
23 36 42
35 42 53
39 46 45
27 43 54
36 31 47
44 33 24
34
39 34
28
49 39
39
38 45
36
34 48
44
48 45
40
50 32
解:已知n =36, 1- = 90% 1) 确定z值, z/2= z0.05 =1.645
1.估计总体均值时确定样本容量的公式:
n Z 2 E
2
2
2
重复抽样
不重复抽样
Z N n 2 2 2 E NZ
2
式中: E z 2
n
【例】拥有工商 管理硕士学位的 毕业生年薪的标 2 2 准差大约为2000 (z ) 2 n 2 元,假定想要估 E 计年薪95%的置 2 2 (1.96) 2000 信区间,希望边 2 400 际误差为400元, 96.04 97 应抽取多大的样 即应抽取97人作为样本。 本容量?
n 1476.8,1503.2 x t0.025 1490 2.131 6.1925
即:以95%的概率估计,该种灯泡平均使用寿命的 置信区间为1476.8小时~1503.2小时。
不同情况总体均值的区间估计
总体分布 样本容量
大样本 (n>=30)
已知
x z / 2
未知
Z P
(1 )
n
~ N (0,1)
根据正态分布的性质可以构造出总体比例在1–α 置信水平下的置信间为 :
pZ /2 (1 ) n
实际上π 未知,可以样本的比例替代,所以总体 比例的置信区间可表示为:
pZ
/2
p(1 p) n
构建总体比例估计区间的步骤
1.计算样本的比例; 2.确定置信水平、z值; 3.计算样本比例的标准差:
置信区间是一个随机区间,它会因样本 的不同而不同,而且不是所有的区间都 包含总体参数的真值。
7.2 一个总体参数的区间估计
百度文库
总体均值的区间估计 正态总体、方差巳知 正态总体、方差未知 总体比率的区间估计
7.2.1 总体均值的区间估计
1.正态总体、方差巳知 或非正态总体、大样本 根据正态分布的性质可以构造出总体均值μ 在 1–α 置信水平下的置信间为
指标名称 均值 比例 方差
总体参数
样本统计量
X
2
P
S
2
7.1.1 估计量与估计值
估计量:用于估计总体参数的样本指标 如样本均值,样本比例、样本方差等 ˆ 总体参数用 表示,估计量用 表示 估计值:统计量的具体值 如果样本均值 x =80,则80就是的估计值
7.1.2 评价估计量的标准
Z
t 分布与标准正态分布的比较
X
不同自由度的t分布
t
例题分析
【例】已知某种灯泡的寿命服从正态分布,现从一 批灯泡中随机抽取16只,测得其使用寿命(小时)如下 。建立该批灯泡平均使用寿命95%的置信区间。
16灯泡使用寿命的数据 1510 1450 1480 1520 1480 1490 1480 1510 1530 1500 1520 1510
x t s
/2
n
/2
应根据概率α 查t分布表(456页)求t
值。
t 分布
t分布是类似正态分布的一种对称分布,它通常要比 正态分布平坦和分散。一个特定的分布依赖于称之 为自由度的参数。随着自由度的增大,分布也逐渐 趋于正态分布
标准正态分布
标准正态分布
t (df = 13)
t 分布
t (df = 5)
即:以 90%的概率估计,投保人平均年龄的置信区间 为37.37岁~41.63岁
2. 正态总体、方差未知、小样本
由于用样本方差计算的标准值服从自由度为 n-1的t分布,使用 t 分布统计量
t X S n ~ t (n 1)
根据t分布建立的总体均值μ 在1–α 置信水平 下的置信区间为
n
x z / 2
s n s n
正态分布
小样本 (n<30)
x z / 2
n
x z / 2
非正态分布 大样本
(n>=30)
x t / 2
s n
x t / 2
s n
7.2.2 总体比例的区间估计
假定条件 当样本容量很大(np大于或等于5)时,样 本比例的抽样分布可由正态分布来近似。 样本比例经标准化后的随机变量Z服从标准 正态分布,即:
7.3.3 应注意的问题
例:
一所大学的保健医生想了解学生戴眼镜 的比例,随即抽取了100名学生,其中戴 眼镜的有31人。取置信度为90%,求全校 学生戴眼镜比例的置信区间。 解:p=31%;
Z0.05 =1.65;
p
区间:23.4%——38.6%。
1 n
课堂练习
某广告公司进行一项空调用户特点的调查。从 装有空调的家庭中随机抽取300户,其中年人 均收入超过了7000元的有170户;从未装空调 的家庭中随机抽取了200户,其中年人均收入 超过了7000元的有46户。试对已装空调和未装 空调的两种家庭年人均生活费收入超过7000元 的比例做区间估计(置信度为95%)。
(点估计)
置信下限
置信上限
区间估计的图示
X z 2 X
- 2.58x -1.65 x
X
+1.65x + 2.58x
X
-1.96 x
+1.96x
90%的样本 95% 的样本 99% 的样本
置信区间
由样本统计量所构造的总体参数的估计 区间称为置信区间 区间的最小值称为置信下限,最大值称 为置信上限。
2) 计算样本的均值和标准差
x 39.5
2 n
s 7.77
n S n
3) 计算样本均值的方差、标准差:
x
4) 总体均值在1-置信水平下的置信区间为
s 7.77 39.5 1.645 2 n 36 39.5 2.13 x z
37.37,41.63
置信区间与置信水平
均值的抽样分布
/2
x
1-
/2
x
(1 - ) % 区间包含了
X
% 的区间未包含
正态分布曲线下右侧面积
将构造置信区间的步骤重复多次,置信区间中包 含总体参数真值的次数所占的比率称为置信水平, 或称为置信系数。 比较常用的置信水平及正态分布曲线下右侧面积 为α /2时的z值zσ /2如下表所示。
第7章 参数估计
主要内容
一、参数估计的一般问题 二、总体均值的估计 总体比例的估计 三、必要样本容量的确定
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
参数估计
假设检验
7.1 参数估计的一般问题
一. 估计量与估计值 二. 评价估计量的标准 三. 点估计与区间估计
参数估计是用实际调查的样本指标来估 计相应的总体指标的数值,由于总体指 标是反映总体数量特征的参数,例如总 体平均数、标准差、比例等,所以叫参 数估计。
随着样本容量的增大,估计量的 值越来越接近被估计的总体参数
ˆ P( )
较大的样本容量
B A
较小的样本容量
ˆ
7.1.3 参数估计的方法
估 计 方 法
点
估
计
区间估计
1)点估计
点估计就用样本的估计量直接作为总体参 数的估计值 优点:简单、具体明确。 缺点:无法说明估计结果的误差大小;无 法说明估计结果的把握程度。
1.无偏性
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数。 样本的 x 、p是总体均值和比例的无偏估计量。
ˆ P( )
无偏 有偏
A
B
ˆ
2.有效性
对同一总体参数的两个无偏估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
3.一致性
影响置信区间宽度(估计结果的准确程度) 的主要因素 1.总体数据的离散程度,用 来测度
2.样本容量, X n
3.置信水平 (1 - ),影响 z 的大小
7.3
必要样本容量的确定
一、必要样本容量的影响因素 二、必要样本容量的确定 三、应注意的问题
7.3.1影响必要样本容量的因素
n ( z 2 ) 2 (1 )
E2 (1.96) 2 0.9 (1 0.9) 0.05 2 138.3 139
应抽取139个产品作为样本
课堂练习
据统计,具有工商管理学士学位的大学 毕业生年薪的标准差约为2000元,假定 想要以95%的置信水平估计年薪的置信区 间,希望的误差范围为400元,应抽取多 少具有工商管理学士学位的大学毕业生 做调查? •应抽取97人。
x z / 2
n
x z / 2
s n
构建估计区间步骤
1.计算样本的均值 X 和标准差 S 2 ; 2.确定置信水平1–α 、z值; 3.计算样本均值的方差、标准差:
2 x n 2
x n n 2
4.计算置信上下限,得出估计区间。
例题分析
【例】一家保险公司收集到由36投保个人组成的随 机样本,得到每个投保人的年龄(周岁)数据如下表。 试建立投保人年龄90%的置信区间。
1460
1460
1470
1470
解:已知X~N(,2),n=16, 1- = 95%, 1) 查t分布表(456页):t0.0.25(n-1)=2.131 2) 根据样本数据计算得:
x 1490
3) 4)
s 24.77
样本均值的标准差: x
24.77 6.1925 16
总体均值在95%置信水平下的置信区间为
2
n
1. 2.
E的取值一般小于0.1 未知时,可取最大值0.5
例题分析
【例】根据以往
的生产统计,某 种产品的合格率 约为90%,现要 求边际误差为5% ,在求95%的置 信区间时,应抽 取多少个产品作 为样本?
解:已知=90%,E=5%,1-=0.95, 查表得Z/2=1.96,
应抽取的样本容量为
1.总体各单位标志值变异程度(2)的大小,与样本容量成 正比。 2. 边际误差(抽样误差范围) E ,与样本容量成反比。 3.置信程度(水平)1-a,Z或t ,与样本容量成正比。
4.抽样的组织形式和方法。
应合理地确定边际误差和置信程度,选择合适的抽 样的组织形式和方法
7.3.2 必要样本容量的确定