第7章 参数估计
合集下载
概率论与数理统计第7章参数估计PPT课件
5
a1(1, ,k )=v1
1 f1(v1, ,vk )
假定方程组a2(1, ,k ) v2 ,则可求出2 f2(v1, ,vk )
ak (1, ,k ) vk
k fk (v1, ,vk )
则x1 xn为X的样本值时,可用样本值的j阶原点矩Aj估计vj,其中
Aj
1 n
n i1
xij ( j
L(x1, ,xn;ˆ)maxL(x1, ,xn;),则称ˆ(x1, ,xn)为
的一种参数估计方法 .
它首先是由德国数学家
高斯在1821年提出的 ,然而, 这个方法常归功于英国统
Gauss
计学家费歇(Fisher) . 费歇在1922年重新发现了
这一方法,并首先研究了这
种方法的一些性质 .
Fisher
10
极大似然估计是在已知总体分布形式的情形下的 点估计。
极大似然估计的基本思路:根据样本的具体情况
注:估计量为样本的函数,样本不同,估计量不 同。
常用估计量构造法:矩估计法、极大似然估计法。
4
7.1.1 矩估计法
矩估计法是通过参数与总体矩的关系,解出参数, 并用样本矩替代总体矩而得到的参数估计方法。 (由大数定理可知样本矩依概率收敛于总体矩, 且许多分布所含参数都是矩的函数)
下面我们考虑总体为连续型随机变量的情况:
n
它是的函数,记为L(x1, , xn; ) f (xi , ), i 1
并称其为似然函数,记为L( )。
注:似然函数的概念并不仅限于连续随机变量 ,
对于离散型随机变量,用 P {Xx}p(x,)
替代f ( x, )
即可。
14
设总体X的分布形式已知,且只含一个未知参数,
a1(1, ,k )=v1
1 f1(v1, ,vk )
假定方程组a2(1, ,k ) v2 ,则可求出2 f2(v1, ,vk )
ak (1, ,k ) vk
k fk (v1, ,vk )
则x1 xn为X的样本值时,可用样本值的j阶原点矩Aj估计vj,其中
Aj
1 n
n i1
xij ( j
L(x1, ,xn;ˆ)maxL(x1, ,xn;),则称ˆ(x1, ,xn)为
的一种参数估计方法 .
它首先是由德国数学家
高斯在1821年提出的 ,然而, 这个方法常归功于英国统
Gauss
计学家费歇(Fisher) . 费歇在1922年重新发现了
这一方法,并首先研究了这
种方法的一些性质 .
Fisher
10
极大似然估计是在已知总体分布形式的情形下的 点估计。
极大似然估计的基本思路:根据样本的具体情况
注:估计量为样本的函数,样本不同,估计量不 同。
常用估计量构造法:矩估计法、极大似然估计法。
4
7.1.1 矩估计法
矩估计法是通过参数与总体矩的关系,解出参数, 并用样本矩替代总体矩而得到的参数估计方法。 (由大数定理可知样本矩依概率收敛于总体矩, 且许多分布所含参数都是矩的函数)
下面我们考虑总体为连续型随机变量的情况:
n
它是的函数,记为L(x1, , xn; ) f (xi , ), i 1
并称其为似然函数,记为L( )。
注:似然函数的概念并不仅限于连续随机变量 ,
对于离散型随机变量,用 P {Xx}p(x,)
替代f ( x, )
即可。
14
设总体X的分布形式已知,且只含一个未知参数,
第七章 参数估计
第三节 总体均数估计
估计总体平均数的步骤: 估计总体平均数的步骤: X与S 1、 计算样本 2、 计算 σ X 3、 确定置信水平或显著性水平并查表 4、计算置信区间 5、解释总体平均数的置信区间
一、正态估计法 , σ2已知 、
1、前题条件: 、前题条件:
总体正态, n不论大小 总体正态, n不论大小
点估计与区间估计的比较
定义: 定义
直接以样本统计量(数轴上的一个点) 点估计 :直接以样本统计量(数轴上的一个点) 作为总体参数的估计值
区间估计:按一定概率要求, 区间估计:按一定概率要求,根据样本统计量估 计总体参数可能落入的范围的一种统计方法。 计总体参数可能落入的范围的一种统计方法。也 就是说整体参数所落的有把握的范围 整体参数所落的有把握的范围。 就是说整体参数所落的有把握的范围。
D=0.95时 时
75.7 ≤ µ ≤ 81.3
5、解释:用样本1估计,总体的平均数落在 、解释:用样本1估计, 73.6-82.4之间的可能性为95%, 之间的可能性为95% 73.6-82.4之间的可能性为95%,超出这一范 围的可能性为5% 5%。 围的可能性为5%。 用样本2估计,总体的平均数落在76.7 80.3之 76.7用样本2估计,总体的平均数落在76.7-80.3之 间的可能性为95% 落在75.7 81.3的可能性为 95%, 75.7间的可能性为95%,落在75.7-81.3的可能性为 99%。 99%
X ± 2.58σ X
置信限:就是总体参数所落区间的上下界限。 置信限:就是总体参数所落区间的上下界限。即
X − 1.96σ X ≤ µ ≤ X + 1.96σ X
置信下限 置信上限
标准误
标准误(中心极限定理 ) 标准误(中心极限定理3)
概率论 第七章 参数估计
L( ) max L( )
称^为
的极大似然估计(MLE).
求极大似然估计(MLE)的一般步骤是:
(1) 由总体分布导出样本的联合概率分布 (或联合密度);
(2) 把样本联合概率分布(或联合密度)中自变 量看成已知常数,而把参数 看作自变量, 得到似然函数L( );
(3) 求似然函数L( ) 的最大值点(常常转化 为求ln L( )的最大值点) ,即 的MLE;
1. 将待估参数表示为总体矩的连续函数 2. 用样本矩替代总体矩,从而得到待估参
数的估计量。
四. 最大似然估计(极大似然法)
在总体分布类型已知条件下使用的一种 参数估计方法 .
首先由德国数学家高斯在1821年提出。 英国统计学家费歇1922年重新发现此
方法,并首先研究了此方法的一些性质 .
例:某位同学与一位猎人一起外出打猎.一只 野兔从前方窜过 . 一声枪响,野兔应声倒下 .
p值 P(Y=0) P(Y=1) P( Y=2) P(Y=3) 0.7 0.027 0.189 0.441 0.343 0.3 0.343 0.441 0.189 0.027
应如何估计p?
若:只知0<p<1, 实测记录是 Y=k
(0 ≤ k≤ n), 如何估计p 呢?
注意到
P(Y k) Cnk pk (1 p)nk = f (p)
第七章 参数估计
参数估计是利用从总体抽样得到的信息 估计总体的某些参数或参数的某些函数.
仅估 计一 个或 几个 参数.
估计新生儿的体重
估计废品率
估计降雨量
估计湖中鱼数
…
…
参数估计问题的一般提法:
设总体的分布函数为 F(x, ),其中为未 知参数 (可以是向量).从该总体抽样,得样本
第7章参数估计
31 100
假定A品牌袋装大米的重量服从正态分布,现随机抽取13袋大 米,测得其重量(单位:千克)分别为 ⎛ ⎞ 24, 24.2, 24.4, 24.6, 24.7, ⎝ 24.8, 25, 25.1, 25.1, 25.2, ⎠ 25.3, 25.4, 25.6. 分别计算该品牌袋装大米的重量的均值,及重量的标准差 的95%的置信区间。
4. 整理后,得到未知参数������的置信区间
参数估计的基本原理 点估计 区间估计 一个总体参数的区间估计 总体均值的区间估计 总体比例的区间估计 总体方差的区间估计 两个总体参数的区间估计 两个总体均值之差的区间估计 两个总体比例之差的区间估计 两个总体方差之比的区间估计 样本量������的确定 估计总体均值是样本量的确定 估计总体比例时是样本量的确定
一家食品生产企业以生产袋装食品为主,每天的产量大约 为8000袋左右。按规定每袋的重量应为100g。为了对产品质量进 行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符 合要求。现从某天生产的一批食品中随机抽取25袋,测得每袋重 量如下所示: 112.5 102.6 100 116.6 136.8 101 107.5 123.5 95.4 102.8 103 95 102 97.8 101.5 102 108.8 101.6 108.6 98.4 100.5 115.6 102.2 105 93.3
正态总体,������未知,因此应用公式①,即 ������ 2 ������ 2 方差的置信区间为[ ������(2������−(1) , ������2(������−1) ], ������ − 1) ( ������ −1) ������/2 1−������/2 √︂ √︂ ������ 2 ������ 2 标准差的置信区间为[ ������(2������−(1) , ������2(������−1) ]。 ������−1) (������−1)
概率第7章 参数估计
然而,这个方法常归功于 英国统 计学家费歇 . 费歇在1922年重新发现了 这一方 法,并首先研究了这 种方法的一些质 .
Gauss
Fisher
基本思想
甲.乙两人比较射击技术,分别射击目标一次,甲中而乙未中, 可以认为:甲射击技术优于乙射击技术. 事件A发生的概率为0.1或0.9,观察一次,事件A发生了, 可以认为:事件A发生的概率为0.9. 实际问题(医生看病、公安人员破案、技术人员进行质量 检验等)尽管千差万别,但他们具有一个共同的规律,即在 获得了观察资料之后,给参数选取一个数值,使得前面的观 察结果出现的可能性最大. 最大似然估计就是通过样本值 x1 , , x n 等数求得总体的 分布参数,使得 X1 ,, X n 取值为 x1 , , x n 的概率最大.
i
L( ) L( x1 , , x n ; ) f ( x i ; ),
i 1
n
的最大值,这里 ( )称为样本的似然函数 L .
ˆ 若 L( x 1 , , x n ; ) max L( x 1 , , x n ; )
ˆ 则称 ( x1 , , xn )为 的极大似然估计值 .
i
xi
在得到观测值 x1 , x 2 , , x n 的前提下,自然 应当选取使得 n
f ( x ; )dx
i i 1
i
达到最大的 值作为未知参数 的估计值.
因为当未知参数 等于这个值时,出现给 定的那个 样本观测值的可能性最 大.
但 dxi 不随 而变,故只需考虑:
3.期望和方差的点估计 在实际中,常常以样本均值作为总体均值的 点估计,以样本方差作为总体方差的点估计. 期望的点估计: (1)无偏性 1 n 选择估计量 X X i n i 1 (2)样本容量越大,估计值 越有效 方差的点估计:
Gauss
Fisher
基本思想
甲.乙两人比较射击技术,分别射击目标一次,甲中而乙未中, 可以认为:甲射击技术优于乙射击技术. 事件A发生的概率为0.1或0.9,观察一次,事件A发生了, 可以认为:事件A发生的概率为0.9. 实际问题(医生看病、公安人员破案、技术人员进行质量 检验等)尽管千差万别,但他们具有一个共同的规律,即在 获得了观察资料之后,给参数选取一个数值,使得前面的观 察结果出现的可能性最大. 最大似然估计就是通过样本值 x1 , , x n 等数求得总体的 分布参数,使得 X1 ,, X n 取值为 x1 , , x n 的概率最大.
i
L( ) L( x1 , , x n ; ) f ( x i ; ),
i 1
n
的最大值,这里 ( )称为样本的似然函数 L .
ˆ 若 L( x 1 , , x n ; ) max L( x 1 , , x n ; )
ˆ 则称 ( x1 , , xn )为 的极大似然估计值 .
i
xi
在得到观测值 x1 , x 2 , , x n 的前提下,自然 应当选取使得 n
f ( x ; )dx
i i 1
i
达到最大的 值作为未知参数 的估计值.
因为当未知参数 等于这个值时,出现给 定的那个 样本观测值的可能性最 大.
但 dxi 不随 而变,故只需考虑:
3.期望和方差的点估计 在实际中,常常以样本均值作为总体均值的 点估计,以样本方差作为总体方差的点估计. 期望的点估计: (1)无偏性 1 n 选择估计量 X X i n i 1 (2)样本容量越大,估计值 越有效 方差的点估计:
第7章参数估计
对于是非标志(即服从两点分布的变量)来说,若 将其具体表现分别用1、0数量化 ,成数就是其平 均数 是非标志的方差=P(1-P)
x 1 0
f P 1-p
x
xf f
1 p 0 (1 p) p (1 p)
p
2 (x x)2 f (1 p)2 p (0 p)2 (1 p)
f
p (1 p)
似然函数常简记为L或 L 1,2, ,k
未知参数的函数。
38
若有 ˆi (x1, x2,..., xn ) i 1, 2, k 使得
L x1, x2,..., xn;ˆ1, ˆ 2,
, ˆ k
max L (1 ,2 , ,k )
x1, x2,..., xn; 1, 2,
, k
则 ˆi (X1, X2,..., Xn) 为参数θi的极大似然估计量。
中选出一个使样本观察值出现的概率为最大的 ˆ 作
为θ的估计量。
称 ˆ 为θ 的极大似然估计量。
37
2.似然函数的数学表达式
设X1,X2,…Xn是取自总体X的一个样本,样本的联合密度 (连续型)或联合分布律 (离散型)为 :
f (x; 1,2 , , k )
定义似然函数为:
n
L L x1,..., xn; 1, 2, , k f xi; 1, 2, , k i 1 x1, x2 ,..., xn 给定的样本观察值
§7.1.4抽样误差
1.误差:调查结果与实际值之间的差异 抽样调查中的误差
登记性误差(非抽样误差) 误差代表性误差随系机统误误差差((抽非样抽误样差误)差)
2.抽样误差—由于抽样的随机性而产生的 样本指标对总体指标的代表性误差。抽样误 差可以计算并加以控制,但不可以避免。
x 1 0
f P 1-p
x
xf f
1 p 0 (1 p) p (1 p)
p
2 (x x)2 f (1 p)2 p (0 p)2 (1 p)
f
p (1 p)
似然函数常简记为L或 L 1,2, ,k
未知参数的函数。
38
若有 ˆi (x1, x2,..., xn ) i 1, 2, k 使得
L x1, x2,..., xn;ˆ1, ˆ 2,
, ˆ k
max L (1 ,2 , ,k )
x1, x2,..., xn; 1, 2,
, k
则 ˆi (X1, X2,..., Xn) 为参数θi的极大似然估计量。
中选出一个使样本观察值出现的概率为最大的 ˆ 作
为θ的估计量。
称 ˆ 为θ 的极大似然估计量。
37
2.似然函数的数学表达式
设X1,X2,…Xn是取自总体X的一个样本,样本的联合密度 (连续型)或联合分布律 (离散型)为 :
f (x; 1,2 , , k )
定义似然函数为:
n
L L x1,..., xn; 1, 2, , k f xi; 1, 2, , k i 1 x1, x2 ,..., xn 给定的样本观察值
§7.1.4抽样误差
1.误差:调查结果与实际值之间的差异 抽样调查中的误差
登记性误差(非抽样误差) 误差代表性误差随系机统误误差差((抽非样抽误样差误)差)
2.抽样误差—由于抽样的随机性而产生的 样本指标对总体指标的代表性误差。抽样误 差可以计算并加以控制,但不可以避免。
第7章 参数估计(小结与典型例题选讲)
估计量, 这个估计量称为矩估计 . 量
最大似然估计量
得到样本值 x1 , x2 ,, xn 时 , 选取使似然函数L( )
ˆ 取得最大值的 作为未知参数 的估计值, ˆ 即 L( x1 , x2 , , xn ; ) max L( x1 , x2 , , xn ; ).
( 其中 是 可能的取值范围)
P{ ( X 1 , X 2 ,, X n ) ( X 1 , X 2 ,, X n )} 1 ,
则称随机区间( , ) 是 的置信水平为1 的置信 区间, 和 分别称为置信水平为 的双侧置信 1 区间的置信下限和置信 上限, 1 为置信水平.
其中 Sw2
n1S12 n2 S2 2 , Sw Sw2 . n1 n2 2
1 2. 两个总体方差比 2 的置信区间 2 (1)总体均值 1 , 2 为已知的情况.
2
1 2 的一个置信水平为 1 的置信区间 2
2
m m 2 2 n ( X i 1 ) n ( X i 1 ) 1 1 i n1 . , i n1 F (m, n) F (m, n) m (Y j 2 ) 2 1 /2 m (Y j 2 ) 2 /2 j 1 j 1
ˆ Var[ p ] p(1 p) , 2 n ln f ( x; p) E p n
1 n ˆ 对于参数 p 的无偏估计量 p X X i , n i 1
1 n 1 n ˆ ] Var X i 2 Var[ X i ] Var[ p n i 1 n i 1
i 1
n
L( )称为样本似然函数 .
(07)第7章 参数估计
统计学
STATISTICS
第 7 章 参数估计
7.1 参数估计的一般问题 7.2 一个总体参数的区间估计 7.3 必要的样本容量的确定
7-1
统计学
STATISTICS
学习目标
1. 2. 3. 4.
估计量与估计值的概念 点估计与区间估计的区别 一个总体参数的区间估计方法 必要的样本容量的确定方法
7-2
统计学
STATISTICS
置信水平
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比重称为置信水平,也叫做置信度 2. 表示为 (1 -
为总体参数未在区间内的比重
相应的 为0.01,0.05,0.10
3. 常用的置信水平值有 99%, 95%, 90%
2. 则,将所有样本均值标准化为t统计量:
t x n ~ t (n 1)
3. 最终,总体均值 在1-置信水平下的置信 区间为: s
x t
2
s
7 - 24
n
统计学
STATISTICS
t 分布
t 分布是类似正态分布的一种对称分布,它通常要比 正态分布平坦和分散。一个特定的t分布依赖于称之 为自由度的参数。随着自由度的增大,分布也逐渐 趋于正态分布
2
n
或 p z
p(1 - p)
2
( 未知时)
n
统计学
STATISTICS
总体比重的区间估计
(例题分析)
解:已知 n=100,p=65% , 1- = 95%, z/2=1.96
p z p (1 p )
2
【例】某城市想 要估计下岗职工 中女性所占的比 重,随机地抽取 了 100 名 下 岗 职 工,其中65人为 女性职工。试以 95%的置信水平 估计该城市下岗 职工中女性比重 的置信区间
STATISTICS
第 7 章 参数估计
7.1 参数估计的一般问题 7.2 一个总体参数的区间估计 7.3 必要的样本容量的确定
7-1
统计学
STATISTICS
学习目标
1. 2. 3. 4.
估计量与估计值的概念 点估计与区间估计的区别 一个总体参数的区间估计方法 必要的样本容量的确定方法
7-2
统计学
STATISTICS
置信水平
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比重称为置信水平,也叫做置信度 2. 表示为 (1 -
为总体参数未在区间内的比重
相应的 为0.01,0.05,0.10
3. 常用的置信水平值有 99%, 95%, 90%
2. 则,将所有样本均值标准化为t统计量:
t x n ~ t (n 1)
3. 最终,总体均值 在1-置信水平下的置信 区间为: s
x t
2
s
7 - 24
n
统计学
STATISTICS
t 分布
t 分布是类似正态分布的一种对称分布,它通常要比 正态分布平坦和分散。一个特定的t分布依赖于称之 为自由度的参数。随着自由度的增大,分布也逐渐 趋于正态分布
2
n
或 p z
p(1 - p)
2
( 未知时)
n
统计学
STATISTICS
总体比重的区间估计
(例题分析)
解:已知 n=100,p=65% , 1- = 95%, z/2=1.96
p z p (1 p )
2
【例】某城市想 要估计下岗职工 中女性所占的比 重,随机地抽取 了 100 名 下 岗 职 工,其中65人为 女性职工。试以 95%的置信水平 估计该城市下岗 职工中女性比重 的置信区间
07心理统计学-第七章 参数估计
犯错误的概率,常用α(或p)表示。则1-α为置信 度。(显著性水平越高表示的是α值越小,即犯错误的可
能性越低) α为预先设定的临界点,常用的如.05、.01、.001;p 为检验计算所得的实际(犯错误)概率。
第一节 点估计、区间估计与标准误
三、区间估计与标准误
3、区间估计的原理与标准误
转换成比率为
p
n
p, SE p
n
pq n
同理可得公式7-17。自习[例7-12、例7-13]
1、从某地区抽样调查400人,得到每月人均文化消费为 160元。已知该地区文化消费的总体标准差为40元。试 问该地区的每月人均文化消费额。(α=.05,总体呈正态
分布)
2、上题中总体方差未知,已知Sn-1=44元。 3、已知某中学一次数学考试成绩的分布为正态分布,总 体标准差为5。从总体中随机抽取16名学生,计算得平 均数为81、标准差为Sn=6。试问该次考试中全体考生成 绩平均数的95%置信区间。 4、上题中总体方差未知,样本容量改为17人。 5、假定智商服从正态分布。随机抽取10名我班学生测 得智商分别为98、102、105、105、109、111、117、 123、124、126(可计算得M=112,Sn≈9.4),试以95% 的置信区间估计我班全体的智商平均数。 返回
值表,求tα /2(df)。
5、计算置信区间CI。
σ2已知,区间为M-Zα /2 SE <μ< M+Zα /2 SE;
σ2未知,区间为M-tα /2(df)SE <μ< M+tα /2(df)SE。
6、对置信区间进行解释。
二、σ2已知,对μ的区间估计(Z分布,例7-1 & 2) 三、σ2未知,对μ的区间估计(t分布,例7-3 & 4)
统计学原理:第7章 参数估计
7 - 25
一个总体参数的区间估计
总体参数 均值 比例 方差
7 - 26
符号表示 样本统计量
x
p
2
s2
7.2.1 总体均值的区间估计
1、正态总体、2已知,
非正态总体、大样本
2、正态总体、2未知,小样本
7 - 27
总体均值的区间估计
(1、Z分布)
1. 假定条件
总体服从正态分布,且方差(2) 已知
量进行监测,企业质检部门经常要进行抽检,以分析每袋重 量是否符合要求。现从某天生产的一批食品中随机抽取了25 袋,测得每袋重量如下表所示。已知产品重量的分布服从正 态分布,且总体标准差为10g。试估计该批产品平均重量的 置信区间,置信水平为95%
这表明一个具体的点估计值无法给出估计的可 靠性的度量,一个点估计量的可靠性是由它的 抽样标准误差来衡量的。
7 -9
抽样分布回顾
Xi ~
, 2
..X
~
,
2
n
p Z Z Z 1
2
2
p Z 2
X
X
Z 2
1
p
Z 7 - 10
2
X
X
Z
2
X
1
抽样分布回顾
p
Z
2
X
X
7 - 12
实际情况是,样本均值已知,而总体均值未知 。
x
样本均值与总体均值的距离是对称的,
若某个样本均值落在总体均值的两个标准差范围以内, 则总体均值就会被包括在以样本均值为中心左右两个标 准差的范围之内。
7 - 13
区间估计
(interval estimate)
1. 总体参数估计的一个区间: 样本统计量 加减 估计误差
一个总体参数的区间估计
总体参数 均值 比例 方差
7 - 26
符号表示 样本统计量
x
p
2
s2
7.2.1 总体均值的区间估计
1、正态总体、2已知,
非正态总体、大样本
2、正态总体、2未知,小样本
7 - 27
总体均值的区间估计
(1、Z分布)
1. 假定条件
总体服从正态分布,且方差(2) 已知
量进行监测,企业质检部门经常要进行抽检,以分析每袋重 量是否符合要求。现从某天生产的一批食品中随机抽取了25 袋,测得每袋重量如下表所示。已知产品重量的分布服从正 态分布,且总体标准差为10g。试估计该批产品平均重量的 置信区间,置信水平为95%
这表明一个具体的点估计值无法给出估计的可 靠性的度量,一个点估计量的可靠性是由它的 抽样标准误差来衡量的。
7 -9
抽样分布回顾
Xi ~
, 2
..X
~
,
2
n
p Z Z Z 1
2
2
p Z 2
X
X
Z 2
1
p
Z 7 - 10
2
X
X
Z
2
X
1
抽样分布回顾
p
Z
2
X
X
7 - 12
实际情况是,样本均值已知,而总体均值未知 。
x
样本均值与总体均值的距离是对称的,
若某个样本均值落在总体均值的两个标准差范围以内, 则总体均值就会被包括在以样本均值为中心左右两个标 准差的范围之内。
7 - 13
区间估计
(interval estimate)
1. 总体参数估计的一个区间: 样本统计量 加减 估计误差
心理及教育统计学第7章参数估计
第七章 参数估计
章节内容
第一节 点估计、区间估计及标准误 第二节 总体平均数的估计 第三节 标准差与方差的区间估计 第四节 相关系数的区间估计 第五节 比率及比率差异的区间估计
总体参数估计:在研究中从样本获得一组数 据后,通过这组信息,对总体特征进行估计, 即从局部结果推论总体的情况。
总体参数估计分点估计和区间估计两种。
7 8 2 . 2 6 2 2 . 6 7 7 8 2 . 2 6 2 2 . 6 7
71.9684.04
当n2=36时,df2=35,t0.05/2=2.042
7 9 2 . 0 4 2 1 . 5 2 7 9 2 . 0 4 2 1 . 5 2
75.982.1
【例7-4】
根据n2=36的样本估计总体参数μ:
0.95的置信区间 7 8 1 . 9 6 1 . 1 8 7 9 1 . 9 6 1 . 1 8
76.781.3
0.99的置信区间
7 9 2 . 5 8 1 . 1 8 7 9 2 . 5 8 1 . 1 8
75.782.04
83.686.4
总体方差σ2未知,对总体平均数的估计
总体方差未知,用样本的无偏方差(
s
2 n 1
)作为总体
方差的估计值,实现对总体平均数μ的估计。因为在总
体方差未知时,样本平均数的分布为t分布,故应查t值
表,确定t/2或t(1-)/2。
有两种情况:
(1)总体的分布为正态时,可不管n之大小。
(2)总体分布为非正态时,只有n>30,才能用概率对 其抽样分布进行解释,否则不能推论。
0.05水平和0.01水平是人们习惯上常用的两个显著性 水平。
区间估计的原理是抽样分布理论。在计算区间估计值, 解释估计的正确概率时,依据的是该样本统计量的分 布规律及抽样分布的标准误(SE)。
章节内容
第一节 点估计、区间估计及标准误 第二节 总体平均数的估计 第三节 标准差与方差的区间估计 第四节 相关系数的区间估计 第五节 比率及比率差异的区间估计
总体参数估计:在研究中从样本获得一组数 据后,通过这组信息,对总体特征进行估计, 即从局部结果推论总体的情况。
总体参数估计分点估计和区间估计两种。
7 8 2 . 2 6 2 2 . 6 7 7 8 2 . 2 6 2 2 . 6 7
71.9684.04
当n2=36时,df2=35,t0.05/2=2.042
7 9 2 . 0 4 2 1 . 5 2 7 9 2 . 0 4 2 1 . 5 2
75.982.1
【例7-4】
根据n2=36的样本估计总体参数μ:
0.95的置信区间 7 8 1 . 9 6 1 . 1 8 7 9 1 . 9 6 1 . 1 8
76.781.3
0.99的置信区间
7 9 2 . 5 8 1 . 1 8 7 9 2 . 5 8 1 . 1 8
75.782.04
83.686.4
总体方差σ2未知,对总体平均数的估计
总体方差未知,用样本的无偏方差(
s
2 n 1
)作为总体
方差的估计值,实现对总体平均数μ的估计。因为在总
体方差未知时,样本平均数的分布为t分布,故应查t值
表,确定t/2或t(1-)/2。
有两种情况:
(1)总体的分布为正态时,可不管n之大小。
(2)总体分布为非正态时,只有n>30,才能用概率对 其抽样分布进行解释,否则不能推论。
0.05水平和0.01水平是人们习惯上常用的两个显著性 水平。
区间估计的原理是抽样分布理论。在计算区间估计值, 解释估计的正确概率时,依据的是该样本统计量的分 布规律及抽样分布的标准误(SE)。
张厚粲 第七章 参数估计
间。
解:12名学生阅读能力的得分假定是从正态总体
中抽出的随机样本,而总体标准差σ未知,样本的容量 较小(n=12<30),在此条件下,样本平均数与总体 平均数离差统计量服从呈t分布。
于是需用t分布来估计该校三年级学生阅读能力总
体平均数95%和99%的置信区间。
由原始数据计算出样本统计量为
X 29.917
性的指标。
平均数区间估计的基本原理
通过样本的平均数估计总体的平均数,首先假定该样本 是随机取自一个正态分布的母总体(或非正态总体中的n> 30的样本),而计算出来的实际平均数是无数容量为n的
样本平均数中的一个。
根据样本平均数的分布理论,可以对总体平均数进行估 计,并以概率说明其正确的可能性。
一.总体平均数区间估计的基本步骤 ①.根据样本的数据,计算样本的平均数和标准差; ②.计算平均数抽样分布的标准误;
例:已知某样本的分散程度
标准差与方差分别计算)。
解1(标准差):
,样本
容量40,问该样本之总体的分散程度如何。(用
,样本标准差的分布接近正态分布,用Z分布。
(1) 0.95或0.05
10-1.96×1.12<σ<10+1.96×1.12
7.8 <σ<12.2 (2)0.99或0.01 10-2.58×1.12<σ<10+2.58×1.12 7.11<σ<12.89
第二节 总体平均数的估计
平均数抽样分布的几个定理
⑴.从总体中随机抽出容量为n的一切可
能样本的平均数之平均数等于总体的平均数。
E( X )
⑵.容量为n的平均数在抽样分布上的标准差 (即平均数的标准误),等于总体标准差除以n的平 方根。
数理统计 第七章-参数估计
休息
结束
2. 最大似然法
是在总体类型已知条件下使用的一 种参数估计方法 。 它首先是由德国数学家高斯在1821 年提出的 ,费歇在1922年重新发现了这 一方法,并首先研究了这 种方法的一些 性质 。
休息 结束
最大似然法的基本思想:
已发生的事件具有最大概率。
休息
结束
先看一个简单例子: 在军训时,某位同学与一位教官同 时射击,而在靶纸上只留下一个弹孔。 如果要你推测,是谁打中的呢? 你会如何想呢?
max f ( xi , )
i 1
n
休息
结束
X 假设X 为连续型总体: f ( x; )
( X 1 , , X n ) 为子样
( x1 , , xn ) 为子样观察值。
已发生的事件为:
x x ,X {{X 11 1x, X 1 nx1 ,n } , xn x X n xn } x
休息
结束
ˆ
1 n ( X i X )2 n i 1
1 n ˆ X ( X i X )2 n i 1
休息
结束
矩法的优点是简单易行,并不需要 事先知道总体是什么分布 。 缺点是,当总体类型已知时,没有 充分利用分布提供的信息 . 一般场合下, 矩估计量不具有唯一性 。
( 1 )x , 0 x 1 f( x) 0, 其它
1
其中 1 是未知参数,
X1,X2,…,Xn是取自X的样本,求参数 的矩估计. 解:
1 E( X ) x( 1 )x dx
0
( 1 )
从 中解得
1
0
x
1
概率论与数理统计课件第7章参数估计
一、矩估计
4
A B
一、矩估计 例1
5
01
OPTION
02
OPTION
一、矩估计 解
6
一、矩估计
7
一、矩估计
8
解(1)
一、矩估计
9
解(2)
一、矩估计 例3
10
一、矩估计 解
11
一、矩估计
12
关于矩估计量有下列结论:
一、矩估计
13
例4
解
一、矩估计
14
01
OPTION
02
OPTION
一、无偏性 定义1
51
ˆ lim E θ 如果 n+ X1 ,
, X n θ
一、无偏性
52
例1
试求 1 3 2
解
(1)由矩估计定义可知
一、无偏性
53
故
一、无偏性
54
一、无偏性 例2
55
一、无偏性
56
解
一、无偏性 定理 1
57
则有
因此, 样本均值是总体均值的无偏估计, 样本
二、极大似然估计
48
极大似然估计求解
似然函数 对数似然求导法
直接法
49
目录/Contents
7.1 7.2
点估计 点估计的优良性评判标 准 置信区间 单正态总体下未知参数的置信区间 两个正态总体下未知参数的置信区间
7.3
7.4 7.5
50
目录/Contents
7.2
点估计的优良性评判标准 一、无偏性 二、有效性 三、相合性
置信区间
69
置信区间
70
置信区间
第七章 参数估计
a
2
b
X
2 (a,b)
a2
ab b2 3
1 n
n i 1
X
2 i
解方程组得aˆ X
3 n
n i1
(Xi
X )2 ,bˆ
X
3 n
n i1
(Xi
X )2
练习1
设总体X
~
e(),
X
1
,
X
2
,...,
X
是来自该
n
总体的一组样本,求的矩估计。
2 总体X的概率密度为f (x, )
1
L L
0, 0,
2
L 0,
s
1
ln L ln L
0, 0,
2
lnL 0,
s
解方程组求解出ˆ1, ˆ2 , ,ˆs .
例1.设总体X ~ N(, 2 ), 但, 2均未知,设X1, X2 ,Xn 是来自该总体的一组样本, 求, 2的极大似然估计.
2
)2
2
(3)似然方程
ln L
1
2
n
(Xi
i 1
)
0
ln L
2
n 2
1
2
1
2 4
n
(Xi
i 1
)2
0
(4)解方程组得 X ,
第七章__参数估计
三、区间估计与标准误
㈠区间估计的定义 是根据样本统计量,利用抽样分布的原理,在一定的
可靠程度上,估计出总体参数所在的范围,即以数 轴上的一段距离表示未知参数可能落入的范围。 ㈡置信区间与显著性水平 ⑴置信区间:也称置信间距,指在一定可靠程度上,总体参
数所在的区域距离或区域长度。
⑵置信界限(临界值):置信区间的上下两端点值。 ⑶显著性水平:指估计总体参数落在某一区间时,可能犯错
⑶区间估计的原理是样本分布理论。在计算区间估计值解释估 计的正确概率时,依据的是该样本统计量的分布规律及样本 分布的标准误。样本分布可提供概率解释,而标准误的大小 决定区间估计的长度。一般情况下,加大样本容量可使标准 误变小。
当总体方差已知时,样本平均数的分布为正态分布或
渐近正态分布,此时,样本平均数的平均数uX u, 平均数的离散程度即平均数分布的标准差(简称
例4
解:由题意知,其总体方差未知,但其总体分布为正态分布,
则此样本均数的分布服从t分布, 可以依t分布对总平 均身高μ进行估计。
SEX
S 4.8 0.81; df n 1 36 1 35 n 1 35
查t值表可知 : t0.05 230 2.042;t0.01 230 2.75
例2 已知某区15 岁男生立定跳远的方差 为 436.8cm ,现从该区抽取58名15岁男生, 测得该组男生立定跳远的平均数为198.4cm, 试求该区15岁男生立定跳远平均成绩的95%和 99%的置信区间。
例2
解:由题意知:由于样本容量(n=58)大于30 ,
该样本的抽样分布为渐进正态分布。
SEX
因此, 的95%的置信区间为 :
82 2.0211.12 82 2.0211.12
概率论与数理统计第七章参数估计
则以hi (X1, X2,…, Xn)作为θi 的估计量 ,并 称hi(X1, X2,…, Xn)为θi 的矩法估计量,而 称hi(x1, x2,…, xn) 为θi 的矩法估计值。
例1. 设总体X的数学期望和方差分别是μ,
σ2 ,求μ , σ2的矩估计量。
E(X )
E( X 2 ) D( X ) [EX ]2 2 2
(3) 写出方程 ln L 0
i1
若方程有解,
求出L(θ)的最大值点 ˆ(x1,x2,..x.n,)
于 是 ˆ ˆ ( X 1 , X 2 , . . . , X n ) 即 为 的 极 大 似 然 估 计 量
例2. 设总体X服从参数λ>0的泊松分布,求 参数λ的极大似然估计量。
例3. 已知某产品的不合格率为p,有简单随机样本 X1 ,X2 ,…, Xn,求p的极大似然估计量。 若抽取100件产品,发现10件次品,试估计p.
ˆ(x1,x2,..x.n,),使得
L (ˆ) m a x L (), (或 L (ˆ) s u p L ())
则 称 ˆ ( x 1 ,x 2 , . . . ,x n ) 为 的 极 大 似 然 估 计 值
称 ˆ ( X 1 ,X 2 ,...,X n ) 为 极 大 似 然 估 计 量
第7章 参数估计
总体所服从的分布类型已知/未知
抽样
参数 估计
估计总体中未知的参数
参数估计 参数估计问题是利用从总体抽样得到的信息
来估计总体的某些参数. 估计新生儿的体重
估计废品率
估计湖中鱼数
§7.1
点估计
设有一个统计总体,总体的分布函数
为 F(x, ),其中为未知参数 (可以是向量) .
例1. 设总体X的数学期望和方差分别是μ,
σ2 ,求μ , σ2的矩估计量。
E(X )
E( X 2 ) D( X ) [EX ]2 2 2
(3) 写出方程 ln L 0
i1
若方程有解,
求出L(θ)的最大值点 ˆ(x1,x2,..x.n,)
于 是 ˆ ˆ ( X 1 , X 2 , . . . , X n ) 即 为 的 极 大 似 然 估 计 量
例2. 设总体X服从参数λ>0的泊松分布,求 参数λ的极大似然估计量。
例3. 已知某产品的不合格率为p,有简单随机样本 X1 ,X2 ,…, Xn,求p的极大似然估计量。 若抽取100件产品,发现10件次品,试估计p.
ˆ(x1,x2,..x.n,),使得
L (ˆ) m a x L (), (或 L (ˆ) s u p L ())
则 称 ˆ ( x 1 ,x 2 , . . . ,x n ) 为 的 极 大 似 然 估 计 值
称 ˆ ( X 1 ,X 2 ,...,X n ) 为 极 大 似 然 估 计 量
第7章 参数估计
总体所服从的分布类型已知/未知
抽样
参数 估计
估计总体中未知的参数
参数估计 参数估计问题是利用从总体抽样得到的信息
来估计总体的某些参数. 估计新生儿的体重
估计废品率
估计湖中鱼数
§7.1
点估计
设有一个统计总体,总体的分布函数
为 F(x, ),其中为未知参数 (可以是向量) .
概率论第7章
注: 估计量 θˆ 是一个随机变量,是样本的函数,即 是一个统计量,对不同的样本值, 的估计值 一般是 不同的.
X1, ... ,Xn是来自总体X的独立同分布样本,分布
律或概率密度函数是f(x,q),其中q∈Q是参数,Q已知, 是q的取值范围.f (x,q)的形式已知,则有统计模型
f ( x1,θ) f ( xn ,θ) θ Q
例1 某种型号的产品N个,其合格率q未知,从中随机
抽取n个(n<<N),设Xi 是第i次抽到的样品,正品Xi=1, 否则 Xi =0,则 X1,X2,…,Xn 就是样本.总体分布为两点
分布B(0,1),参数空间为q=(0,1),则可得统计模型
n
n
xi
n xi
θ i1 (1 θ) i1
用矩估计法估计λ的值。
解 设X为灯管寿命,则
1 n
x n i1 xi 130.55
μ1
E
X
=
1 λ
μ1 m1
μ1
E
X
=
1 λ
X
λˆ 1 0.0077 X
例2 设总体X的均值μ和方差σ2 >0都存在,μ,σ2未知.
X1,…,Xn是来自 X 的样本,试求μ, σ2的矩估计量 .
矩估计量的观察值称为矩估计值 .
总体k阶中心矩 样本k阶中心矩
Vk
Bk
E[ X 1n
n i1
E( X )]k; ( Xi X )k .
例1. 设有一批灯管,其寿命服从参数为λ的指数分 布,今随机从中抽取11只,测得其寿命数据如下:
110, 184, 145, 122, 165, 143, 78, 129, 62, 130, 168
X1, ... ,Xn是来自总体X的独立同分布样本,分布
律或概率密度函数是f(x,q),其中q∈Q是参数,Q已知, 是q的取值范围.f (x,q)的形式已知,则有统计模型
f ( x1,θ) f ( xn ,θ) θ Q
例1 某种型号的产品N个,其合格率q未知,从中随机
抽取n个(n<<N),设Xi 是第i次抽到的样品,正品Xi=1, 否则 Xi =0,则 X1,X2,…,Xn 就是样本.总体分布为两点
分布B(0,1),参数空间为q=(0,1),则可得统计模型
n
n
xi
n xi
θ i1 (1 θ) i1
用矩估计法估计λ的值。
解 设X为灯管寿命,则
1 n
x n i1 xi 130.55
μ1
E
X
=
1 λ
μ1 m1
μ1
E
X
=
1 λ
X
λˆ 1 0.0077 X
例2 设总体X的均值μ和方差σ2 >0都存在,μ,σ2未知.
X1,…,Xn是来自 X 的样本,试求μ, σ2的矩估计量 .
矩估计量的观察值称为矩估计值 .
总体k阶中心矩 样本k阶中心矩
Vk
Bk
E[ X 1n
n i1
E( X )]k; ( Xi X )k .
例1. 设有一批灯管,其寿命服从参数为λ的指数分 布,今随机从中抽取11只,测得其寿命数据如下:
110, 184, 145, 122, 165, 143, 78, 129, 62, 130, 168
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n ( z 2 ) 2 (1 )
E2 (1.96) 2 0.9 (1 0.9) 0.05 2 138.3 139
应抽取139个产品作为样本
课堂练习
据统计,具有工商管理学士学位的大学 毕业生年薪的标准差约为2000元,假定 想要以95%的置信水平估计年薪的置信区 间,希望的误差范围为400元,应抽取多 少具有工商管理学士学位的大学毕业生 做调查? •应抽取97人。
2) 计算样本的均值和标准差
x 39.5
2 n
s 7.77
n S n
3) 计算样本均值的方差、标准差:
x
4) 总体均值在1-置信水平下的置信区间为
s 7.77 39.5 1.645 2 n 36 39.5 2.13 x z
37.37,41.63
n
x z / 2
s n s n
正态分布
小样本 (n<30)
x z / 2
n
x z / 2
非正态分布 大样本
(n>=30)
x t / 2
s n
x t / 2
s n
7.2.2 总体比例的区间估计
假定条件 当样本容量很大(np大于或等于5)时,样 本比例的抽样分布可由正态分布来近似。 样本比例经标准化后的随机变量Z服从标准 正态分布,即:
2)区间估计
给出总体参数估计的一个区间范围,该区间由样本 统计量加减抽样误差(边际误差)得到。
(区间估计的基本原理 :167.161页。)
根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量 比如,某班级平均分数在75~85之间,置信水平 是95% 样本统计量 置信区间
1460
1460
1470
1470
解:已知X~N(,2),n=16, 1- = 95%, 1) 查t分布表(456页):t0.0.25(n-1)=2.131 2) 根据样本数据计算得:
x 1490
3) 4)
s 24.77
样本均值的标准差: x
24.77 6.1925 16
总体均值在95%置信水平下的置信区间为
(点估计)
置信下限
置信上限
区间估计的图示
X z 2 X
- 2.58x -1.65 x
X
+1.65x + 2.58x
X
-1.96 x
+1.96x
90%的样本 95% 的样本 99% 的样本
置信区间
由样本统计量所构造的总体参数的估计 区间称为置信区间 区间的最小值称为置信下限,最大值称 为置信上限。
影响置信区间宽度(估计结果的准确程度) 的主要因素 1.总体数据的离散程度,用 来测度
2.样本容量, X n
3.置信水平 (1 - ),影响 z 的大小
7.3
必要样本容量的确定
一、必要样本容量的影响因素 二、必要样本容量的确定 三、应注意的问题
7.3.1影响必要样本容量的因素
x t s
/2
n
/2
应根据概率α 查t分布表(456页)求t
值。
t 分布
t分布是类似正态分布的一种对称分布,它通常要比 正态分布平坦和分散。一个特定的分布依赖于称之 为自由度的参数。随着自由度的增大,分布也逐渐 趋于正态分布
标准正态分布
标准正态分布
t (df = 13)
t 分布
t (df = 5)
Z
t 分布与标准正态分布的比较
X
不同自由度的t分布
t
例题分析
【例】已知某种灯泡的寿命服从正态分布,现从一 批灯泡中随机抽取16只,测得其使用寿命(小时)如下 。建立该批灯泡平均使用寿命95%的置信区间。
16灯泡使用寿命的数据 1510 1450 1480 1520 1480 1490 1480 1510 1530 1500 1520 1510
36个投保人年龄的数据
23 36 42
35 42 53
39 46 45
27 43 54
36 31 47
44 33 24
34
39 34
28
49 39
39
38 45
36
34 48
44
48 45
40
50 32
解:已知n =36, 1- = 90% 1) 确定z值, z/2= z0.05 =1.645
置信区间与置信水平
均值的抽样分布
/2
x
1-
/2
x
(1 - ) % 区间包含了
X
% 的区间未包含
正态分布曲线下右侧面积
将构造置信区间的步骤重复多次,置信区间中包 含总体参数真值的次数所占的比率称为置信水平, 或称为置信系数。 比较常用的置信水平及正态分布曲线下右侧面积 为α /2时的z值zσ /2如下表所示。
p
1 p(1 p) n n
4.计算置信上下限,得出估计区间。
例题分析
【例】某城市想 要估计下岗职工 中女性所占的比 例,随机抽取了 100个下岗职工, 其中65人为女性 职工。试以95% 的置信水平估计 该城市下岗职工 中女性比例的置 信区间。
解: 1) 求样本比例 p=65/100=65% 2) 根据 1-= 95%,查表得z0.025=1.96 3) 求样本比例的标准差:
2
n
1. 2.
E的取值一般小于0.1 未知时,可取最大值0.5
例题分析
【例】根据以往
的生产统计,某 种产品的合格率 约为90%,现要 求边际误差为5% ,在求95%的置 信区间时,应抽 取多少个产品作 为样本?
解:已知=90%,E=5%,1-=0.95, 查表得Z/2=1.96,
应抽取的样本容量为
1.无偏性
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数。 样本的 x 、p是总体均值和比例的无偏估计量。
ˆ P( )
无偏 有偏
A
B
ˆ
2.有效性
对同一总体参数的两个无偏估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
3.一致性
1.估计总体均值时确定样本容量的公式:
n Z 2 E
2
2
2
重复抽样
不重复抽样
Z N n 2 2 2 E NZ
2
式中: E z 2
n
【例】拥有工商 管理硕士学位的 毕业生年薪的标 2 2 准差大约为2000 (z ) 2 n 2 元,假定想要估 E 计年薪95%的置 2 2 (1.96) 2000 信区间,希望边 2 400 际误差为400元, 96.04 97 应抽取多大的样 即应抽取97人作为样本。 本容量?
随着样本容量的增大,估计量的 值越来越接近被估计的总体参数
ˆ P( )
较大的样本容量
B A
较小的样本容量
ˆ
7.1.3 参数估计的方法
估 计 方 法
点
估
计
区间估计
1)点估计
点估计就用样本的估计量直接作为总体参 数的估计值 优点:简单、具体明确。 缺点:无法说明估计结果的误差大小;无 法说明估计结果的把握程度。
p p(1 p) 0.651 0.65 n 100
p(1 p) n
4)
构建置信区间:
p z 2 0.65(1 0.65) 100 55.65%,74.35% 65% 1.96
以95%的概率估计,该城市下岗职 工中女性比例的置信区间为 55.65%~74.35% 。
x z / 2
n
x z / 2
s n
构建估计区间步骤
1.计算样本的均值 X 和标准差 S 2 ; 2.确定置信水平1–α 、z值; 3.计算样本均值的方差、标准差:
2 x n 2
x n n 2
4.计算置信上下限,得出估计区间。
例题分析
【例】一家保险公司收集到由36投保个人组成的随 机样本,得到每个投保人的年龄(周岁)数据如下表。 试建立投保人年龄90%的置信区间。
Z P
(1 )
n
~ N (0,1)
根据正态分布的性质可以构造出总体比例在1–α 置信水平下的置信间为 :
pZ 2 (1 ) n
实际上π 未知,可以样本的比例替代,所以总体 比例的置信区间可表示为:
pZ
/2
p(1 p) n
构建总体比例估计区间的步骤
1.计算样本的比例; 2.确定置信水平、z值; 3.计算样本比例的标准差:
即:以 90%的概率估计,投保人平均年龄的置信区间 为37.37岁~41.63岁
2. 正态总体、方差未知、小样本
由于用样本方差计算的标准值服从自由度为 n-1的t分布,使用 t 分布统计量
t X S n ~ t (n 1)
根据t分布建立的总体均值μ 在1–α 置信水平 下的置信区间为
指标名称 均值 比例 方差
总体参数
样本统计量
X
2
P
S
2
7.1.1 估计量与估计值
估计量:用于估计总体参数的样本指标 如样本均值,样本比例、样本方差等 ˆ 总体参数用 表示,估计量用 表示 估计值:统计量的具体值 如果样本均值 x =80,则80就是的估计值
E2 (1.96) 2 0.9 (1 0.9) 0.05 2 138.3 139
应抽取139个产品作为样本
课堂练习
据统计,具有工商管理学士学位的大学 毕业生年薪的标准差约为2000元,假定 想要以95%的置信水平估计年薪的置信区 间,希望的误差范围为400元,应抽取多 少具有工商管理学士学位的大学毕业生 做调查? •应抽取97人。
2) 计算样本的均值和标准差
x 39.5
2 n
s 7.77
n S n
3) 计算样本均值的方差、标准差:
x
4) 总体均值在1-置信水平下的置信区间为
s 7.77 39.5 1.645 2 n 36 39.5 2.13 x z
37.37,41.63
n
x z / 2
s n s n
正态分布
小样本 (n<30)
x z / 2
n
x z / 2
非正态分布 大样本
(n>=30)
x t / 2
s n
x t / 2
s n
7.2.2 总体比例的区间估计
假定条件 当样本容量很大(np大于或等于5)时,样 本比例的抽样分布可由正态分布来近似。 样本比例经标准化后的随机变量Z服从标准 正态分布,即:
2)区间估计
给出总体参数估计的一个区间范围,该区间由样本 统计量加减抽样误差(边际误差)得到。
(区间估计的基本原理 :167.161页。)
根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量 比如,某班级平均分数在75~85之间,置信水平 是95% 样本统计量 置信区间
1460
1460
1470
1470
解:已知X~N(,2),n=16, 1- = 95%, 1) 查t分布表(456页):t0.0.25(n-1)=2.131 2) 根据样本数据计算得:
x 1490
3) 4)
s 24.77
样本均值的标准差: x
24.77 6.1925 16
总体均值在95%置信水平下的置信区间为
(点估计)
置信下限
置信上限
区间估计的图示
X z 2 X
- 2.58x -1.65 x
X
+1.65x + 2.58x
X
-1.96 x
+1.96x
90%的样本 95% 的样本 99% 的样本
置信区间
由样本统计量所构造的总体参数的估计 区间称为置信区间 区间的最小值称为置信下限,最大值称 为置信上限。
影响置信区间宽度(估计结果的准确程度) 的主要因素 1.总体数据的离散程度,用 来测度
2.样本容量, X n
3.置信水平 (1 - ),影响 z 的大小
7.3
必要样本容量的确定
一、必要样本容量的影响因素 二、必要样本容量的确定 三、应注意的问题
7.3.1影响必要样本容量的因素
x t s
/2
n
/2
应根据概率α 查t分布表(456页)求t
值。
t 分布
t分布是类似正态分布的一种对称分布,它通常要比 正态分布平坦和分散。一个特定的分布依赖于称之 为自由度的参数。随着自由度的增大,分布也逐渐 趋于正态分布
标准正态分布
标准正态分布
t (df = 13)
t 分布
t (df = 5)
Z
t 分布与标准正态分布的比较
X
不同自由度的t分布
t
例题分析
【例】已知某种灯泡的寿命服从正态分布,现从一 批灯泡中随机抽取16只,测得其使用寿命(小时)如下 。建立该批灯泡平均使用寿命95%的置信区间。
16灯泡使用寿命的数据 1510 1450 1480 1520 1480 1490 1480 1510 1530 1500 1520 1510
36个投保人年龄的数据
23 36 42
35 42 53
39 46 45
27 43 54
36 31 47
44 33 24
34
39 34
28
49 39
39
38 45
36
34 48
44
48 45
40
50 32
解:已知n =36, 1- = 90% 1) 确定z值, z/2= z0.05 =1.645
置信区间与置信水平
均值的抽样分布
/2
x
1-
/2
x
(1 - ) % 区间包含了
X
% 的区间未包含
正态分布曲线下右侧面积
将构造置信区间的步骤重复多次,置信区间中包 含总体参数真值的次数所占的比率称为置信水平, 或称为置信系数。 比较常用的置信水平及正态分布曲线下右侧面积 为α /2时的z值zσ /2如下表所示。
p
1 p(1 p) n n
4.计算置信上下限,得出估计区间。
例题分析
【例】某城市想 要估计下岗职工 中女性所占的比 例,随机抽取了 100个下岗职工, 其中65人为女性 职工。试以95% 的置信水平估计 该城市下岗职工 中女性比例的置 信区间。
解: 1) 求样本比例 p=65/100=65% 2) 根据 1-= 95%,查表得z0.025=1.96 3) 求样本比例的标准差:
2
n
1. 2.
E的取值一般小于0.1 未知时,可取最大值0.5
例题分析
【例】根据以往
的生产统计,某 种产品的合格率 约为90%,现要 求边际误差为5% ,在求95%的置 信区间时,应抽 取多少个产品作 为样本?
解:已知=90%,E=5%,1-=0.95, 查表得Z/2=1.96,
应抽取的样本容量为
1.无偏性
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数。 样本的 x 、p是总体均值和比例的无偏估计量。
ˆ P( )
无偏 有偏
A
B
ˆ
2.有效性
对同一总体参数的两个无偏估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
3.一致性
1.估计总体均值时确定样本容量的公式:
n Z 2 E
2
2
2
重复抽样
不重复抽样
Z N n 2 2 2 E NZ
2
式中: E z 2
n
【例】拥有工商 管理硕士学位的 毕业生年薪的标 2 2 准差大约为2000 (z ) 2 n 2 元,假定想要估 E 计年薪95%的置 2 2 (1.96) 2000 信区间,希望边 2 400 际误差为400元, 96.04 97 应抽取多大的样 即应抽取97人作为样本。 本容量?
随着样本容量的增大,估计量的 值越来越接近被估计的总体参数
ˆ P( )
较大的样本容量
B A
较小的样本容量
ˆ
7.1.3 参数估计的方法
估 计 方 法
点
估
计
区间估计
1)点估计
点估计就用样本的估计量直接作为总体参 数的估计值 优点:简单、具体明确。 缺点:无法说明估计结果的误差大小;无 法说明估计结果的把握程度。
p p(1 p) 0.651 0.65 n 100
p(1 p) n
4)
构建置信区间:
p z 2 0.65(1 0.65) 100 55.65%,74.35% 65% 1.96
以95%的概率估计,该城市下岗职 工中女性比例的置信区间为 55.65%~74.35% 。
x z / 2
n
x z / 2
s n
构建估计区间步骤
1.计算样本的均值 X 和标准差 S 2 ; 2.确定置信水平1–α 、z值; 3.计算样本均值的方差、标准差:
2 x n 2
x n n 2
4.计算置信上下限,得出估计区间。
例题分析
【例】一家保险公司收集到由36投保个人组成的随 机样本,得到每个投保人的年龄(周岁)数据如下表。 试建立投保人年龄90%的置信区间。
Z P
(1 )
n
~ N (0,1)
根据正态分布的性质可以构造出总体比例在1–α 置信水平下的置信间为 :
pZ 2 (1 ) n
实际上π 未知,可以样本的比例替代,所以总体 比例的置信区间可表示为:
pZ
/2
p(1 p) n
构建总体比例估计区间的步骤
1.计算样本的比例; 2.确定置信水平、z值; 3.计算样本比例的标准差:
即:以 90%的概率估计,投保人平均年龄的置信区间 为37.37岁~41.63岁
2. 正态总体、方差未知、小样本
由于用样本方差计算的标准值服从自由度为 n-1的t分布,使用 t 分布统计量
t X S n ~ t (n 1)
根据t分布建立的总体均值μ 在1–α 置信水平 下的置信区间为
指标名称 均值 比例 方差
总体参数
样本统计量
X
2
P
S
2
7.1.1 估计量与估计值
估计量:用于估计总体参数的样本指标 如样本均值,样本比例、样本方差等 ˆ 总体参数用 表示,估计量用 表示 估计值:统计量的具体值 如果样本均值 x =80,则80就是的估计值