7第七章 参数估计
第七章参数估计
第七章参数估计对给定的统计问题,在建立了统计模型以后,我们的任务就是依据样本对未知总体进行各种推断,参数估计是统计推断的重要内容之一。
本章主要介绍进行参数估计的方法及其评价等。
7.1 点估计方法参数估计,就是要从样本出发去构造一个统计量作为总体中某未知参数的一个估计量。
若总体X的分布函数的形式为已知,但它的一个或多个参数未知,则由总体X的一个样本去估计总体未知参数的值的问题就是参数的点估计问题。
例如,某钢筋厂日生产某种型号钢筋10000根,为了要得知这批钢筋的强度,质量检察员从中抽取50跟进行检查。
如何从抽查的50根钢筋强度的数据去估计整批钢筋强度的平均值?这就是参数估计要解决的问题。
在实际问题中,我们常常以统计量作为总体X的期望值的估计量。
设总体X的分布函数为F (x,θ ),其中θ 为未知参数。
X1,X2, (X)为总体X的一个样本。
点估计的问题就是由样本构造一个统计量作为未知参数θ 的一个估计量。
若x1,x2,…,xn是样本观察值,则代入估计量中即可以得到一个关于参数θ 的估计值。
在不致混淆的情况下,我们把估计量或估计值简称为估计。
构造估计的方法很多,下面介绍三中常用的方法。
7.1.1 频率替换法假定在n次实验中,事件A发生了n A次,(n A / n)为A发生的频率,设P (A ) = p (0< p<1),则由概率论的大数定律:频率(n A / n)依概率收敛于事件A 发生的概率p,即对任意ε >0,成立,于是,当n较大时,(n A / n)与p非常接近,自然地取(n A / n)作为p的估计,.这种由频率估计相应的概率而得到的估计量的方法称为频率替换法。
例1 估计一批产品的次品率p。
设产品只区分正品与次品,分别以X取0和1表示产品为正品和次品,所以总体X服从参数为p的(0-1)分布,即p为未知的待估参数。
令事件A表示“产品为次品”,则p = P (A) = P (X=1)。
概率论第七章 第1节
根据样本概率最大原则,m的估计值为3。
最大似然估计法原理
一般地,不仿设总体X是离散型分布X~p(x,θ),如果 X1,X2,…,Xn是来自这个总体的一个随机样本,x1,x2,…,xn 是这个随机样本的样本值,则这个样本发生的概率为:
记这个概率为θ的函数:
16
最大似然估计法原理
如果在一次抽样中样本值x1,x2,…,xn出现了,我们就认为 它之所以出现是因为它发生的概率最大导致的。因此我们 就选择能使这个概率最大的那个θ作为θ的估计值,这就 是极大似然估计法。 “样本值概率最大原则”
矩估计法理论依据
命题2:设总体X的l=1,2,…,k阶矩存在即E(Xl)=μk,则l阶样 本矩A1,A2,…,Ak的连续函数g(A1,A2,…,Ak)也依概率收敛于总 体矩的连续函数即
根据这两个命题,我们使用如下方法来进行矩估计: (1)用样本矩A1,A2,…,Ak来估计总体矩; (2)用样本矩的连续函数g(A1,A2,…,Ak)来估计总体矩的连续 函数g(μ1,μ2,…,μk)。
砍掉充分小的dxi,记这 个概率为θ的函数:
30
连续型总体中参数 θ的似然函数!
最大似然估计值 最大似然估计量
怎样求最大值点?
基于此通常先取对数,再求最大值点。
化成求 对数似 然函数 的最大 值点!
如果对数似然函数二阶可导,并且概率 密度函数是单峰函数,则驻点就是最大 值点!通过求一阶导数能得驻点:
第七章 参数估计
1、什么是参数估计? 当总体的分布类型已知,但其中仍有未知参数。比如总体 X服从参数μ,σ2的正态分布,但μ,σ2未知。但是我们 能根据来自总体X的一个简单随机样本X1,X2,…,Xn通过适 当的方法对这些未知参数进行估计,得到它的一个近似值 或近似区间。 2、参数估计有哪些形式? (1)点估计:矩估计法、极大似然估计法。 (2)区间估计:正态总体下区间估计法。
概率论与数理统计第7章
x 0 , x 0 ,x 1 ,x 2 ,
,x n 为 总 体 X
的 一 个 样 本 ,则 未 知 参 数 的 矩 估 计 ˆ _ _ _ _ _ _ _ _ _ _ _ .
这个例子所作的推断已经体现了极大似然法 的基本思想 .
最大似然估计原理:
设X1,X2,…Xn是取自总体X的一个样本,样 本的联合密度(连续型)或联合分布律 (离散型)为
f (x1,x2,… ,xn ; ) .
当给定样本X1,X2,…Xn时,定义似然函数为:
L() f (x1, x2 ,…, xn; )
得
pˆ1Βιβλιοθήκη nn i 1xix
即为 p 的最大似然估计值 .
从而 p 的最大似然估计量为
p ˆ(X1,
1n ,Xn)ni1Xi X
求最大似然估计(MLE)的一般步骤是:
(1) 由总体分布导出样本的联合分布率(或联 合密度);
(2) 把样本联合分布率 ( 或联合密度 ) 中自变
量看成已知常数,而把参数 看作自变量,得到似然 函数L();
要求:领会
2.2 估计量的有效性、相合性, 要求:领会
3.区间估计
3.1 置信区间的概念,
要求:领会
3.2 求单个正态总体均值和方差的置信区间,要求:简单应用
参数估计
现在我们来介绍一类重要的统计推断问题
参数估计问题是利用从总体抽样得到的信息来估计总体 的某些参数或者参数的某些函数.
估计新生儿的体重
1 p
n
pxi (1p)1xi
i1
n
n
xi
n xi
pi1 (1p) i1
n
n
xi
n xi
L(p)pi1 (1p) i1
概率论 第七章 参数估计
L( ) max L( )
称^为
的极大似然估计(MLE).
求极大似然估计(MLE)的一般步骤是:
(1) 由总体分布导出样本的联合概率分布 (或联合密度);
(2) 把样本联合概率分布(或联合密度)中自变 量看成已知常数,而把参数 看作自变量, 得到似然函数L( );
(3) 求似然函数L( ) 的最大值点(常常转化 为求ln L( )的最大值点) ,即 的MLE;
1. 将待估参数表示为总体矩的连续函数 2. 用样本矩替代总体矩,从而得到待估参
数的估计量。
四. 最大似然估计(极大似然法)
在总体分布类型已知条件下使用的一种 参数估计方法 .
首先由德国数学家高斯在1821年提出。 英国统计学家费歇1922年重新发现此
方法,并首先研究了此方法的一些性质 .
例:某位同学与一位猎人一起外出打猎.一只 野兔从前方窜过 . 一声枪响,野兔应声倒下 .
p值 P(Y=0) P(Y=1) P( Y=2) P(Y=3) 0.7 0.027 0.189 0.441 0.343 0.3 0.343 0.441 0.189 0.027
应如何估计p?
若:只知0<p<1, 实测记录是 Y=k
(0 ≤ k≤ n), 如何估计p 呢?
注意到
P(Y k) Cnk pk (1 p)nk = f (p)
第七章 参数估计
参数估计是利用从总体抽样得到的信息 估计总体的某些参数或参数的某些函数.
仅估 计一 个或 几个 参数.
估计新生儿的体重
估计废品率
估计降雨量
估计湖中鱼数
…
…
参数估计问题的一般提法:
设总体的分布函数为 F(x, ),其中为未 知参数 (可以是向量).从该总体抽样,得样本
第七章 参数估计
第七章 参数估计
1、正态总体、方差已知或非正态总体,大样本 当总体服从正态分布且方差已知时,或者总体不是正态分布但是大样本时,样本 均值的抽样分布均为正态分布,其数学期望为总体均值u,方差为Ϭ2/n。而样本均 值经过标准化以后的随机变量则服从标准正态分布,即 Z=(x-u)/(Ϭ/n0.5)~N(0,1) 根据上式和正态分布的性质可以得出总体均值u在1-α置信水平下的置信区间为: xα+是(-)事Z(α先/2)所(Ϭ确/n定0.5的)。而其一中个,概x率+Z值(α/2,) (Ϭ也/n称0.为5)为风置险信值上,限是,总x体-Z均(α/2值) (Ϭ不/包n0.含5)为在置置信信下区限间,的 概是率估;计1总- 体α称均为值置时信的水估平计,误Z差(α/。2) 是标准正态分布右侧面积为α/2的z值;Z(α/2) (Ϭ/n0.5) 也即是说,总体均值的置信区间由两个部分构成:点估计值和描述估计量精度的 +(-)值,这个+(-)值称为估计误差。
第七章 参数估计
在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。
其中,区间的最小值称为置信下限,最大值称为置信上限。
由于统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名 为置信区间。原因是:如果抽取了许多不同的样本,比如说抽取100个样本,根据 每一个样本构造了一个置信区间,这样,由100个样本构造的总体参数的100个置 信区间中,有95%的区间包含了总体参数的真值,而5%则没有包含,则95%这个值 称为置信水平。一般,如果将构造置信区间的步骤重复多次,置信区间中包含总 体参数真值的次数所占的比例称为置信水平,也称为置信度或置信系数。
自然使用估计效果最好的那种估计量。什么样的估计量才算一个好的估计量呢? 统计学家给出了评价估计量的一些标准,主要包括以下几个:
第7章参数估计
x 1 0
f P 1-p
x
xf f
1 p 0 (1 p) p (1 p)
p
2 (x x)2 f (1 p)2 p (0 p)2 (1 p)
f
p (1 p)
似然函数常简记为L或 L 1,2, ,k
未知参数的函数。
38
若有 ˆi (x1, x2,..., xn ) i 1, 2, k 使得
L x1, x2,..., xn;ˆ1, ˆ 2,
, ˆ k
max L (1 ,2 , ,k )
x1, x2,..., xn; 1, 2,
, k
则 ˆi (X1, X2,..., Xn) 为参数θi的极大似然估计量。
中选出一个使样本观察值出现的概率为最大的 ˆ 作
为θ的估计量。
称 ˆ 为θ 的极大似然估计量。
37
2.似然函数的数学表达式
设X1,X2,…Xn是取自总体X的一个样本,样本的联合密度 (连续型)或联合分布律 (离散型)为 :
f (x; 1,2 , , k )
定义似然函数为:
n
L L x1,..., xn; 1, 2, , k f xi; 1, 2, , k i 1 x1, x2 ,..., xn 给定的样本观察值
§7.1.4抽样误差
1.误差:调查结果与实际值之间的差异 抽样调查中的误差
登记性误差(非抽样误差) 误差代表性误差随系机统误误差差((抽非样抽误样差误)差)
2.抽样误差—由于抽样的随机性而产生的 样本指标对总体指标的代表性误差。抽样误 差可以计算并加以控制,但不可以避免。
概率论与数理统计-参数估计
第七章 参数估计
例:
引言
设总体 X 是服从参数为 的指数分布,其中参数
未 知 ,
0 .X1 ,,
X
是总体
n
X
的一个样本,
我们的任务是根据样本,来估计 的取值,从
而估计总体的分布.
这 是 一 个 参 数 估 计 问 题.
第七章 参数估计
§1 点估计 §2 估计量的评选标准 §3 区间估计
第七章 参数估计 §1 点估计
2
令
A1
A2
, (
2
1)
.
第七章 参数估计
例6(续)
解此方程组,得
§1 点估计
ˆ
A1 2 A2 A12
,
ˆ
A2
A1 A12
.
ˆ X 2 ,
即
B2
ˆ X .
B2
其中 B2
1 n
n i 1
Xi X
2 为样本的二阶中心矩.
第七章 参数估计(第二十二讲) 三、 极大似然法
§1 点估计
1
第七章 参数估计
例6(续)
EX 2 x 2 f
x dx x 2
x 1e x dx
0
§1 点估计
2 2 x ( e 2)1 x dx
2 0 2
2 2
1 2
1
2
因此有
EX
,
EX
2
1 .
⑵ 在不引起混淆的情况下,我们统称估计量
与估计值为未知参数 的估计.
第七章 参数估计
二、 矩估计法
§1 点估计
设X为连续型随机变量,其概率密度为
f ( x;1 ,, k ), X为离散型随机变量,其分布列为
(07)第7章 参数估计
STATISTICS
第 7 章 参数估计
7.1 参数估计的一般问题 7.2 一个总体参数的区间估计 7.3 必要的样本容量的确定
7-1
统计学
STATISTICS
学习目标
1. 2. 3. 4.
估计量与估计值的概念 点估计与区间估计的区别 一个总体参数的区间估计方法 必要的样本容量的确定方法
7-2
统计学
STATISTICS
置信水平
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比重称为置信水平,也叫做置信度 2. 表示为 (1 -
为总体参数未在区间内的比重
相应的 为0.01,0.05,0.10
3. 常用的置信水平值有 99%, 95%, 90%
2. 则,将所有样本均值标准化为t统计量:
t x n ~ t (n 1)
3. 最终,总体均值 在1-置信水平下的置信 区间为: s
x t
2
s
7 - 24
n
统计学
STATISTICS
t 分布
t 分布是类似正态分布的一种对称分布,它通常要比 正态分布平坦和分散。一个特定的t分布依赖于称之 为自由度的参数。随着自由度的增大,分布也逐渐 趋于正态分布
2
n
或 p z
p(1 - p)
2
( 未知时)
n
统计学
STATISTICS
总体比重的区间估计
(例题分析)
解:已知 n=100,p=65% , 1- = 95%, z/2=1.96
p z p (1 p )
2
【例】某城市想 要估计下岗职工 中女性所占的比 重,随机地抽取 了 100 名 下 岗 职 工,其中65人为 女性职工。试以 95%的置信水平 估计该城市下岗 职工中女性比重 的置信区间
07心理统计学-第七章 参数估计
犯错误的概率,常用α(或p)表示。则1-α为置信 度。(显著性水平越高表示的是α值越小,即犯错误的可
能性越低) α为预先设定的临界点,常用的如.05、.01、.001;p 为检验计算所得的实际(犯错误)概率。
第一节 点估计、区间估计与标准误
三、区间估计与标准误
3、区间估计的原理与标准误
转换成比率为
p
n
p, SE p
n
pq n
同理可得公式7-17。自习[例7-12、例7-13]
1、从某地区抽样调查400人,得到每月人均文化消费为 160元。已知该地区文化消费的总体标准差为40元。试 问该地区的每月人均文化消费额。(α=.05,总体呈正态
分布)
2、上题中总体方差未知,已知Sn-1=44元。 3、已知某中学一次数学考试成绩的分布为正态分布,总 体标准差为5。从总体中随机抽取16名学生,计算得平 均数为81、标准差为Sn=6。试问该次考试中全体考生成 绩平均数的95%置信区间。 4、上题中总体方差未知,样本容量改为17人。 5、假定智商服从正态分布。随机抽取10名我班学生测 得智商分别为98、102、105、105、109、111、117、 123、124、126(可计算得M=112,Sn≈9.4),试以95% 的置信区间估计我班全体的智商平均数。 返回
值表,求tα /2(df)。
5、计算置信区间CI。
σ2已知,区间为M-Zα /2 SE <μ< M+Zα /2 SE;
σ2未知,区间为M-tα /2(df)SE <μ< M+tα /2(df)SE。
6、对置信区间进行解释。
二、σ2已知,对μ的区间估计(Z分布,例7-1 & 2) 三、σ2未知,对μ的区间估计(t分布,例7-3 & 4)
统计学原理:第7章 参数估计
一个总体参数的区间估计
总体参数 均值 比例 方差
7 - 26
符号表示 样本统计量
x
p
2
s2
7.2.1 总体均值的区间估计
1、正态总体、2已知,
非正态总体、大样本
2、正态总体、2未知,小样本
7 - 27
总体均值的区间估计
(1、Z分布)
1. 假定条件
总体服从正态分布,且方差(2) 已知
量进行监测,企业质检部门经常要进行抽检,以分析每袋重 量是否符合要求。现从某天生产的一批食品中随机抽取了25 袋,测得每袋重量如下表所示。已知产品重量的分布服从正 态分布,且总体标准差为10g。试估计该批产品平均重量的 置信区间,置信水平为95%
这表明一个具体的点估计值无法给出估计的可 靠性的度量,一个点估计量的可靠性是由它的 抽样标准误差来衡量的。
7 -9
抽样分布回顾
Xi ~
, 2
..X
~
,
2
n
p Z Z Z 1
2
2
p Z 2
X
X
Z 2
1
p
Z 7 - 10
2
X
X
Z
2
X
1
抽样分布回顾
p
Z
2
X
X
7 - 12
实际情况是,样本均值已知,而总体均值未知 。
x
样本均值与总体均值的距离是对称的,
若某个样本均值落在总体均值的两个标准差范围以内, 则总体均值就会被包括在以样本均值为中心左右两个标 准差的范围之内。
7 - 13
区间估计
(interval estimate)
1. 总体参数估计的一个区间: 样本统计量 加减 估计误差
统计学 第七章 参数估计
[
]
2 χα (n) (n)的α 分位数,记为k≜ n k≜
抽样分布
(3)性质 • 若X服从χ2 (n),则均值E(X)=n ,方差 D(X) =2n 。 • χ2分布具有可加性。若 X1,X2相互独立,
X1~ χ2(n1) ,X2~χ2(n2)
则(X1+X2)~χ2(n1+n2) • 当n→∞时,χ2分布渐进于正态分布
σ
2
~ χ (n −1)
2
第三节两个总体参数的区 间估计(112页)
• • • • • • • 一、两个总体均值之差的区间估计 (一)两个总体均值之差的估计:独立样本 大样本:近似于正态分布 小样本: (1)两个总体的方差均已知,近似于正态分布 (2)两个总体的方差均未知但相等,近似于t分布 (3)两个服从正态分布的总体的方差均未知且不等, 但样本容量相等,近似于t分布 • (4)两个总体的方差均未知且不等,样本容量也不 等,近似于t分布,自由度为V
• 解:求(3)的计算步骤: • ①求样本指标:
x =1000小时
σ=50 (小时)
µ x=
σ
n
=
50 100
=(小时) 5
• ②根据给定的F(t)=95%,查概率表得t=1.96。 • ③根据∆x=t×µx=1.96×5=9.8,计算总体平均耐 用时间的上、下限: x − ∆ x=1000-9.8=990.(小时) 2 • 下限 x +∆ x=1000+9.8=1009 .(小时) 8 • 上限 • 所以,以95%的概率保证程度估计该批产品的平均耐 用时间在990.2~1009.8小时之间。
f (x;θ ) 其中 θ
或概率密度为
是未知参数。 是未知参数。
如何求极大似然估 计量呢? 计量呢?
数理统计 第七章-参数估计
休息
结束
2. 最大似然法
是在总体类型已知条件下使用的一 种参数估计方法 。 它首先是由德国数学家高斯在1821 年提出的 ,费歇在1922年重新发现了这 一方法,并首先研究了这 种方法的一些 性质 。
休息 结束
最大似然法的基本思想:
已发生的事件具有最大概率。
休息
结束
先看一个简单例子: 在军训时,某位同学与一位教官同 时射击,而在靶纸上只留下一个弹孔。 如果要你推测,是谁打中的呢? 你会如何想呢?
max f ( xi , )
i 1
n
休息
结束
X 假设X 为连续型总体: f ( x; )
( X 1 , , X n ) 为子样
( x1 , , xn ) 为子样观察值。
已发生的事件为:
x x ,X {{X 11 1x, X 1 nx1 ,n } , xn x X n xn } x
休息
结束
ˆ
1 n ( X i X )2 n i 1
1 n ˆ X ( X i X )2 n i 1
休息
结束
矩法的优点是简单易行,并不需要 事先知道总体是什么分布 。 缺点是,当总体类型已知时,没有 充分利用分布提供的信息 . 一般场合下, 矩估计量不具有唯一性 。
( 1 )x , 0 x 1 f( x) 0, 其它
1
其中 1 是未知参数,
X1,X2,…,Xn是取自X的样本,求参数 的矩估计. 解:
1 E( X ) x( 1 )x dx
0
( 1 )
从 中解得
1
0
x
1
第七章 参数估计
第七章 参数估计参数估计是指由样本指标值(统计量)估计总体指标值(参数),即当总体的分布性质已知,但其所含参数真值未知时,根据一组样本的观察值12,,,n X X X ,来估计总体中未知参数θ或θ的某函数。
对于总体参数作出估计的样本统计量称为估计量。
常用的参数估计方法有两种:点估计和区间估计。
第一节 总体参数的点估计与优良性一、参数的点估计参数的点估计就是用样本统计量直接作为总体参数的估计值,如用X 估计相应的μ。
定义7-1 设总体X 的分布函数(;)F x θ形式为已知,θ是待估参数,12,,,n X X X 是X 的一个样本,12,,,n x x x 是相应的一个样本值。
所谓点估计问题就是要构建一个适当的统计量θ(12,,,n X X X ),用其观察值θ(12,,,n x x x )作为未知参数θ的近似值来估计未知参数θ,称θ(12,,,n X X X )为θ的估计量,θ(12,,,n x x x )为θ的估计值。
在不致混淆情况下统称估计量和估计值为估计,并都简记为θ,这类对于参数值的估计称为点估计。
参数点估计的方法有:矩估计法、最大似然估计法、顺序统计量法和最小二乘法等,现在只介绍最常用的矩估计法。
二、矩估计法定义7-2 矩是描述随机变量最简单的数字特征,是以均值为基础的数字特征,均值是一阶矩,方差是二阶中心矩。
在一定条件下,一个随机变量的分布可由它的矩完全确定。
在大数定律中规定,样本的矩依概率收敛与总体矩,样本矩的连续函数依概率收敛于总体矩的连续函数,即以样本矩作为相应的总体矩的估计、以样本矩的函数作为相应总体矩的同一函数的估计而求得的未知参数的估计量称为矩估计法。
它的实质是采用样本的经验分布和样本矩去替换总体的分布和总体的原则,即替换原则。
从而可知,总体中期望值(均值)μ、总体方差σ2与总体标准差σ的矩估计量分别是2__12__1221)(11ˆ)(11ˆ1ˆX X n S X X n S X n X ni i n i i n i i --==--====∑∑∑===σσμ 例7-1 对糖尿病患者随机选取10名经检验空腹血糖水平的测定值(mmol/L)为5.47,6.17,6.42,6.56,6.62,6.81,7.12,7.20,8.41,8.53。
第七章 参数估计
x
1
2
|x|
e
dx
0
不含θ ,故不能由“样本一阶矩=总体一阶矩”解得所
求
矩估计,需要2继E续(X 求2二) 阶2矩1: x2e|x|dx
河南理工大学精品课程
概率论与数理统计
1 x2exd 0
x 20x2exdx
其中未知参数θ >0,求θ 的矩估计量.
〖解〗单参数,连续型.
因为总体一阶矩
1
1E(X) xf (x)dx x dx
0
x 1
| 1 1 0
1
由
河南理工大学精品课程
1 A1
概率论与数理统计
即 解得:
X 1
X( 1)
(1X)X
X
1 X 故所求矩估计量为:
ˆ
1
X X
2
■
河南理工大学精品课程
概率论与数理统计
【例5】已知总体X的概率密度为:
f(x)21 e|x|( x )
其中未知参数θ >0,求θ 的矩估计量.
〖解〗单参数,连续型.
因为总体一阶矩
1E(X)
河南理工大学精品课程
概率论与数理统计
ddL(x1,x2, ,xn;)0
或与之等价的
ddlnL(x1,x2, ,xn;)0
来得到待估参数θ 的极大似然估计值(驻点);
③ 、必要时,参照极大似然估计值写出极大似然 估计量.
河南理工大学精品课程
概率论与数理统计
【例6】求服从二项分布B(m,p)的总体X未知参数 p的极大似然估计量。
第七章-参数估计
• 根据n2=36的样本估计总体参数μ: • 0.95的置信区间
78 1.961.18 79 1.961.18
76.7 81.3
• 0.99的置信区间
79 2.581.18 79 2.581.18
75.7 82.04
• 【例7-2】
• 有一个49名学生的班级,某学科历年考试成绩的
• 3.一致性 • 当样本容量无限增大时,估计值应能够越来越接
近它所估计的总体参数,估计值越来越精确,逐 渐趋近于真值。 n大, X • 4.充分性 • 一个容量为n的样本统计量,是否充分地反映了 全部n个数据所反映总体的信息。
三、区间估计
(一)区间估计的定义 1. 根据估计量以一定可靠程度推断总体参数所在的区
少?
• 解:平均数的标准误
sn1 1 s1 8 2.67
X1
n1
n1 1 10 1
sn2 1 s2 9 1.52
X2
n2
n2 1 36 1
• 0.95的置信区间 • 当n1=10时,df1=n-1=9,t0.05/2=2.262
78 2.262 2.67 78 2.262 2.67 71.96 84.04
•置著性水平
• 显著性水平:估计总体参数落在某一区间时,可能 犯错误的概率,用符号表示。
• 置信度:被估计参数落在置信区间内的概率, • 1-表示 • 例:0.95置信区间(1-)指总体参数落在该区间内
,估计正确的概率为95%,而估计错误的概率为 5%(=0.05)
7.07 2.24
X1
n1
10
7.07 1.18
X2
n2
36
• 用n1=10的样本估计总体参数μ: • 0.95的置信区间
第七章 参数估计
a
2
b
X
2 (a,b)
a2
ab b2 3
1 n
n i 1
X
2 i
解方程组得aˆ X
3 n
n i1
(Xi
X )2 ,bˆ
X
3 n
n i1
(Xi
X )2
练习1
设总体X
~
e(),
X
1
,
X
2
,...,
X
是来自该
n
总体的一组样本,求的矩估计。
2 总体X的概率密度为f (x, )
1
L L
0, 0,
2
L 0,
s
1
ln L ln L
0, 0,
2
lnL 0,
s
解方程组求解出ˆ1, ˆ2 , ,ˆs .
例1.设总体X ~ N(, 2 ), 但, 2均未知,设X1, X2 ,Xn 是来自该总体的一组样本, 求, 2的极大似然估计.
2
)2
2
(3)似然方程
ln L
1
2
n
(Xi
i 1
)
0
ln L
2
n 2
1
2
1
2 4
n
(Xi
i 1
)2
0
(4)解方程组得 X ,
第7章参数估计
评价估计量的标准
1. 无偏性
∧
E(θ) =θ
2. 有效性
对同一总体参数的两个无偏估计量,标准差 越小的估计量估计效果越好,称估计量越有效。
3. 一致性
随着样本量的增大,点估计量的值越来越接 近被估总体的参数。
7.2 一个总体参数的区间估计
7.2.1 总体均值的区间估计
总体均值的置信区间=样本均值±边际误差
第7章 参数估计
统计方法
描述统计
推断统计
参数估计
假设检验
7.1 参数估计
1. 用样本统计量去估计总体参数。
2. 估计量——用来估计总体参数的统计量 估计值——一个具体样本计算出的统计 量的数值
参数估计的方法
点估计
区间估计
二战中的点估计— 德军有多少辆坦克?
二战期间,盟军非常想知道德军总共制造了 多少辆坦。德国人在制造坦克时是墨守成规的, 他们把坦克从1开始进行了连续编号。在战争过 程中,盟军缴获了一些敌军坦克,并记录了它们 的生产编号。那么怎样利用这些号码来估计坦克 总数呢?在这个问题中,总体参数是未知的坦克 总数N,而缴获坦克的编号则是样本。
常用置信水平的临界值(Zα/2值)
置信水平
90% 95% 99%
α
0.10 0.05 0.01
α/2
0.05 0.025 0.005
Zα/2
1.645 1.96 2.58
X
- 2.58x
-1.65 x
+1.65x + 2.58x
-1.96 x
+1.96x
90%的样本
95% 的样本
99% 的样本
用样本方差s2代替总体方差σ2
样本均值经标准化处理后服从自由度为
第七章__参数估计
三、区间估计与标准误
㈠区间估计的定义 是根据样本统计量,利用抽样分布的原理,在一定的
可靠程度上,估计出总体参数所在的范围,即以数 轴上的一段距离表示未知参数可能落入的范围。 ㈡置信区间与显著性水平 ⑴置信区间:也称置信间距,指在一定可靠程度上,总体参
数所在的区域距离或区域长度。
⑵置信界限(临界值):置信区间的上下两端点值。 ⑶显著性水平:指估计总体参数落在某一区间时,可能犯错
⑶区间估计的原理是样本分布理论。在计算区间估计值解释估 计的正确概率时,依据的是该样本统计量的分布规律及样本 分布的标准误。样本分布可提供概率解释,而标准误的大小 决定区间估计的长度。一般情况下,加大样本容量可使标准 误变小。
当总体方差已知时,样本平均数的分布为正态分布或
渐近正态分布,此时,样本平均数的平均数uX u, 平均数的离散程度即平均数分布的标准差(简称
例4
解:由题意知,其总体方差未知,但其总体分布为正态分布,
则此样本均数的分布服从t分布, 可以依t分布对总平 均身高μ进行估计。
SEX
S 4.8 0.81; df n 1 36 1 35 n 1 35
查t值表可知 : t0.05 230 2.042;t0.01 230 2.75
例2 已知某区15 岁男生立定跳远的方差 为 436.8cm ,现从该区抽取58名15岁男生, 测得该组男生立定跳远的平均数为198.4cm, 试求该区15岁男生立定跳远平均成绩的95%和 99%的置信区间。
例2
解:由题意知:由于样本容量(n=58)大于30 ,
该样本的抽样分布为渐进正态分布。
SEX
因此, 的95%的置信区间为 :
82 2.0211.12 82 2.0211.12
概率论与数理统计第七章参数估计
例1. 设总体X的数学期望和方差分别是μ,
σ2 ,求μ , σ2的矩估计量。
E(X )
E( X 2 ) D( X ) [EX ]2 2 2
(3) 写出方程 ln L 0
i1
若方程有解,
求出L(θ)的最大值点 ˆ(x1,x2,..x.n,)
于 是 ˆ ˆ ( X 1 , X 2 , . . . , X n ) 即 为 的 极 大 似 然 估 计 量
例2. 设总体X服从参数λ>0的泊松分布,求 参数λ的极大似然估计量。
例3. 已知某产品的不合格率为p,有简单随机样本 X1 ,X2 ,…, Xn,求p的极大似然估计量。 若抽取100件产品,发现10件次品,试估计p.
ˆ(x1,x2,..x.n,),使得
L (ˆ) m a x L (), (或 L (ˆ) s u p L ())
则 称 ˆ ( x 1 ,x 2 , . . . ,x n ) 为 的 极 大 似 然 估 计 值
称 ˆ ( X 1 ,X 2 ,...,X n ) 为 极 大 似 然 估 计 量
第7章 参数估计
总体所服从的分布类型已知/未知
抽样
参数 估计
估计总体中未知的参数
参数估计 参数估计问题是利用从总体抽样得到的信息
来估计总体的某些参数. 估计新生儿的体重
估计废品率
估计湖中鱼数
§7.1
点估计
设有一个统计总体,总体的分布函数
为 F(x, ),其中为未知参数 (可以是向量) .
概率论第7章
X1, ... ,Xn是来自总体X的独立同分布样本,分布
律或概率密度函数是f(x,q),其中q∈Q是参数,Q已知, 是q的取值范围.f (x,q)的形式已知,则有统计模型
f ( x1,θ) f ( xn ,θ) θ Q
例1 某种型号的产品N个,其合格率q未知,从中随机
抽取n个(n<<N),设Xi 是第i次抽到的样品,正品Xi=1, 否则 Xi =0,则 X1,X2,…,Xn 就是样本.总体分布为两点
分布B(0,1),参数空间为q=(0,1),则可得统计模型
n
n
xi
n xi
θ i1 (1 θ) i1
用矩估计法估计λ的值。
解 设X为灯管寿命,则
1 n
x n i1 xi 130.55
μ1
E
X
=
1 λ
μ1 m1
μ1
E
X
=
1 λ
X
λˆ 1 0.0077 X
例2 设总体X的均值μ和方差σ2 >0都存在,μ,σ2未知.
X1,…,Xn是来自 X 的样本,试求μ, σ2的矩估计量 .
矩估计量的观察值称为矩估计值 .
总体k阶中心矩 样本k阶中心矩
Vk
Bk
E[ X 1n
n i1
E( X )]k; ( Xi X )k .
例1. 设有一批灯管,其寿命服从参数为λ的指数分 布,今随机从中抽取11只,测得其寿命数据如下:
110, 184, 145, 122, 165, 143, 78, 129, 62, 130, 168
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ ˆ 解得 i i (X1, X2,…, Xn), 若它是极大值点 ˆ 则 为 的极大似然估计量.
(此处B2是样本的二阶中心矩) 本例题说明,样本均值 X 和样本二阶中心矩B2分别为总体 均值和方差的矩法估计量.
例2 求事件A的概率P(A)=p的矩法估计量.
解: 用随机变量X表示事件A的指示变量
即 则
1 X 0
A出现
A不出现 P{X=0}=1p , EX=p
P{X=1}=p ,
n 1 ˆ 所以 p的矩法估计量为 p A1 X i X n n 其中n为事件A在n次独立试验中出现的次数.也就是说,
未知, 随机抽查100个婴儿得到100 个体重数据:
8 , 7 , 6 , 6.5 , 5 , 5.2 , … 而掌握的信息就由这100个数据组成. 据此 ,我们应如何估计 呢?
为估计 ,我们需要构造出适当的样本的函数 T(X1, X2,…,Xn),每当有了样本值,就代入该 函数中算出一个值,用来作为 的估计值。 T(X1,X2,…,Xn) 称为参数 的点估计量,
此例同样说明矩估计的结果不唯一.
注: (1)估计量和估计值的区别. 参数的估计值是估计量的一次观测值,由于估计 量是随机变量, 具有波动性, 因而参数的估计值 只是一个近似值, 参数的估计所关心的不是估计 值的数值本身, 而是关心它是用什么办法求出来 的, 即由一个怎样的统计量得到的, 并研究该 统计量的优良性质, 如无偏性, 有效性, 相合性等.
则称T(X1,X2,...,Xn)为 的估计量,记作
ˆ =T(X1,X2,...,Xn),
建立一个这样的统计量作为 的估计量,称为参数
的点估计.
如果总体X的分布函数F(x; 1¸ 2,... ,k)中含有k个 不同的未知参数,则要由样本建立k个不带未知参 数的统计量,作为这k个未知参数的估计量. 在不特别强调的情况下,估计量、估计值简称估计. 寻找一个估计量就是寻找估计未知参数的方法, 方法选定后,用样本值代入统计量就得到该参数 的估计值.
将直接影响到 f xi ; dxi , 极大似然法的原理就是
i 1 i 1 n
选取使 f xi ; dxi 达到最大的作为的估计值.
i 1
n
ˆ ˆ 而 ( x1, x2 , ..., xn ) 作为样本观测值的函数, ˆ ˆ 通常记为 ( X1, X 2 , ..., X n )
第七章
参数估计
点估计
估计量的优良性
区间估计
参数估计分为点估计和区间估计. 在实际问题中,总体 X 的分布可能是部分未知 或完全未知的.
(1)总体 X 的分布函数的类型已知,如泊松分布P()或
正态分布N(, 2), 而参数 , , 2未知,需要根据样本的信 息对未知参数进行估计, 称为参数估计.
)
例如:两人射击同一目标,事先并不知道谁的技术好,现在 每人各打一发,有一人击中目标,我们认为击中的技术比击 不中的技术要好, 显然是合理的.
又例如: 某事件A发生的概率是0.1或0.9, 在一次试验中
该事件发生了,当然认为它发生的概率是0.9.
再例如:设在一口袋中装有许多白球和黑球, 只知道两种 球的比例是3:1, 但并不知道黑球多还是白球多, 就是说 抽到黑球的概率是1/4或3/4, 希望通过实验来判断黑球 占的比例是1/4还是3/4.
ˆ 若 为的矩法估计量, g()为的连续函数,则
ˆ g ( )为g()的矩法估计量. 也称
例1 不论总体X服从什么分布,
若 EX=, DX= 2
都是有限的,求参数 及 2的矩法估计量. 解: 设X1, X2 ,…, Xn是取自总体X的样本
1 ˆ n X i 1 1 X 2 ˆ2 i n
(2)总体 X 的分布函数的类型未知,而要对其数字特征
EX , DX进行估计, 而数字特征通常与分布中的参数 有一定关系, 因此也称为参数估计.
总体 随机抽样 样本 加工 统计量 作出推断
统计分析
§7.1 点估计
适当选择一个统计量,用此统计量的观测值作为 未知参数的近似值。
例1 已知某地区新生婴儿的体重X~ N(, 2),
(2) 矩估计是古老的点估计方法, 直观且简便, 特别是对总体 X 的期望和方差等数字特征进行 估计时, 并不一定要知道 X 的分布函数F(x; ), 但是矩法要求总体的原点矩存在, 如果原点矩 不存在,就不能用矩法. 另一方面, 矩法没有充分
利用分布函数F(x; )对参数所提供的信息.另外,
估计量就是一个统计量,原则上可以由样本
构造出许多统计量作为总体中某个未知参数的 估计量。
1 n 例如:可以用样本均值 X X i n i 1
也可以用单个分量Xi
作为总体均值 的估计量。
一 矩法 (K.Pearson在二十世纪初的一系列论文中引进的方法)
矩法的基本思想: 用样本矩作为总体矩的估计量
1
i 1
n
取对数:
n n 1 n 2 2 ln L ln(2 ) ln ( xi ) 2 2 2 2 i 1
似然方程组:
ln L 1 n ( x ) 0 2 i 1 i n 1 n ln L 2 4 ( xi ) 2 0 2 2 i 1 2
如果X为离散型,通常用X 的概率函数P(x; )代替 f(x; ).
定义 设总体X的密度函数为 f (x; 1¸ 2,... ,l),其中 1¸ 2,... ,l为未知参数, (X1,X2,...,Xn)为样本,其 联合密度函数为f (x1 ,x2 ,... , xn; 1¸ 2,... ,l), 称 L( 1¸ 2,...
矩法的理论依据: 辛钦大数定律
定义: 如果总体X的分布函数F(x; 1¸ 2,... ,l)中含有
l个不同的未知参数, 假定总体X的l 阶原点矩E(Xl)
存在,并记 k= k (1¸ 2,... ,l)= E(Xk)
(通常k都是1¸ 2, ... ,l的函数 )
(k=1, 2, ...l)
L( , ) f ( xi ; , )
2 2 i 1
i 1
n
n
1 e 2
( xi )2 2 2
1 n ( ) e 2
1 2
2
( xi )2
i 1
n
(2 ) ( ) e
n 2
n 2 2
( xi )2 2 2
(1)
如能从(1)式中解出 k= k (1¸ 2,... ,l) (k=1, 2, ...l)
用i的估计量Ai代入上式, 得到估计量
ˆ ˆ k k A1, A2 ,..., Al
ˆ 称 k 为k的矩法估计量, 其中Ai(i=1, 2, ...l) 为
样本的 i 阶原点矩.
某些分布(如泊松分布) X , B2都是的矩估计. 矩估计量不统一, 这在应用时是很不利的.
二 最大似然法
(极大似然法)
(R.Fisher在1912年的论文中提出的方法)
(极大似然法是点估计中最重要的方法.利用总体X的 分布函数的表达式F(x; )及样本所提供的信息,建立
ˆ 未知参数的估计量 (X1,X2,...,Xn)
f x ; , 样本落在点(x1,x2,...,xn)的邻域内的概率
i 1 i
n
设总体X为连续型,密度为 f (x; ),其中为待估 参数,(X1,X2,...,Xn)为样本, 则样本的联合密度为
n
为 f xi ; dxi , 这是的函数. 可见, 的取值不同,
根据矩法可得:
此处 1=EX, 2=E(X2)分别为总体的一阶,二阶原点矩
ˆ ˆ 1 , 2 分别为1, 2的估计量
因为 所以
2
1 = , 2=2+2
1 ˆ Xi X n
2
2 1 2 1 2 2 ˆ ˆ ˆ 2 X i X i X n n 2 1 1 2 2 X i nX X i X B2 n n
i
i
i
i
例1设总体 X ~ N ( , ) , (X1,X2,...,Xn)为样本
2
求参数 及2的 极大似然估计量. 解:Xi 的密度函数为:
1 f ( xi ; , ) e 2
2
( xi )2 2 2
( 0 ; i 1,2,..., n)
, 2的似然函数:
由矩法
1 1 B2 B2
此例说明, 矩估计的结果可能不唯一(通常选 择第一个结果)
例5 设总体X ~P(), 求参数的矩估计.
解: 因为EX = , 所以
1 n ˆ Xi X n i 1
又因为DX = , 所以
ˆ 1 X X 2 B i 2 n
则 ˆ1, ˆ2 分别是 1, 2的矩法估计量.
例4 设总体X服从参数>0的指数分布,其密度为
e x f ( x; ) 0 1 解: 因为EX= 1 x0 x0
求的矩估计.
1 EX
1 DX
即
由矩法
ˆ 1 X
又因为DX= 2
即
ˆ
把样本值代入T(X1,X2,…,Xn)中,得到
T(x1, x2 ,…, xn) 称为 的一个点估计值 .
定义 设总体X的分布函数为F(x ; ), 其中是未知 参数, X1,X2,…,Xn是样本, 现由样本建立不带