最大似然估计法教学提纲
第57讲 最大似然估计法 (1)

概率论与数理统计主讲:四川大学四川大学1§7.1 点估计四川大学3第57讲最大似然估计法(1)四川大学四川大学4最大似然估计法Maximum Likelihood EstimationMLE四川大学5四川大学6最大似然估计法是建立在最大似然原理基础上的一种参数估计法。
所谓最大似然原理是指:假设一个随机试验E 有若干可能的结果A 1, A 2, …。
如果只进行了一次试验,而结果A k 出现了,那么我们就有理由认为试验的条件对结果A k 的出现最有利,即试验E 出现的结果A k 的概率最大。
也叫极大似然估计法。
四川大学四川大学四川大学7例如,设一袋中装有白球和黑球,并且已知两种颜色的球的比例为8:2,但不知道哪一种颜色的球更多。
如果有放回地从袋中取两次球,每次取一个,结果两次都取到黑球,那么我们有理由认为黑球占80%。
因为若黑球占80%,则两次都取到黑球的概率为0.82=0.64。
相反,如果黑球只占20%,则两次都取到黑球的概率为0.22=0.04。
四川大学四川大学四川大学8因为若黑球占80%,则两次都取到黑球的概率为0.82=0.64。
相反,如果黑球只占20%,则两次都取到黑球的概率为0.22=0.04。
因此,两次都取到黑球对我们判断黑球占80%=0.8有利。
最大似然法的基本思想就是:对于已经出现的样本值x 1, x 2,…, x n ,适当地选取参数θ,使试验得出结果X 1=x 1, X 2=x 2, …, X n =x n 的概率最大。
四川大学四川大学最大似然估计法的模型四川大学9四川大学10设总体X 为离散型随机变量,其分布律为其中θ是未知参数,X 1, X 2,…, X n 为来自总体X 的样本,x 1, x 2, …, x n 为其一组样本值。
记{}(;)P X x p x θ==()L θ1122{,,...,}n n P X x X x X x ====1122{}{}{}n n P X x P X x P X x ===⋅⋅⋅=1{}n i i i P X x ===∏1(;)ni i p x θ==∏独立性同分布L (θ)称为样本x 1, …, x n 的似然函数Likelihood function四川大学四川大学11()L θ11{,...,}n n P X x X x ===1(;)n i i p x θ==∏L (θ)称为样本x 1, …, x n 的似然函数由于L (θ)是事件{X 1=x 1, …, X n =x n }的概率,由最大似然估计法的思想,我们希望求这样的使得达到L (θ)的最大值,即ˆθˆ()L θ因为样本值x 1, …, x n 是已知的常数,L (θ)是θ的一元函数。
5-2 最大似然估计

i =1
又设 x1, x2 , , xn 为样本 X1, X 2 , , X n 的一组
观察值.
n
L(x;θ ) = L(x1,
,
xn
;θ
)
=
∏
i =1
p(
xi
;θ
),
θ ∈ Θ,
则 L(x;θ )称为样本似然函数.
8
例 X~P (λ), 即 P( X = m) = λm e−λ , m = 0,1,
的解.
∂θi
18
定义法
当似然函数L(θ )有不连续点时,似然方程没有
意义,须从定义出发求最大似然估计. 性质
如果 θˆ 是θ 的极大似然估计,则对任一函数 g(θ ),其极大似然估计为 g(θˆ) .
该性质称为极大似然估计的不变性.
19
例 设 X = ( X1, , X n ) 是来自两点分布 b(1, p) 的
浙江财经学院本科教学课程 ----经济数学(三)
概率统计
最大似然估计
§5.2 最大似然估计
思想方法:一次试验就出现的事件有较大的概率
例如: 有两外形相同的箱子,各装100个球 一箱 99个白球 1 个红球 99 1 一箱 1 个白球 99个红球 1 99
现从两箱中任取一箱, 并从箱中任取一球, 结果所取得的球是白球.
但不知道是黑球多还是红球多,则从中抽出一
球为黑球的概率θ为 ¼ 或 ¾ .
现从罐子里有放回地抽出 n 个球,试根据样本
数据,估计 θ 的值为 ¼ ,还是 ¾?
解:令Xi 表示第i 次抽球的结果,即
⎧1, 黑球 ,
Xi
=
⎨ ⎩
0
,
否则 .
概率论与数理统计-第6章-第2讲-最大似然估计法

P(X1 1)P(X2 0)P(X3 1)
3
本讲内容
01 求最大似然估计的一般步骤 02 典型例题
01 求最大似然估计的一般步骤
(1) 构造似然函数 L(θ)
设X1, , X n是来自X 的样本, x1, , xn是其一组样本值,
若总体X 属离散型,其分布律 P( X x) p(x; ),
概率论与数理统计
第6章 参数估计
第2讲 最大似然估计法
主讲教师 |
第2讲 最大似然估计法
上一讲介绍了矩估计,这一讲介绍点估计的另外一种方法— —最大似然估计法,它是在总体类型已知条件下使用的一种参数 估计方法 .
它首先是由数学家高斯在1821年提出的,费歇在1922年重 新发现了这一方法,并研究了它的一些性质 ,从而得到广泛应 用.
即
L(
x1
,,
xn
;ˆ)
max
L(
x1,,
xn
;
)
ˆ(x1, , xn )称为参数的最大似然估计值.
ˆ( X1, , X n )称为参数的最大似然估计量.
一般, 可由下式求得:
dL( ) 0或 d ln L( ) 0.
d
d
似然方程
6
01 求最大似然估计的一般步骤
注1
未知参数可以不止一个, 如1,…, k
ln
L
n
i1
(xi )2 2 2
n 2
ln(2
)
n 2
ln(
2)
似然 方程 组为
ln
L
1
2
n
(xi
i1
)
0
(
2 ) ln
L
1
最大似然估计PPT课件

样本均值:
1 n1 X n1 i1 X i ,
1 Y
n2
样本方差: S12
定理6 设总体 X
1 n1
n1 1 i1 ~ N 1,
X
2 1
i
,
X Y
2
~
n2
Yj
j 1
N 2
S
2 2
,22
1 n2
,则
1
n2
j 1
Yj
Y
2
1 2Pt 1.397 查表得: t 0.10 (8 ) 1.397
1 0.10 2 0.80
例题13-5-2 设总体 X ~ N ,22 , 抽取容量为16的样本
(1)已知 0,求P 16 Xi2 128;
(2) 未知,求P
16
P i1
Xi X
2
100
P
1 22
16 i 1
Xi X
2
100 22
P(
2 2
25)
1
P
(
2 2
25)
1 0.05 0.95
2 0.0 5
(15)
25.0
5
第十三讲:中心极限定理数理统计基本知识
F
S12
S
2 2
2 1
2 2
~ F (n1 1, n2 1)
证
:
2 1
又
Sn112与 112SS22独12 ~立,2 (n1 112与 ), 2222独n立2 ,122
定时截尾寿命实验与定数截尾实验下的最大似然估计法

长,由于时间和财力的限制,我们不可能得到完全样本,于是就考虑截尾寿命试验.
常用的ቤተ መጻሕፍቲ ባይዱ种截尾寿命试验:
一种是定时截尾寿命试验。假设将随机抽取的 n 个产品在时间 t=0 时同时投入试
验,试验进行到事先规定的截尾时间 t0 停止.如试验截止时共有 m 个产品失效,它们
的失效时间分别为
0 ≤ t1 ≤ t2 ≤ L ≤ tm ≤ t0 ,
应于样本 X 1 , X 2 ,L, X n 的一个样本值,则似然函数为
n
n
∏ L( p) =
n
p xi (1 −
p)1− xi
=
∑ xi p i=1 (1 −
∑ n− xi p) i=1 ,
i =1
n
n
∑ ∑ 于是 ln L( p) = xi ln p + (n − xi ) ln(1 − p) .
考虑函数
n
∏ f (xi ;θ ) dxi
i =1
n
∏ L(θ ) = L( x1, x2 ,L, xn ;θ ) = f (xi ;θ ) i =1
同样称 L(θ ) 为样本的似然函数.
最大似然估计法的方法:
固 定 样 本 观 察 值 x1, x2 ,L, xn , 在 θ 取 值 的 可 能 范 围 内 Θ 挑 选 使 似 然 函 数
这一概率随θ 的取值而变化,它是θ 的函数,称 L(θ ) 为样本的似然函数.
第6 章 最大似然估计法

y
)
⎤⎥⎥⎥⎦⎫⎪⎪⎬⎪⎪⎭−1
。
第二种方法是,将期望算子忽略掉,即
18
An var(θˆ
ML
)
=
⎡⎢⎢⎢⎣−
∂
2
ln L(θˆ ML ∂θˆ ∂θˆ ′
;
y
)
⎤⎥⎥⎥⎦−1
。此方法被称为“观测信息矩阵”
(Observed Information Matrix,OIM)法。
第三种方法利用信息矩阵等式,用
7
最优 σ2 。
在 第 一 步 , 选 择 β 使 得 ln L(β, σ2) 最 大 , 这 等 价 于 让 (y − Xβ)′(y − Xβ) 最小。
βˆ ML = βˆ OLS = (X′X)−1 X′y (6.9)
在第二步,对 σ2 求导,
−
n 2
1 σ2
+
1 2σ 4
e′e
20
其中,K 为约束条件的个数(即为解释变量的个数)。 2.似然比检验(Likelihood Ratio Test,LR):
H0 Θ
图 6.4、无约束与有约束的参数空间
21
如果 H0 正确,则 ln L(βˆU )−ln L(βˆ R ) 不应该很大。在此例中,
βˆ R = β0 。LR 统计量为,
19
6.7 三类渐近等价的统计检验
对于线性回归模型,检验原假设 H0 : β = β0 ,其中 βK×1 为未 知参数,β0 已知,共有 K 个约束。
1.沃尔德检验(Wald Test):如果 H0 正确,则 (βˆU −β0) 的绝 对值不应该很大。沃尔德统计量为,
W ≡ (βˆU −β0 )′ ⎡⎢⎣Var(βˆU )⎤⎥⎦−1 (βˆU −β0 ) ⎯d⎯→ χ2 (K ) (6.18)
最大似然估计法

样本函数 u
X 0 n
~ N 0,1
对于置信水平1-α,总体均值μ的置信区间为
X
0
n
u X
2
0
n
u
2
(2)设总体X~ N , 2 , 未知σ,求μ的置信区间。
X 用 S 代替 0 ,则样本函数 t ~ t n 1 S n
2
1
2 X i 0 2 i 1
n
~ 2 n.
2 对应于置信水平1-α,总体方差 的置信区间为
X i 0
i 1
n
2
( n)
2 2
2
2 X i 0 i 1
n
2 1
2
( n)
.
6
(2)设总体X~ N , 2 , 未知 ,求 的置信区间。
第六章 参数估计
(一)基本内容
一、参数估计的概念
ˆ X , X ,, X , 如果以它的观测 1 定义:取样本的一个函数 1 2 n
值作为未知参数θ的估计值,则称 ˆ X 1 , X 2 ,, X n 是θ的 点估计量。而称其观测值 ˆ x1 , x 2 ,, x n 是θ的点估计值。
X Y 考虑样本函数 T
假设 1 2,求 1 2 的置信区间。
1
ቤተ መጻሕፍቲ ባይዱ
2
1 1 sw n1 n2
~ t n1 n2 2.
∴对应于置信水平1- α , 两个总体均值差 1 2 的置信区间为:
X Y t sw
有
ˆ 1, limP n
最大似然估计的教学方法

( X , X。 中,有 4 , …, ) 个等于 1 6 ,4 个等于 0 .该样本 出现的概率为
L ) PX = 1X = 2 … X0 X )HPX = i 0( 4 ( = (l , 2 , , 5 5 = (i ) 4 — ) =0 = 1 6
法 ,式 ( ) 1 两端关于 0 求导并令其为 0,得
4 通过对 比,明确方法 的适用范 围
参数点估计的矩估计法 ,其原理是用样本矩估计总体矩,它虽然直观简便 ,但也有缺点,它要求总体
矩必须存在 ,并且没有充分利用分布所提供 的信息.当总体分布已知时 ,通常可以采用最大似然估计法. 最大似然法应用的例子很多,在正态分布、指数分布等各分布中都可以用来估计参数.另外在均匀分
3 总结思路 ,强调解题 的一般步骤
结合例 3 ,引导学生得出求最大似然估计 的基本思路. 设总体 的分布为 p ) 0 0,p ) (; , ∈ (; 的形式已知 , 为一个未知参数或几个未知参数组成的参 数 向量 , lX , X 是总体 x的样本 , X1 x2 … X , 2 …, 则 , ,
,
X 的 合分 联 布为n p i , ,:…,n (; 设( X, X) x )
i =l i =l
n
给 一 样本 可以 该样 定的 组 值, 列出 本值出 概率,L ) L :…, ; = (; , ∈ 这 现的 ( = (, , ) Hp 0 0, x x )
第3 2卷 第 4 期
2 1 0 2焦
高 师 理 科 学 刊
J u l f ce c f a h r C r g n ies y o ma in eo c es oS Te o e ea dUnv ri t t
概率统计17 极大似然估计法 教学设计

极大似然估计法教学设计【教学题目】§4.2 极大似然估计法【教学目的】根据《教学大纲》要求和学生已有的知识基础和认知能力,确定以下教学目标:明确极大似然估计法是在总体分布类型已知的情况下的一种常用的参数估计方法;理解极大似然估计的思想;掌握求极大似然估计值的一般步骤,会求常见分布参数的极大似然估计量。
【教学思想】1、极大似然估计法是建立在极大似然原理基础上的一种重要的统计推断方法,统计推断思想不同于逻辑推断,它所基于的最基本的思想仍然是来源于我们现实生活中的一些很常见的推断法则,常以人们的思维习惯和经验常识为依据,推断时必然伴随着一定的犯错误的概率。
因此从逻辑上认起死理来,统计推断似乎因为不太严谨而被排斥在“科学推断”之外了。
但是在实际生活中,如果都要按照逻辑推断来思考,那么将会给你的生活带来很大的麻烦。
在教学过程中,要让学生逐步体会统计推断思想的利与弊。
2、极大似然估计法的“极大似然”的原始含义就是“看起来最像”的意思,故极大似然原理指的是:概率最大的事件最可能发生,或一次实验中已发生事件的概率应该最大。
3、“以教师为主导、以学生为主体”引导学生主动学习、思考,并通过实际问题案例的分析及应用,达到教会学生使用极大似然估计法来解决实际问题的目的,体现“授人以渔”。
【教学分析】1、本次课主要包括以下内容:(1)分析引例,说明极大似然估计的原理;(2)求极大似然估计值的一般步骤;(3)极大似然估计法的简单应用。
2、重难点分析:极大似然估计法是在总体分布类型已知的情况下的一种常用的参数估计方法,其原理是根据“概率最大的事件最可能发生;反之,在一次实验中,若某事件已发生,则其概率应该最大”的统计推断思想去估计未知参数。
极大似然估计值的求解是本次课的重点。
全概率公式的难点在于对极大似然思想原理的阐述。
在教学中常出现以下难点:一是原理复杂,导致教师难于讲解,学生理解困难;二是学生对方法机械地记忆,忽略了统计思想的建立与统计方法的掌握。
极大似然估计课程设计

极大似然估计课程设计一、教学目标本课程的教学目标是使学生掌握极大似然估计的基本概念、原理和方法,能够运用极大似然估计解决实际问题。
具体分为以下三个部分:1.知识目标:使学生了解极大似然估计的定义、原理和计算方法,理解极大似然估计在统计推断中的应用。
2.技能目标:通过实例分析,培养学生运用极大似然估计解决问题的能力,使学生能够独立完成极大似然估计的计算和分析。
3.情感态度价值观目标:培养学生对统计学的兴趣和热情,使学生认识极大似然估计在科学研究和实际应用中的重要性,培养学生的科学精神和创新意识。
二、教学内容本课程的教学内容主要包括极大似然估计的基本概念、原理和方法。
具体安排如下:1.第一课时:介绍极大似然估计的定义和原理,讲解极大似然估计的计算方法。
2.第二课时:通过实例分析,展示极大似然估计在统计推断中的应用,引导学生学会运用极大似然估计解决问题。
3.第三课时:讲解极大似然估计的性质和局限性,使学生了解极大似然估计的适用范围和注意事项。
4.第四课时:通过练习题,巩固学生对极大似然估计的理解和应用能力。
三、教学方法为了提高教学效果,本课程将采用多种教学方法相结合的方式进行教学:1.讲授法:讲解极大似然估计的基本概念、原理和方法,使学生掌握基础知识。
2.讨论法:通过分组讨论,引导学生深入理解极大似然估计的原理和应用,培养学生的思考和交流能力。
3.案例分析法:通过实例分析,使学生学会运用极大似然估计解决实际问题,提高学生的实践能力。
4.实验法:安排课后实验,让学生独立完成极大似然估计的计算和分析,巩固所学知识。
四、教学资源为了支持本课程的教学,我们将准备以下教学资源:1.教材:《统计学原理》等相关教材,为学生提供基础知识。
2.参考书:《极大似然估计的应用》等参考书籍,为学生提供更多的学习资料。
3.多媒体资料:制作课件、视频等多媒体资料,丰富教学手段,提高学生的学习兴趣。
4.实验设备:为学生提供计算机、统计软件等实验设备,方便学生进行课后实验。
概率论与数理统计第七章最大似然估计

最大似然法的基本思想 先看一个简单例子: 某位同学与一位猎人一 起外出打猎 . 一只野兔从前方窜过 . 只听一声枪响,野兔应声倒下 .
如果要你推测, 是谁打中的呢? 你会如何想呢?
整理课件
3
因为只发一枪便打中,猎人命中的概率 一般大于这位同学命中的概率. 看来这一 枪是猎人射中的 . 其数学模型为
,ax(1),bx(n);
0 , 其它
似然函数a 越大, b 越小, L 越大.
整理课件
33
取 aˆx(1), bˆx(n)
则对满足 ax(1) x(n) b的一切a,b, 都有
1
1
(ba)n
(x(n)
x(1))n
故
aˆx(1), bˆx(n)
是 a , b 的最大似然估计值.
整理课件
34
例7 设总体X的概率分布为
随 机 点 (X1, ,Xn)落 在 (x1, ,xn)的 邻 域 ( 边 长 分
别 为 dx1, ,dxn的 n维 立 方 体 ) 内 的 概 率 近 似 为 : n
f(xi;)dxi
i1
整理课件
14
取 的 估 计 值 ˆ , 使 上 式 概 率 取 到 最 大 值 。
但 d x i不 随 而 变 , 故 只 需 考 虑 :
x1
x2
e e
x1! x2!
xn
e xn!
整理课件
20
对数似然函数为:
n
n
l() ln L () x iln () n ln ( x i!)
i 1
令
i 1
dl() 1 n
dp
i1
xi
n
=0
得 的最大似然估计为
第六章最大似然估计

第六章数理统计的基本概念一、基本教学要求与主要内容(一)教学要求1.理解总体、个体、简单随机样本和统计量的概念,掌握样本均值、样本方差及样本矩的计算。
2.了解分布、t分布和F分布的定义和性质,了解分位数的概念并会查表计算。
3.掌握正态总体的某些常用统计量的分布。
4.了解最大次序统计量和最小次序统计量的分布。
本章重点:统计量的概念及其分布。
(二)主要内容1.总体、个体我们把研究对象的全体称为总体(或母体),把组成总体的每个成员称为个体。
在实际问题中,通常研究对象的某个或某几个数值指标,因而常把总体的数值指标称为总体。
设x为总体的某个数值指标,常称这个总体为总体X。
X的分布函数称为总体分布函数。
当X为离散型随机变量时,称X的概率函数为总体概率函数。
当X为连续型随机变量时,称X的密度函数为总体密度函数。
当X服从正态分布时,称总体X为正态总体。
正态总体有以下三种类型:(1)未知,但已知;(2)未知,但已知;(3)和均未知。
2.简单随机样本数理统计方法实质上是由局部来推断整体的方法,即通过一些个体的特征来推断总体的特征。
要作统计推断,首先要依照一定的规则抽取n个个体,然后对这些个体进行测试或观察得到一组数据,这一过程称为抽样。
由于抽样前无法知道得到的数据值,因而站在抽样前的立场上,设有可能得到的值为,n维随机向量()称为样本。
n称为样本容量。
()称为样本观测值。
如果样本()满足(1)相互独立;(2) 服从相同的分布,即总体分布;则称()为简单随机样本。
简称样本。
设总体X的概率函数(密度函数)为,则样本()的联合概率函数(联合密度函数为)3. 统计量完全由样本确定的量,是样本的函数。
即:设是来自总体X的一个样本,是一个n元函数,如果中不含任何总体的未知参数,则称为一个统计量,经过抽样后得到一组样本观测值,则称为统计量观测值或统计量值。
4. 常用统计量(1)样本均值:(2)样本方差:(3)样本标准差:它们的观察值分别为:这些观察值仍分别称为样本均值、样本方差和样本标准差。
§5.2最大似然估计

n n
θ −1
,
n
ln L(θ ) = n lnθ + (θ − 1)∑ ln x i
西南财经大学天府学院
i =1
例5(续) (
ln L = n lnθ + (θ − 1)∑ ln xi
n i =1
d ln L n n = + ∑ ln x i θ i =1 dθ d ln L 令: = 0, dθ n n 得似然方程为 + ∑ ln x i = 0,
2 2
是来自 X的一个样本值, σ 2的极大似然估计量 . 求 解: X 的概率密度为: 的概率密度为: 1 1 2 f ( x;σ ) = exp{− ( x − µ )2 } 2σ 2 2π σ
似然函数为 :
2
1 1 L(σ ) = ∏ exp{− 2 ( xi − µ ) 2 } 2σ 2π σ i =1 n − 1 n 2 2 2 = (2πσ ) exp − 2 ∑ ( xi − µ ) 2σ i =1 n 1 n n 2 ln L = − ln( 2π ) − ln(σ ) − 2 ∑ ( x i − µ ) 2 2 2σ i =1 2
§5.2 最大似然估计
西南财经大学天府学院
一、最(极)大似然估计的基本思想
大似然原理的直观想法是: 最 (极 ) 大似然原理的直观想法是 : 一个随机试验如有若干个可能的结果 若在一次试验中, 结果A 出现, A,B,C,… 。 若在一次试验中 , 结果 A 出现 , 则一般认为A 出现的概率最大, 则一般认为 A 出现的概率最大 , 也即试验 条件对A出现有利。 条件对A出现有利。或者说在试验的很多 可能条件中,认为应该是使事件A 可能条件中,认为应该是使事件A发生的 概率为最大的那种条件存在. 概率为最大的那种条件存在.
概率论与数理统计-第6章-第2讲-最大似然估计法

解 X 的分布律为: P( X k) p(1 p)k1, k 1,2,
n
故似然函数为 L( p)
n
p(1
p) xi 1
pn (1
xi n p) i1 ,
i 1
n
令
d
ln L( p)
n
xi n
i 1
0.
dp
p 1 p
如何求EX 的
最大似然估计?
解得 p的最大似然估计
pˆ
n
n
xi
f
(xi )
( x1 x2
n
xn ) 1
,
xi 1
n
ln L( ) n ln ( 1)ln xi i 1
d
ln L( ) d
n
n i 1
ln
xi
0
解得
n
n
的最大似然估计 ˆ n n .
ln xi
ln X i
i 1
i 1
02 典型例题
例 设X ~ G( p), x1, , xn是来自X 的一个样本值, 试求参数p与EX 的最大似然估计.
我们先来看一个实例
2
第2讲 最大似然估计法
例 ——生活经验:
黑球白球9:1,不知哪种多?有放回抽三次,两次白球,一次黑球.
哪种多?
白ห้องสมุดไป่ตู้多!
原理: 一次试验就出现的事件有较大的概率
这种选择一个参数使得实验结果具有最大概率的思想就是最大似 然法的基本思想 .
方法
0.9? 0.1?
最大
L( ) P(X1 1, X2 0, X3 1)
大似然原则来求.
L( ) 无驻点
不可导
7
第8讲 最大似然估计和主成分分析

25
8.3.6 主成分的求解步骤
i)对原始数据矩阵进行标准化处理
相当于对原始变量进行坐标平移与尺度伸缩:
X n p
x11 x 21 xn1
x12 x22 xn 2
x1 p x2 p xnp
xij ( xij x j ) / S j , (i 1,2, L , n; j 1,2, L , p)
10
8.2 维数问题
问题包括50或100个特征 (二进制)
分类精度取决于维数和训练样本的数量 具有相同分布函数的两组多维向量情况 两类问题:假设先验概率相同,贝叶斯误差 概率为:
P (error)
1 2
r/2
e
u 2 2
du
where : r 2 ( 1 2 ) t 1 ( 1 2 ) lim P (error) 0
p( D | θ) p(x k | θ)
k 1
n
p(D|θ)称为样本集D下的似然函数
4
图8-1中上图显示了一维 情况下的一些训练样本, 这些样本都服从一个方 差已知,而均值未知的 一维高斯分布。
中间图显示了似然函数 p(D|θ)关于均值的函数图 像。如果我们有非常多 的训练样本,那么函数 的波形将是非常窄的。 使得似然函数取得最大 值的点标记为 。 ˆ
2)当用于表示特征的向量维数较大时,就会产生严重的 计算复杂度问题。
解决办法:如果事先知道参数个数,并且先验知识允许能够把 条件概率密度进行参数化,问题的难度就可以显著地降低。
两个概念:有监督学习和无监督学习
3
8.1最大似然估计
7.2 最大似然估计方法

最大似然估计方法最(极)大似然估计(Maximum Likelihood Estimator(MLE))首先是由德国数学家高斯在1821年提出.然而,这个方法常归功于英国统计学家费歇.费歇在1922年重新发现了这一方法,并首先研究了该方法的一些性质.Gauss(1777-1855)Fisher(1890-1962)一、最大似然估计的基本思想例1.某位同学与一位猎人一起外出打猎一只野兔从前方窜过只听一声枪响,野兔应声倒下如果要你推测,是谁打中的呢?你会如何想呢?因为只发一枪便打中,猎人命中的概率一般大于这位同学命中的概率. 看来这一枪是猎人射中的.其数学模型为令X为打一枪的中弹数,则X~b(1,p),p未知. 设p有两种可能:p=0.9或p=0.1p的取值范围两人中有一人打枪,估计这一枪是谁打的,即估计参数p的值是0.9还是0.1?选择是猎人打的,相当于选择p 的值,使得样本观测值1出现的可能性最大.若p=0.9,则P {X 1=1}=0.9若p=0.1,则P {X 1=1}=0.1兔子中弹,相当于样本观测值为1,即{X 1=1}发生了打了1枪,相当于得到一个样本,记为X 1考虑此样本观测值出现的概率,有最大似然估计法的基本思想:根据样本观测值,选择参数p的值,使得该样本值出现的可能性最大.例2.从某厂生产的自行车头盔中抽取10件进行检测,结果是前三件为不合格品,后面的7件为合格品,依此对不合格品率p进行估计.例2.从某厂生产的自行车头盔中抽取10件进行检测,结果是前三件为次品,后面的7件为合格品,依据该信息对次品率p进行估计.分析:总体为X~b(1,p),0<p<1样本为X,X2,…,X101样本值为x=x2=x3=1,x4=…=x10=01样本取样本值的概率为:P(X1=1,X2=1,X3=1,X4=0,…,X10=0)=p3(1−p)7=L(p)P (X 1=1,X 2=1,X 3=1,X 4=0,…,X 10=0)=p 3(1−p )7当p =0.25时,L (0.25)=0.2530.757当p =0.5时,L (0.5)=0.5100.25比0.5更有可能导致该样本值的出现.L (0.25)>L (0.5)使L (p )达到最大的p ,最有可能导致该样本值的出现.00.10.20.30.40.50.60.70.80.910.511.522.5×10-31.似然函数:设总体X 的概率密度(或分布律)为f (x ;θ),θ∈Θ,X 1,⋯,X n为来自该总体的样本,则(X 1,⋯,X n )的密度函数(或分布律)为若已知样本观测值(x 1,⋯, x n ),则是θ的函数,称其为样本(x 1,⋯, x n )的似然函数.11(;)(;)(;)nn i i f x f x f x θθθ==∏121()(;,,,)(;)nn i i L L x x x f x θθθ===∏二、几个定义注意:a .作为样本(X 1,⋯, X n )的密度函数(或分布律)若大1(;)ni i f x θ=∏1(;)ni i f x θ=∏说明样本(X 1,⋯,X n )在(x 1,⋯,x n )附近取值的概率大;若小1(;)ni i f x θ=∏说明样本(X 1,⋯,X n )在(x 1,⋯,x n )附近取值的概率小.b .当已得样本(X 1,⋯,X n )的观测值为(x 1,⋯,x n )时,若则在第一个参数下,样本(X 1,⋯, X n )在(x 1,⋯, x n )附近取值的概率较大,即在参数下更有可能发生结果(x 1,⋯, x n ).因此,是比更能导致结果(x 1,⋯, x n )发生的参数.11(;,,)(;,,)n n L x x L x x θθ'''>θ'θ'θ''θ'c .若已知观测值(x 1,⋯, x n ),那么哪一个参数最能导致结果(x 1,⋯, x n )的发生呢?1max (;,,)n L x x θθ∈Θ2.最大似然估计:如果似然函数L (θ;x 1,⋯,x n ),在达到最大值,即则称为θ的最大似然估计值.它一般是x 1,⋯,x n 的函数,也常记为ˆθ1ˆ(;,,)n L x x θ1=max (;,,)n L x x θθ∈Θˆθ1ˆ(,...,)nx x θ1ˆ(,...,)nX X θ称为最大似然估计量.3.未知参数的函数的最大似然估计设总体X 的分布类型已知,其概率密度(或分布律)为f (x ;θ),未知参数θ的已知函数为g (θ).若为θ的最大似然估计,则规定为g (θ)的最大似然估计.ˆθˆ()g θ三、最大似然估计的求法求似然函数L (θ; x 1,⋯,x n )在θ∈Θ内关于θ的最大值点.若f (x,θ)关于θ可微,则θ的MLE 可由下式得到0dL d θ=似然方程(组)又因为L (θ)和ln L (θ)在同一θ处取得极值,因此MLE 也可由下述方程得到ln ()0d L d θθ=对数似然方程(组)当似然函数L (θ)有不连续点时,似然方程一般没有意义不能采用上述极值方法必须直接从定义出发求参数的最大似然估计求最大似然估计(MLE)的一般步骤是:(1)由总体X的分布写出似然函数L(θ);(2)求对数似然函数ln L(θ);(3)对ln L(θ)关于θ求(偏)导数,并令(偏)导函数为0;(4)解方程(组),得到未知参数的最大似然估计.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最大似然估计法
最大似然估计法的基本思想
最大似然估计法的思想很简单:在已经得到试验结果的情况下,我们应该寻找使这个结果出现的可能性最大的那个作为真的估计。
我们分两种情进行分析:
1.离散型总体
设为离散型随机变量,其概率分布的形式为,则样
本的概率分布为,
在固定时,上式表示取值的概率;
当固定时,它是的函数,我们把它记为并称
为似然函数。
似然函数的值的大小意味着该样本值出现的可能性的大小。
既然已经得到了样本值,那它出现的可能性应该是大的,即似然函数的值应该是大的。
因而我们选择使达到最大值的那个作为
真的估计。
2.连续型总体
设为连续型随机变量,其概率密度函数为则为从该总体抽出的样本。
因为相互独立且同分布,于是,样本的联合概率密度函数为
,在是固定时,它
是在处的密度,它的大小与落
在附近的概率的大小成正比,而当样本值固定时,它是
的函数。
我们仍把它记为并称
为似然函数。
类似于刚才的讨论,我们选择
使最大的那个作为真的估计。
总之,在有了试验结果即样本值时,似然函数反映了的各
个不同值导出这个结果的可能性的大小。
我们选择使达到最大值的那个作为真的估计。
这种求点估计的方法就叫作最大似然法。
7.2.2 最大似然估计的求法
假定现在我们已经观测到一组样本要去估计未知参数。
一种直观的想法是,哪一组能数值使现在的样本出现的可能性最大,哪一组参数可能就是真正的参数,我们就要用它作为参数的估计值。
这里,假定我们有一组样本.如果对参数的两组不同的值和,似然函数有如下关系
,
那么,从又是概率密度函数的角度来看,上式的意义就是参
数使出现的可能性比参数使出现的可能性大,当然参数比更像是真正的参数.这样的分析就导致了参数估计的一种方
法,即用使似然函数达到最大值的点,作为未知参数的估计,这就是所谓的最大似然估计。
现在我们讨论求最大似然估计的具体方法.为简单起见,以下
记,求θ的极大似然估计就归结为求的最大值点.由于对数函数是单调增函数,所以
(7.2.1)
与有相同的最大值点。
而在许多情况下,求的最大值点比较简单,于是,我们就
将求的最大值点改为求的最大值点.对关于求导数,并命其等于零,得到方程组
, (7.2.2) 称为似然方程组。
解这个方程组,又能验证它是一个极大值点,则它必是,也就
是的最大值点,即为所求的最大似然估计。
大多常用的重要例子多属于这种情况。
然而在一些情况下,问题比较复杂,似然方程组的解可能不唯一,这时就需要进一步判定哪一个是最大值点。
还需要指出,若函数关于的导数不存在时,我们就无法得到似然方程组 (7.2.2),这时就必须根据最大似然估计的定义直接去的最大值点。
在一些情况下,我们需要估计。
如果分别是的最大似然估计,则称为的最大似然估计。
下面我们举一些例子来说明求最大似然估计的方法。
例7.2.1 设从正态总体抽出样本,这里未知参数为
mm 和(注意我们把看作一个参数)。
似然函数为
=
它的对数为
,
似然方程组为
由第一式解得
,(7.2.3)
代入第二式得
. (7.2.4)
似然方程组有唯一解(,),而且它一定是最大值点,这是因为
当或或∞时,非负函数。
于是和的最大似然估计为
,. (7.2.5)
这里,我们用大写字母表示所有涉及的样本,因为最大似然估计和都是统计量,离开了具体的一次试验或观测,它们都是随机的。
例7.2.2设总体服从参数为的泊松分布,它的分布律为
,
有了样本之后,参数λ的似然函数为
,
似然方程为
,
解得
.
因为的二阶导数总是负值,可见,似然函数在处达到最大值。
所
以,是λ的最大似然估计。
例7.2.3设总体为上的均匀分布,求的最大似然估计。
的概率密度函数为
对样本,
很显然,L(a,b)作为a和b的二元函数是不连续的。
这时我们不能用似然方程组(7.2.2)来求最大似然估计,而必须从最大似然估计的定义出发,求L(a,b)的最大值。
为使L(a,b)达到最大,b-a应
该尽量地小,但b又不能小于,否则,L(a,b)=0。
类似地,a不能大过。
因此,a和b的最大似然估计为
,
.
现在为止,我们以正态分布,泊松分布,均匀分布的参数以及事件发生的概率的估计为例子讨论了矩估计和最大似然估计。
在我们所举的例子中,除了均匀分布外,两种估计都是一致的。
矩估计的优点是简单,只需知道总体的矩,总体的分布形式不必知道。
而最大似然估计则必须知道总体分布形式,并且在一般情况下,似然方程组的求解较复杂,往往需要在计算机上通过迭代运算才能计算出其近似解。