第三章 概率密度函数的估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当 0 ≤ x ≤ θ 时 , p (x | θ ) = 的最大似然估计是
解: 定义似然函数 l (θ ) =
k
1
θ
, 否则为0。证明θ
max x k 。
∏ p (x
k =1
N
k
|θ )
1 dH = 0, 即 − N ⋅ = 0 H (θ ) = ln l (θ ) = − N ln θ ,令 dθ θ 方程的解 θ = ∝ ,但实际问题中,θ ≠∝ 。 1 已知有N个随机样本, 且 0 ≤ x ≤ θ 时 , p (x | θ ) =
参数估计中的基本概念 统计量 参数空间 点估计、估计量和估计值 区间估计 参数估计判断标准 无偏性 有效性 一致性
3.2最大似然估计
(1)前提假设
参数θ(待估计)是确定(非随机)而未知的量 样本集分成c类,为A1,A2,…,Ac,Aj的样本是 从概率密度为 p x | ω j 的总体中独立抽取出来的。
i =1 i =1 i =1 i =1
N
(
)
N
N
例3.2:设x服从正态分N(μ,σ2),其中参数μ、 σ2未知,求它们的最大似然估计量。
N
解: 设样本集 A = {x1 , x2 ,..., xN }, 定义似然函数 l (θ ) = ∏ p(xi | θ )
i =1 2 ⎧ ⎡ ( xi − μ ) ⎤ ⎫ ⎪ ⎪ 1 exp⎢− H (θ ) = ln l (θ ) = ∑ ln p (xi | θ ) = ∑ ln ⎨ ⎥⎬ 2 2σ ⎪ i =1 i =1 ⎣ ⎦⎪ ⎭ ⎩ 2π σ 2 N ⎧ ⎫ ( ) x − 1 1 μ 2 i = ∑ ⎨− ln 2π − ln σ − ⎬ 2 2 2σ i =1 ⎩ 2 ⎭ N N 2
2
(
)
⎧ 1 ⎪ 1 ⎛ μ − μN p (μ | A ) = exp⎨− ⎜ ⎜ σ 2 2π σ N N ⎪ ⎩ ⎝
⎞ ⎟ ⎟ ⎠
2
⎫ ⎪ ⎬ ⎪ ⎭
应用待定系数法,令两式对应的系数相等
N 1 ⎧ 1 = + ⎪σ 2 σ 2 σ 2 ⎪ N 0 ⎨ ⎪ μ N = N m + μ0 N 2 2 2 ⎪ σ σ σ 0 ⎩ N
模式识别
第三章 概率密度函数的估计
中国矿业大学信电学院 蔡利梅
第三章
3.1概述
概率密度函数的估计
3.2最大似然估计 3.3贝叶斯估计 3.4非参数估计
3.1概述
贝叶斯决策方法,前提条件是已知各类的先验概 率和类条件概率,但实际中,所得到的只是样本 集,如何由样本集得到所需的概率密度函数,需 要专门的讨论,即进行估计。 参数估计:parametric estimation,已知类条件 总体概率密度函数形式,其中部分或全部参数, 用样本来估计这些参数 非参数估计:nonparametric estimation,未知 概率密度函数形式,求函数本身。
(3)最大似然估计量
是参数空间中能使似然 函数 l (θ )极大化的值,那么 θ 为θ 的最大似然估计量。
至此,估计问题转化为求极值的问题。
(4)最大似然估计求解
未知参数为一元情况
1) 求解
dl (θ ) = 0得最大似然估计量 θ dθ 2 ) 对于一些指数函数形式 ,定义 H (θ ) = ln l (θ ), dH (θ ) = 0得最大似然估计量 θ 求解 dθ
1 l (θ ) = p( A | θ ) = (θ 2 − θ1 )N 1 ∂H =N⋅ ∂θ1 θ 2 − θ1 H (θ ) = − N ln (θ 2 − θ1 )
1 ∂H = −N ⋅ ∂θ 2 θ 2 − θ1
若令偏导数为0,则θ1θ2中至少有一个为无穷 大,所以,加上一定的附加条件:因为θ2 -θ1 越小,似然函数越大,所以根据实际情况给出 一个θ值的大致取值范围,在其中确定θ1和θ2
分布为 P (θ ) ,类比于贝叶斯决策, 贝叶斯 风险为: R θˆ | A = λ θˆ , θ p (θ | A )d θ
( )
(
) ∫ ( )
θ
R θˆ | A 称为给定A条件下估计 量 θˆ的条件风险, ˆ使条件风险 R θ ˆ|A 最小,称 如果 θ的估计量 θ
(
)
( )
ˆ是关于 θ的贝叶斯估计量。 θ
1 mN = N
∑x
k =1
N
k
2 ⎧ Nσ 0 σ2 mN + μ0 ⎪μ N = 2 2 2 2 Nσ 0 + σ Nσ 0 + σ ⎪ 解方程组: ⎨ 2 2 ⋅ σ σ ⎪σ 2 = 0 N 2 2 ⎪ + N σ σ 0 ⎩
利用定理,求μ贝叶斯估计量
ˆ = ∫ μp(μ | A)dμ ∵μ ⎧ 1 ⎪ 1 ⎛ μ − μN ˆ = ∫μ ∴μ exp⎨− ⎜ ⎜ σ 2 2π σ N N ⎪ ⎩ ⎝ 把μ N 代入上式得: Nσ 0 σ2 ˆ= mN + μ μ0 2 2 2 2 Nσ 0 + σ Nσ 0 + σ
样本集中的样本最有可能来源于概率密度最大的 地方。似然函数定义为联合概率密度,样本独立 抽取时为概率密度的乘积,所以,已知一组样 本,最有可能来自于似然函数最大所对应的密度 函数。因此,可以利用似然函数作参数估计。
令l (θ )为样本集A的似然函数 ,如果 θ = d ( x1 , x2 ,..., x N )
未知参数为多元情况
T
1) θ = [θ 1 , θ 2 ,..., θ s ] , 对θ的各分量分别求最 2 ) 对于一些指数函数形式 H (θ )分别对θ的各分量求导
值。
,定义 H (θ ) = ln l (θ ), 令 ,组成s个方程,解方 程,
求最值。
未知参数为特殊情况 若p(x)服从均匀分布,方程的解可能为无穷大。
( )
⎧ 1 N ⎪μ = N ∑ xi = x ⎪ i =1 2 2 ∴⎨ ∴ μ σ 为 μ 和 σ 的最大似然估计量 、 N 2 ⎪σ 2 = 1 ( ) x x − ∑ i ⎪ N i =1 ⎩
设A = {x1 , x2 ,..., x N }是来自 p( A | θ )的随机样本, 例3.3:
N ( N N xi − μ ) 2 = − ln 2π − ln σ − ∑ 2 2 2 2 σ i =1
∵θ = μ ,σ
[
2 T
]
N ⎧ ∂H 2(xi − μ ) N xi − μ ⎪ ∂μ = −∑ − 2σ 2 = ∑ σ 2 =0 i =1 i =1 ⎪ ∴⎨ N 1 H N ∂ 2 ⎪ ( ) μ x = − + − =0 ∑ i 2 2 2 2 ⎪ σ σ 2 ∂ i =1 σ 2 ⎩
2
⎞ ⎟ ⎟ ⎠
2
⎫ ⎪ ⎬ dμ = μ N ⎪ ⎭
(6)贝叶斯学习
为了反映样本的数目,重新标记样本集为:
A N = {x1 ,x 2 , ,x N }
θˆ = ∫ θp (θ | A N )dθ θ的贝叶斯估计量为:
θ的后验分布为:p(θ | A
N
( )= ∫ p (A
p A N | θ ⋅ p(θ )
(5)例
2 总体分布密度为 N μ , σ ,设 A = {x1 ,x 2 , 例3.4:
(
)
是取自这种分布的样本 集,已知 μ服从 N μ 0 ,σ 0 ˆ。 分布,用贝叶斯估计的 方法求 μ的估计量 μ
(
,x N }
2
)
确定θ(即μ)的先验分布p(θ)
∵ p(μ ) ~ N μ 0 , σ 0
⎧ ⎞ ⎤⎫ μ N 1 ⎞ 2 ⎛ 1 N ⎪ 1 ⎡⎛ ⎪ 0 ⎟ ⎜ ⎟ = α ⋅ exp⎨− ⎢⎜ + − ⋅ + μ x μ 2 2 ⎟ 2 ⎟ ⎥⎬ 2 2 ∑ k ⎜ ⎜ σ0 ⎠ σ0 ⎠ ⎥ ⎪ ⎝ σ k =1 ⎣⎝ σ ⎦⎪ ⎩ 2⎢ ⎭
''
∵ p(μ | A)是μ的二次函数的指数函数 ,所以仍是一个正态密 度 ∴ 把p(μ | A)写成N μ N , σ N 的形式
l (θ ) = p( A | θ ) = p{x1 , x2 ,..., xN | θ } = ∏ p( xk | θ )
k =1 N
为样本集A的θ的似然函数
p{x1 , x2 ,..., xN | θ } 是N个随机变量 x1 , x2 ,..., xN
的联合密度,各变量相互独立抽取,所以联合概率 密度等于各自概率密度乘积。
(
)
(
)
∴ p ( A | θ ) = ∏ p (xk | μ ) =∏
k =1 N 2 ⎧ 1 ⎪ ⎪ 1 ⎛ xk − μ ⎞ ⎫ exp ⎨ − ⎜ ⎟ ⎬ 2π σ ⎪ ⎭ ⎩ 2⎝ σ ⎠ ⎪
求θ的后验分布p(θ|A)
N p ( A | μ ) ⋅ p (μ ) = α ∏ p( xk | μ ) ⋅ p(μ ) p(μ | A) = ∫ p( A | μ )⋅ p(μ )dμ k =1 2 2 N ⎧ ⎫ ⎧ ⎛ ⎞ 1 1 ⎪ 1 μ − μ0 ⎪ ⎪ 1 ⎛ xk − μ ⎞ ⎫ ⎪ ⎟ ⋅ − =α ⋅ exp exp⎨− ⎜ ⎜ ⎟ ⎨ ⎬ ∏ ⎬ ⎜ ⎟ σ σ 2 2 2π σ 0 ⎪ ⎠ ⎪ ⎪ 0 ⎠ ⎪ ⎩ ⎝ ⎭ ⎩ ⎝ ⎭ k =1 2π σ 2 2 N ⎧ ⎫ ⎧ ⎫ ⎛ ⎞ − − μ μ μ x 1 1 ⎪ ⎪ ⎪ ⎪ ⎛ ⎞ ' k 0 ⎟ ⎜ = α ⋅ exp⎨− ⎜ ⎟ ⎬ ⎬ ⋅ ∏ exp⎨− ⎜ ⎟ 2 σ 0 ⎠ ⎪ k =1 ⎪ ⎪ ⎩ 2⎝ σ ⎠ ⎪ ⎭ ⎩ ⎝ ⎭ 2 2 ⎤⎫ ⎧ N ⎡ ⎛ ⎞ − − μ μ μ x 1 ⎪ ⎛ k ⎞ ⎪ 0 ⎟ = α ' ⋅ exp⎨− ⎢⎜ + ⎜ ⎟ ⎥⎬ ∑ ⎜ ⎟ 2 ⎢⎝ σ 0 ⎠ k =1 ⎝ σ ⎠ ⎥ ⎪ ⎪ ⎣ ⎦⎭ ⎩
(3)损失函数
可以定义成不同的数 λ θ , θ = θ − θ
( ) (
)
2 ˆ ˆ ˆ = E [θ | x ] = θp(θ | x )dθ 若λ θ , θ = θ − θ ,则θ ∫
( ) (
)
(4)贝叶斯估计的步骤
确定θ的先验分布p(θ) 由样本集A={x1,x2,…,xN}求出样本联合分布 p(A|θ) 利用贝叶斯公式,求θ的后验分布p(θ|A) 利用定理,求出贝叶斯估计量
(
2
)
2 ⎧ 1 ⎪ 1 ⎛ μ − μ0 ⎞ ⎫ ⎪ ⎜ ⎟ exp⎨− ⎜ ∴ p (μ ) = ⎬ ⎟ 2 σ 2π σ 0 0 ⎪ ⎠ ⎪ ⎩ ⎝ ⎭
求样本联合分布p(A|θ)
∵ A = {x1 ,x 2 , 即 p ( xk | μ ) ~ N μ,σ 2 ,
N k =1
,x N }总体分布密度为 N μ,σ 2 ,
θ
∴θ的最大似然估计是
max x k 。
k
3.3贝叶斯估计
(1)基本思路
把估计问题转化成和贝叶斯最小风险决策形式 一致,利用Bayes公式解决问题。 根据样本集A,找出一个估计量,用来估计A所 属总体分布的某个真实参数,使带来的贝叶斯 风险最小。
(2)概念
ˆ来近似代替真实 根据样本集 A ,用估计量 θ ˆ, θ ,参数的先验 参数 θ ,带来的损失为 λ θ
N
) | θ )⋅ p(θ )dθ
N N −1 ( ) p A | θ = p x | θ p A |θ 当N>1时,有 N
(
类条件概率密度 p x | ω j 具有某种确定的函数形 p x | ω j ,θ j 式,
(
)
(
)
)
表示它与θj有关。
不同类别的参数在函数上独立。
(2)似然函数(likelihood function)
A = {x1 , x2 ,..., xN } 已知某类样本集包含N个样本:
假设样本是独立抽样(各样本互相独立),定义
(5)例
例3.1:设样本服从指数分布,密度函数为
⎧λe − λx x ≥ 0 λ为未知参数,求λ的 ϕ (x ) = ⎨ x < 0 最大似然估计量。 ⎩0
N
解:
设样本集 A = {x1 , x2 ,..., xN }, 定义似然函数 l (θ ) = ∏ λe − λxi
i =1
H (θ ) = ln l (θ ) = ∑ ln λe − λxi = ∑ (ln λ − λxi ) = N ln λ − ∑ λxi dH (θ ) N N = − ∑ xi = 0 ∵θ = λ ∴ λ i =1 dλ N 1 ∴λ = n = λ 为λ的最大似然估计量 x x ∑i