第三章 概率密度函数的参数估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 n 2 0 2 0 2
均值分布的变化
类条件概率密度的计算
p ( x D) = ∫ p ( x ) p ( D) d
=∫ 1 2 1 x 2 1 1 n exp exp d 2πσ 2 σn 2 σ 2πσ n
1 ( x n )2 f (σ , σ n ) = exp 2 2 2πσσ n 2 σ +σn
P (W 5 ) = π 1a11a13 a31a12
一阶隐含Markov模型 模型 一阶隐含
隐含Markov模型中,状态是不可见的, 在每一个时刻t,模型当前的隐状态可 以输出一个观察值。 隐状态输出的观察值可以是离散值,连 续值,也可以是一个矢量。
HMM的工作原理 的工作原理
HMM的内部状态转移过程同Markov模型相同, 在每次状态转移之后,由该状态输出一个观察 值,只是状态转移过程无法观察到,只能观察 到输出的观察值序列。 以离散的HMM为例,隐状态可能输出的观察值 集合为{v1, v2, …, vK},第i个隐状态输出第k个观 察值的概率为bik。 例如:T=5时,可能的观察序列V5=v3v2v3v4v1
GMM参数的 估计算法 参数的EM估计算法 参数的
1.
2.
设定混合模型数M,初始化模型参数 θ0,阈值T, i 0; 用下列公式迭代计算模型参数,直到似然函数变化 小于T为止:
i am pm ( xt θim )
p ( m xt , θi ) =
∑a p (x
M j =1 i j j
t
θij )
1 n i am+1 = ∑ p ( m xt , θi ) n t =1
经推导可得,在已知训练样本集合D的条 件下,参数的分布:
p( D) =
∫ p(D ) p( )d
p(D ) p( )
= α ∏ p ( xi ) p ( )
i =1
n
1 N 1 n 1 2 0 = α ′′ exp 2 + 2 2 2 ∑ xi + 2 σ0 σ 0 2 σ σ i =1
i +1 m
=
∑ xt p ( m xt , θ
n t =1 n i t =1 t
i
)
∑ p (m x ,θ )
+ Σim 1 =
∑ p ( m x , θ )( x
n i t =1 t n t =1
t
t
i +1 m i
)( x
t
i +1 m
)
t
∑ p (m x ,θ )
EM算法的性质
EM算法具有收敛性; EM算法只能保证收敛于似然函数的局 部最大值点(极值点),而不能保证收 敛于全局最优点。
贝叶斯估计的一般理论
由于参数矢量θ是一个随机变量,所以类 θ 条件概率可以用下式计算:
p ( x D ) = ∫ p ( x, θ D ) dθ = ∫ p ( x θ ) p ( θ D ) dθ
根据贝叶斯公式,有:
p (θ D ) =
∫ p ( D θ ) p ( θ ) dθ ∫ ∏ p ( x θ ) p ( θ ) dθ
估值问题
一个HMM模型产生观察序列VT可以由下式计算:
P V T θ = ∑ P V T WrT P WrT θ
r =1
(
)
rmax
(
) (
)
rmax=MT为HMM所有可能的状态转移序列数;
P V T WrT
(
为状态转移序列 WrT 输出观察序列 V T的概率; )
P WrT θ
(
为 状态转移序列 WrT 发生的概率。 )
(
return θ = θi+1
混合密度模型
一个复杂的概率密度分布函数可以由多个 简单的密度函数混合构成:
p ( x θ ) = ∑ ai pi ( x θi ),
i =1 M
∑a
i =1
M
i
=1
最常用的是高斯混合模型(GMM,Gauss Mixture Model):
p ( x ) = ∑ ai N ( x; i , Σi )
p ( x ωi , θi )
似然函数
由独立同分布假设,样本集D出现的概率为:
p ( D θ ) = p ( x1 , x 2 ,L, x n θ ) = ∏ p ( xi θ )
i =1 n
定义对数似然函数:
l ( θ ) = ln p ( D θ ) = ∑ ln p ( xi θ )
i =1 n
3.2 贝叶斯估计
已有独立同分布训练样本集D; 已知类条件概率密度函数p(x|θ)的形式, 但参数θ未知; 已知参数θ的先验概率密度函数p(θ);
求在已有训练样本集D的条件下,类条件 概率密度函数p(x|D)。
贝叶斯估计与最大似然估计 的差别
最大似然估计认为θ是一个确定的未知 θ 矢量; 贝叶斯估计认为θ是一个随机变量,以 θ 一定的概率分布取所有可能的值。
i =1 i
p ( D θ) p (θ )
=
∏ p ( x θ)p (θ)
i =1 n i
n
单变量正态分布的贝叶斯估 计
已知概率密度函数满足正态分布,其中方 差σ2已知,均值μ未知,假设μ的先验 概率满足正态分布,即:
p(x )
N ( ,σ
2
p( )
2 N ( 0 , σ 0
) )
均值的后验概率
HMM的工作过程 的工作过程
HMM的参数表示 的参数表示
θ = ( π, A, B )
状态转移矩阵:A,M*M的方阵; 状态输出概率:B,M*K的矩阵; 初始概率:π,包括M个元素。 M个状态,K个可能的输出值。
HMM的三个核心问题 的三个核心问题
估值问题:已有一个HMM模型,其参数已知, 估值问题 计算这个模型输出特定的观察序列VT的概率; 解码问题:已有一个HMM模型,其参数已知, 解码问题 计算最有可能输出特定的观察序列VT的隐状态转 移序列WT; 学习问题:已知一个HMM模型的结构,其参数 学习问题 未知,根据一组训练序列对参数进行训练;
V = v1 , v2 ,L , vT
T
其中的vi为一个特征矢量,称为一个观 察值。
一阶Markov模型 模型 一阶
一阶Markov模型由M个状态构成,在每个时刻t, 模型处于某个状态w(t),经过T个时刻,产生出 一个长度为T的状态序列WT=w(1),…,w(T)。
一阶Markov模型的状态转移 模型的状态转移 一阶
参数的估计方法:
1.
2.
利用最优化方法直接对似然函数进行优化, 如梯度下降法; 引入未知隐变量Y对问题进行简化,将Y 看作丢失的数据,使用EM算法进行优化。
GMM模型的参数估计 模型的参数估计
首先引入隐含数据集合: Y = { y1 , y2 ,L, yn }
y 其中:i ∈ {1,L , M } 代表第i个训练样本是 由第 yi 个高斯函数产生的,将Y作为丢失 Y 数据集合,采用EM算法进行迭代估计。
最大似然估计
最大似然估计就是要寻找到一个最 优矢量 θ ,使得似然函数 l ( θ) 最大。
θ = arg max l ( θ )
θ
正态分布的似然估计
Gauss分布的参数由均值矢量μ和协方差 μ 矩阵Σ构成,最大似然估计结果为: Σ
1 n = ∑ xi n i =1
1 n t Σ = ∑ ( xi )( xi ) n i=1
第三章 概率密度函 数的参数估计
3.0 引言
贝叶斯分类器中最主要的问题是类条件概 率密度函数的估计。 问题可以表示为:已有c个类别的训练样 本集合D1,D2,…,Dc,求取每个类别的 类条件概率密度 p ( x ωi ) 。
概率密度函数的估计方法
参数估计方法:预先假设每一个类别的概 率密度函数的形式已知,而具体的参数未 知;
θ
i 1
)
基本EM算法 算法 基本
1.
begin initialize θ0,T,i
0;
2. 3. 4. 5. 6.
do iБайду номын сангаасi+1
until Q ( θi+1 θi ) Q ( θi θi 1 ) ≤ T
) M步: = arg max Q ( θ θ ) θ
E步:计算 Q θ θi 1 ;
i θ i 1
π = (π 1 ,L, π M )
a11 a 21 A= M a M1
a12 a22 M aM 2
L a1M L a2 M O M L aMM
一阶Markov模型输出状态序 模型输出状态序 一阶 列的概率
模型输出状态序列的概率可以由初始状态 概率与各次状态转移概率相乘得到。 例如:W5=w1, w1, w3, w1, w2,则模型输出 该序列的概率为:
2 2 2 1 σ 2 +σ 2 σ n x + σ n n f (σ ,σ n ) = ∫ exp du 2 2 2 2 σ +σn 2 σ σn
3.3期望最大化算法 期望最大化算法(EM算法 算法) 期望最大化算法 算法
EM算法的应用可以分为两个方面:
1.
训练样本中某些特征丢失情况下,分 布参数的最大似然估计; 对某些复杂分布模型假设,最大似然 估计很难得到解析解时的迭代算法。
i =1 M
GMM模型产生的 维样本数据 模型产生的2维样本数据 模型产生的
两个高斯函数的混合
p ( x ) = 0.7 N ( 10, 2 ) + 0.3N (5,3)
混合密度模型的参数估计
混合密度模型的参数可以表示为:
θ = ( a1 , a2 ,L, aM , θ1 , θ 2 ,L, θ M )
隐含Markov模型 (Hidden Markov Model, HMM)
有一些模式识别系统处理的是与时间相 关的问题,如语音识别,手势识别,唇 读系统等; 对这类问题采用一个特征矢量序列描述 比较方便,这类问题的识别HMM取得 了很好的效果。
输入语音波形
观察序列
信号的特征需要用一个特征矢量的序列 来表示:
模型在时刻t处于状态wj的概率完全由t-1时刻 的状态wi决定,而且与时刻t无关,即:
P w(t ) W
(
T
) = P ( w ( t ) w ( t 1))
P w ( t ) = ω j w ( t 1) = ωi = aij
(
)
Markov模型的初始状态概率 模型的初始状态概率
模型初始于状态wi的概率用 π i 表示。 完整的一阶Markov模型可以用参数 θ = ( π, A ) 表示,其中:
1 2 1 n = exp 2πσ n 2 σn
均值的后验概率
均值的后验概率仍满足正态分布,其中:
1 n n = ∑ xi n i =1
2 nσ 0 σ2 n = 2 + 2 0 2 n 2 nσ 0 + σ nσ 0 + σ
σ σ σ = nσ + σ 2
P V T θ = ∑ π wr (1)bwr (1) ( v (1) ) awr (1)wr ( 2)bwr ( 2) ( v ( 2 ) )Lawr (T 1) wr (T ) bwr (T ) v (T )
基本EM算法 算法 基本
由于Y未知,因此我们需要寻找到一个在Y 的所有可能情况下,平均意义下的似然函 数最大值,即似然函数对Y的期望的最大 值:
Q ( θ θi 1 ) = EY l ( θ X, Y ) X, θi 1
= EY
i
( ) ( ln p ( X, Y θ ) X, θ )
i 1
θ = arg max Q ( θ θ
估值问题的计算
P WrT θ = π wr (1) awr (1)wr ( 2) awr ( 2) wr ( 3) L awr (T 1)wr (T )
P V T WrT
(
(
) ) = b ( ) ( v (1)) b ( ) ( v ( 2 ))Lb ( ) ( v (T ) )
wr 1 wr 2 wr T
2.
基本EM算法 算法 基本
令X是观察到的样本数据集合,Y为丢失的 数据集合,完整的样本集合D=XUY。
p ( D θ ) = p ( X, Y θ )
由于Y未知,在给定参数θ时,似然函数 θ 可以看作Y的函数:
l ( θ ) = l ( θ D ) = l ( θ X, Y ) = ln p ( X, Y θ )
最大似然估计(MLE, Maximum Likelihood Estimation); 贝叶斯估计(Bayesian Estimation)。
非参数估计方法。
3.1 最大似然估计
样本集D中包含n个样本:x1,x2, …, xn, 样本都是独立同分布的随机变量(i.i.d, independent identically distributed)。 对类条件概率密度函数的函数形式作出假设, 参数可以表示为参数矢量θ: θ
相关文档
最新文档