第3章-概率密度函数的估计(MABO--csu-mabo--2015-04-01-21,22,04)

合集下载

第三章概率密度函数的估计

当 0 ≤ x ≤ θ 时， p (x | θ ) = 的最大似然估计是
解：定义似然函数 l (θ ) =
k
1
θ
，否则为0。证明θ
max x k 。
∏ p (x
k =1
N
k
|θ )
1 dH = 0，即 − N ⋅ = 0 H (θ ) = ln l (θ ) = − N ln θ ，令 dθ θ 方程的解 θ ＝ ∝ ，但实际问题中，θ ≠∝ 。 1 已知有N个随机样本，且 0 ≤ x ≤ θ 时， p (x | θ ) =

参数估计中的基本概念统计量参数空间点估计、估计量和估计值区间估计参数估计判断标准无偏性有效性一致性

3.2最大似然估计
（1）前提假设

参数θ（待估计）是确定（非随机）而未知的量样本集分成c类，为A1，A2，…，Ac，Aj的样本是从概率密度为 p x | ω j 的总体中独立抽取出来的。
i =1 i =1 i =1 i =1
N
(
)
N
N

例3.2：设x服从正态分N(μ,σ2)，其中参数μ、 σ2未知，求它们的最大似然估计量。
N
解：设样本集 A = {x1 , x2 ,..., xN }，定义似然函数 l (θ ) = ∏ p(xi | θ )
i =1 2 ⎧ ⎡ ( xi − μ ) ⎤ ⎫ ⎪ ⎪ 1 exp⎢− H (θ ) = ln l (θ ) = ∑ ln p (xi | θ ) = ∑ ln ⎨ ⎥⎬ 2 2σ ⎪ i =1 i =1 ⎣ ⎦⎪ ⎭ ⎩ 2π σ 2 N ⎧ ⎫ ( ) x − 1 1 μ 2 i = ∑ ⎨− ln 2π − ln σ − ⎬ 2 2 2σ i =1 ⎩ 2 ⎭ N N 2

03概率密度函数的估计

参数估计
• 在一般的监督模式识别中，估计各个类别的先验概率并不会遇到太大的困难，但估计类条件概率密度确实是。
– 样本数目太少 – 特征向量维数太高时问题更严重
• 如果我们依照常识可以知道类条件概率密度的参数形式，并能确定参数的个数，则问题的难度就会大大降低。
– 例如，我们可以假定p(x| ωi)是均值和方差分别为μi和 i 的正态分布。这样，估计概率密度函数的问题就变成了估计参数μi和 i 的问题。
最大似然估计 vs 贝叶斯估计
• 另外一个因素是我们对先验知识，比如对p(x|θ) 的参数形式的确信程度
– 最大似然解必须具有我们假定的参数形式，但贝叶斯方法却不然。一般来说，贝叶斯方法更多地利用了问题的相关信息，如果这些信息是可靠的，那么贝叶斯方法会给出更好的结果。 – 最大似然方法可以看成贝叶斯方法的特殊情形，即先验知识是均匀分布的 – 贝叶斯方法可以更多地显示估计的精度与方差之间的平衡随训练样本数量的变化（这一点对于机器学习理论非常重要）
k 1
• 因此，最大似然估计的解的必要条件是
l 0. (*)
最大似然解
• 方程(*)的解可能是一个全局最大值，也可能是局部极大极小值，还可能是l(θ)的一个拐点。此外，还要检查最大值是否会出现在参数空间的边界上。 • 方程(*)的解只是一个估计值，只有在样本数趋于无限多的时候它才会接近真实值
– 估计条件概率密度p(x| ωi) – 直接估计后验概率P(ωi | x)
3.2最大似然估计
• 最大似然估计具有很好的性质
– 样本数目增加时总是具有很好的收敛性
• • • • 渐近无偏的渐近一致性渐近高效的（可以达到Carm-Rao下界）极限分布是高斯分布（中心极限定理）

概率密度函数估计

期望风险：
R Ed

(ˆ, ) p(x, )ddx

(ˆ, ) p( | x) p(x)ddx
Ed
R(ˆ | x) p(x)dx Ed 其中，x Ed ，
条件风险： R(ˆ | x) (ˆ, ) p( | x)d
xEd

X
k

T
1 X k
代入上式得
N
1 X k 0
k 1
1
N
X k 0
k 1
所以
1( N X k N ) 0
k 1

1 N
N
Xk
k 1
这说明未知均值的最大似然估计正好是训练样本的算术
平均。
如果必要条件有多解则需从中求似然函数最大者若不满足条件则无一般性方法用其它方法求最大以均匀分布32最大似然估计maximumlikelihoodestimation正态分布下的最大似然估计示例以单变量正态分布为例样本集似然函数32最大似然估计maximumlikelihoodestimation对数似然函数最大似然估计量满足方程32最大似然估计maximumlikelihoodestimation得方程组未知估计服从正态分布所以在正态分布时待估参数为代入上式得所以这说明未知均值的最大似然估计正好是训练样本的算术平均
非参数方法 (nonparametric methods)
不假定数学模型，直接用已知类别的学习样本的先验知识直接估计数学模型。
二．监督学习与无监督学习监督学习：在已知类别样本指导下的学习和训练，
参数估计和非参数估计都属于监督学习。
无监督学习：不知道样本类别，只知道样本的某些信息去估计，如：聚类分析。

数学]第3章概率密函数估计西安电子科技大学

p(x|ωi)和P(ωi)。根据概率密度函数形式是否已知, 概率密度函数估计分为
参数估计和非参数估计。
第3章概率密度函数估计
(1) 参数估计就是在已知概率密度函数的形式, 但其中的某些参数是未知的情况下, 利用样本集对概率密度函数的某些参数进行估计。例如, 若p(x|ωi)是均值为μi, 协方差矩阵为Σi的正态分布, 那么只需要估计μi和Σi。参数估计的方法很多, 大致可以分为确定性参数估计方法与随机参数估计方法。确定性参数估计方法把参数看做确定而未知的, 典型方法为最大似然估计。随机参数估计方法把未知参数当做具有某种分布的随机变量, 典型方法为贝叶斯估计。
)R(l)
第3章概率密度函数估计
显然, Rˆ1 (l) 是R(l)的无偏估计; Rˆ 2 (l) 是R(l)的有偏估计, 但 Rˆ 2 (l) 是R(l)的渐进无偏估计, 即
lim
N
E
Rˆ2
(l)
R(l)
虽然 Rˆ1 (l) 是R(l)的无偏估计, 而 Rˆ 2 (l) 是R(l)的有偏估计(但渐进无偏), 但是, 估计 Rˆ1 (l) 中分母与l有关, 因此, 一般使用 Rˆ 2 (l) , 而不用 Rˆ1 (l) 。
第3章概率密度函数估计
2. Cramer-Rao下界(估计的方差性质)
除了偏差以外, 一个估计的基本特性还体现在方差上。
一般地, 要得到精确的方差是比较困难的, 人们希望得到方
差可能达到的下界。下面的定理3.1表明, 无偏估计的方差

存在一个下界, 常称为Cramer-Rao下界。
l)
第3章概率密度函数估计
Rˆ2 (l)
1 N
N l t 1

概率密度函数估计.

ˆ d ( x , x ,, x ) d (X )。称作最大似然估计量。样本集的函数，记作 1 2 N
为了便于分析，还可以定义对数似然函数 H ( ) ln l ( )。
3.2
最大似然估计(Maximum
Likelihood Estimation)
求解：若似然函数满足连续、可微的条件，则最大似然估计量就是方程
i
P(Xi/θi)
利用上式求出的估值，即为＝
i

上图有5个解,只有一个解最大即.
3.2
最大似然估计(Maximum
Likelihood Estimation)
正态分布下的最大似然估计示例以单变量正态分布为例
[1， , 2 ]T
p( x | ) 1
1，
2 2
1 x 2 exp 2 2
样本集
X x1 , x2 ,, x N
l ( x ) p ( X | ) p ( xk | )
k 1 N
似然函数
3.2
最大似然估计(Maximum
dl( ) / d 0 或 dH ( ) / d 0
的解（必要条件）。若未知参数不止一个，即 [1 , 2 ,, s ]T ，记梯度算子
, , , s 1 2
T
则最大似然估计量的必要条件由S个方程组成：
似然函数（likelihood function）
l ( ) p( X | ) p( x1 , x2 ,, x N | ) p( xi | )
i 1 N
—— 在参数下观测到样本集 X 的概率（联合分布）密度

3概率密度函数的估计

18
贝叶斯估计(II)
损失函数定义为误差平方：
贝叶斯估计
2 ˆ ˆ ( , ) ( )
ˆ | x) R( ˆ, ) p( | x )d (

[ E ( | x )] p( | x )d
2

ˆ]2 p( | x )d [ E ( | x )
T
第三章概率密度密度的估计
15
3.2.2 贝叶斯估计-最大后验概率
用一组样本集K={x1,
x2 ,…, xN}估计未知参数θ 未知参数θ 视为随机变量，先验分布为 p(θ )，而在已知样本集K出现的条件下的后验概率为p(θ |K) 最大后验概率估计-Maximum a posteriori (MAP)
的估计量ˆ d (x1 , x 2 ,..., x N ) d ( K )
是样本集的函数，它对样本集的一次实现称为估计值
第三章概率密度密度的估计
x2
9
估计量的评价标准
估计量的评价标准：无偏性，有效性，一致性无偏性：E( ˆ )=θ
有效性：D( ˆ )小，估计更有效 ˆ 依概率趋于θ：一致性：样本数趋于无穷时，
N
k
第三章概率密度密度的估计
23
一元正态分布方差的估计
最大似然估计
1 ( xk 1 )2 ln p( xk | 1 , 2 ) 2 2 22 22
代入前式,得
ˆ
2 ML
1 N
( x
k 1
N
k
ˆ)
2
第三章概率密度密度的估计
24
多元正态分布参数最大似然估计
对数(loglarized)似然函数：

第三章概率密度函数的参数估计

均值的后验概率
均值的后验概率仍满足正态分布，其中：
1 n n = ∑ xi n i =1
2 nσ 0 σ2 n = 2 + 2 0 2 n 2 nσ 0 + σ nσ 0 + σ
σ σ σ = nσ + σ 2
2 n 2 0 2 0 2
均值分布的变化
类条件概率密度的计算
p ( x D) = ∫ p ( x ) p ( D) d
模型在时刻t处于状态wj的概率完全由t-1时刻的状态wi决定，而且与时刻t无关，即：
P w(t ) W
(
T
) = P ( w ( t ) w ( t 1))
P w ( t ) = ω j w ( t 1) = ωi = aij
(
)
Markov模型的初始状态概率模型的初始状态概率
模型初始于状态wi的概率用 π i 表示。完整的一阶Markov模型可以用参数 θ = ( π, A ) 表示，其中：
3.0 引言
贝叶斯分类器中最主要的问题是类条件概率密度函数的估计。问题可以表示为：已有c个类别的训练样本集合D1，D2，…，Dc，求取每个类别的类条件概率密度 p ( x ωi ) 。
概率密度函数的估计方法
参数估计方法：预先假设每一个类别的概率密度函数的形式已知，而具体的参数未知；
最大似然估计(MLE, Maximum Likelihood Estimation)；贝叶斯估计(Bayesian Estimation)。
p ( x θ ) = ∑ ai pi ( x θi ),
i =1 M
∑a
i =1
M
i
=1
最常用的是高斯混合模型(GMM，Gauss Mixture Model)：

第三章-第二部分-概率密度函数估计(1)

的的似然函数。
似然函数：N个随机变量 x1 , x2 ,, xN 的似然函数是N个随机变量的联合密度 l ( ) p( | ) p( x1, x2 ,, xN | ) ，这
个密度可以看成是的函数。具体地说，若 x1 , x2 ,, xN 是独立的抽自密度 p( | ) 总体的样本，那么似然函数就是：
^
1 N 1 N

x
k 1 N k 1
N
k
T ( x ) ( x ) k k
是均其中， xk为多元正态分布总体中第 K个抽样，是d维向量，的最大似然估计，是协方差矩阵的最大似然估计。值向量的最结论：均值向量的最大似然估计是样本均值。协方差矩阵 T 大似然估计是N个矩阵( xk )(xk ) 的算术平均。

Parzen 窗窗法非参数估计 --Parzen
21
Parzen 窗窗法非参数估计 --Parzen
22
Parzen 窗窗法非参数估计 --Parzen
23
Parzen 窗窗法非参数估计 --Parzen
24
Parzen 窗窗法非参数估计 --Parzen
二维平面:
正方形
三维空间:
Parzen 窗窗法非参数估计 --Parzen
每个邻域样本点数量该类所有样本点数量
概率密度估计
体积
28
非参数估计--Parzen窗法
用Parzen窗法估计单变量正态分布的实验
非参数估计--Parzen窗法
用Parzen窗法估计两个均匀分布的实验
非参数估计--Parzen窗法

密度函数估计

参数的后验分布密度
p( | ) p( ) p( | ) N p( | ) p( )d
N N
由于
p( | ) p( xN | ) p(
N
N 1
| )
p( | ) p( | ) p( )
N N
可得如下递推公式
N
p( xN | ) p( | ) p( | ) p( xN | ) p( |N 1 )d
i 1
N
利 |) p(| ) p( )d

参数的贝叶斯估计量为

E | p( |)d
3.3.2 贝叶斯学习
样本的概率密度函数为
p(x |) p(x | ) p( |)d

最大似然估计量
ˆ θ =d(x1 , x2 , x3 xN )
对数似然函数
H ( ) ln l ( ) ln p( xi | ) ln p( xi | )
i 1 i 1
N
N
3.2.2 似然函数的求解
只有一个待估参数
dl ( ) 0 d
dH ( ) 或 0 d
当未知参数是 = 1 , 2 S 是由多个未知参数组成的向量时，需要对的每一维分别求偏导，即用下面的梯度算子
T
, d1 d2 d S
T
来对似然函数或对数似然函数求梯度并令其等于零。
l ( )=0或 H ( )=0
X下，贝叶斯估计量

是在给定 x 下的条件期望。

E | x p( | x)d

综上所述，在最小平方误差损失函数下，贝叶斯估计步骤：根据对问题的认识确定

概率密度函数的估计

ˆ H ) ( ˆ ) p( H ) d R ( H x1 , x2 ,…， x N R ( i x ) ( i , j ) P( j x )
j 1 c

i 1, 2,, c
ˆ H) R ( 考虑到 H 的各种取值，我们应求在空间中的期望， N E d E d E d 。
p ( x H ) p ( x , H )d

在已知的条件下， H 对 x 已不具有什么信息
p ( x , H ) p ( H )d p ( x ) p ( H )d
返回本章首页
第3章概率密度函数的估计
p ( x H ) p ( x ) p ( H )d
返回本章首页
第3章概率密度函数的估计
参数估计——包括监督参数估计和非监督参数估计监督参数估计——样本所属的类别及类条件总体概率密度函数的形式为已知，而表征概率密度函数的某些参数是未知的非监督参数估计——已知总体概率密度函数的形式但未知样本所属类别，要求推断出概率密度函数的某些参数参数估计的方法——最大似然估计和Bayes估计
第3章概率密度函数的估计
第3章
概率密度函数的估计
3.1 最大似然估计 3.2 Bayes估计和Bayes学习 3.3 正态分布的监督参数估计 3.4 非监督参数估计 3.5 总体分布的非参数估计
第3章概率密度函数的估计
在上一章，我们介绍了先验概率和类条件概率密度函数已知时，怎么去设计一个最优分类器，但是在一般的模式识别问题中，要知道所讨论问题的全部概率结构是不大可能的。通常对于研究的问题只有一些一般性的、模糊的知识。可能有的就是一些样本了。现在的问题就转变为如何利用上述信息去对概率总体作出估计，从而进一步设计出分类器。在模式识别问题中，先验概率的估计并不困难，困难的是类条件概率密度函数的估计，包括形式和参数两方面的问题。形式已知的称为参数估计，未知的称为非参数估计。

机器学习与模式识别-第3章_概率密度函数的估计

概率密度函数的估计
设计贝叶斯分类器
第一步, 利用样本集估计
p( x i )
和 P(i )
ˆ ( ) ˆ ( x i ) 和 P 分别记为 p i
第二步, 将估计量代入贝叶斯决策规则中是否能达到理论结果?
N
时
ˆ ( x i ) 收敛于 p( x i ) p
ˆ ( ) P i
收敛于
2 ˆ ˆ ( , ) ( )
定理: 如果损失函数为二次函数,即
2 ˆ ˆ ( ) ( )
则

ˆ 为在给定x时的贝叶斯估计量

的条件期望，即
ˆ E[ x] p( x)d

参数估计问题: 设有一个样本集
,要求我们找出估计量 ˆ 用来估计所属总体分布的某个真实参数使带来的
3.2 参数估计的基本概念
(1)统计量: 样本中包含着总体的信息,针对不同要求构造出样本的某种函数,这种函数在统计学中称统计量.
(2) 参数空间: 假设总体概率密度函数形式已知,未知分布中的参数的全部可容许值组成的集合称为参数空间,记为 (3) 点估计、估计量、估计值：点估计问题就是要构造 ˆ 一个统计量 d ( x1 , x2 ,...xN ) 作为参数的估计
n T 1 1 1 P( X k | ) log[ 2 | |] X k X k 2 2
所以在正态分布时
代入上式得
X
1 k 1
N
k
0
0
X
1 k 1
N
k
所以
( X
1 k 1

结论：①μ 的估计即为学习样本的算术平均 ②估计的协方差矩阵是矩阵 X k 术平均（nⅹn阵列， nⅹn个值）

第3章概率密度函数的估计new

ˆ 一般来讲, 使似然函数的值最大的是样本 ˆ x , x , , x 的函数，记为： d ( x , x , , x )
1 2 N 1 2 N
ˆ 将 d ( x1 , x2 , , xN )称为的最大似然估计量。最大似然估计量：令( )为样本集D的似然函数， ˆ D {x , x , , x }，如果 d ( D) d ( x , x , , x )
[1 , 2 , ,S ]T
用表示梯度算子:
(3-6)
求解似然函数最大值就需要对的每一维分别求导， ,..., (3-7) S 1 对似然函数求导并令梯度等于零： l ( ) 0 H( )为对数似然函数： H( ) ln[( )] lnp(D| ) lnp(x1 ,x2 , ,xN |1 , 2 , ,S ) (3-8)
13
第3章概率密度函数估计
3.2 参数估计的基本概念
（3）点估计、估计量和估计值：点估计问题是要构造一个统计量d ( x1 ,..., xN )作为参数的 ˆ 估计, 在统计学中称为的估计量。如果x ( i ) , , x (i )是属于
1 N
类别i的几个样本观察值，代入统计量d 就得到对于第i类 ˆ 的的具体数值，这个数值在统计学中称为的估计值. （4）区间估计：除点估计外，还有另一类估计，它要求用区间(d1 , d 2 )作为
k 1
N
从： H ( ) 0
(3 -11)
的S 个方程能够获得的最大似然估计量的必要条件。 ˆ ˆ 如果式(3 -11)的解能够使得似然函数值最大，则就是的最大似然估计。
29
3.2.1 最大似然估计
需要注意的是： 1，有时式(3 -11)无唯一解。如图3.1中有5个解。虽然这 5个都是解，但有的解可能是真正的全局最大值点，也可能是局部极值点，或者还可能是函数的拐点。 2，此外，我们必须注意检查所得到的解是否位于函数 H ( )定义域的边界上。如果所有的极值解都已经求得了，我们就能确定其中必有一个是全局的最大值。然后检查确定真正的全局最优点。

概率密度函数的估计非参数估计

模式识别
第3章概率密度函数的估计
可编辑ppt
1
总体分布的非参数估计
前面的方法
密度函数的形式已知
存在问题
密度函数的形式常常未知一些函数形式很难拟合实际的概率密度
经典的密度函数都是单峰的，而在许多实际情况中却是多峰的
因此用非参数估计
可编辑ppt
2
总体分布的非参数估计
非参数估计
处理问题
直接用已知类别样本去估计总体密度分布p(x|ωi)
需要计算^p(x|ωi)的每个点的值方法
① 用样本直接去估计类概率密度p(x|ωi)以此来设计分类器, 如窗口估计
② 用学习样本直接估计后验概率p(ωi|x)作为分类准则来设计分类器如k近邻法.
本章只考虑第一种方法
可编辑ppt
3
总体分布的非参数估计
k
pˆ(x) N
V
所以如果样本有限，则估计值一定有方差。
可编辑ppt
11
总体分布的非参数估计
p(x)估计值的收敛性讨论
考虑无限多样本情况
构造一串包括x的区域序列R1,R2,…RN. 对R1采用1个样本进行估计，对R2采用2个样本进行估计， ……
VN是RN的体积，KN是N个样本落入VN的样本数则
7
总体分布的非参数估计
估计概率p(x)
密度p(x)的估计:
k pˆ ( x) N
V
(V足够小)
上式就是对x点概率密度p(x)的估计值
可编辑ppt
8
真实概率是 0.7 横坐标是k/N 纵坐标是概率分布
可编辑ppt
9
总体分布的非参数估计
p(x)估计值的收敛性讨论
当V固定的时候

模式识别课件-概率密度函数的估计

与最大似然估计同为概率密度估计中的主要参数
估计方法
结果多数情况下与最大似然估计相同
区别：
最大似然估计把待估计的参数当作未知但固定的
量
贝叶斯估计把待估计的参数也看为随机变量
贝叶斯估计和贝叶斯学习
Bayesian Learning
把贝叶斯估计的原理用于直接从数据对概率
密度函数进行迭代估计
值范围，这个区间叫置信区间，这类问题称
为区间估计。
概率密度估计的评估
如何评估概率密度估计的好坏？
单次抽样得到的估计值与真实值的偏差？
基于平均和方差进行评估较为公平！
常用标准：
无偏性
有效性
一致性
概率密度估计的评估
෡ , , … , )的数学期
无偏性：的估计量(
望是
渐进无偏：N趋于无穷时估计具有无偏性
有效性：一种估计比另一种的方差小，此种
估计更有效
对于任意正数ε，有
෡ − > ε =
lim
→∞
෡
则是的一致估计
最大似然估计
基本假设
Maximum Likelihood Estimation.
参数是确定（非随机）的而未知的量。
贝叶斯估计量
෡ 为给定x条件下估计量的期望损失，
෡
ȁ
称为条件风险
෡
定义：如果的估计量使得条件风险最小，
෡
则称是的贝叶斯估计量
贝叶斯估计和贝叶斯学习
损失函数
决策分类时我们需要事先定义决策风险表即
损失表
估计连续随机变量时我们需要定义损失函数
损失函数有许多种，最常见的损失函数为平

第3章概率密度函数的估计 ppt课件

问题假定：
①待估参数θ是确定的未知量 ②按类别把样本分成C类X1,X2,X3,… XM,
其中第i类的样本共N个,Xi = (X1,X2,… XN)T , 并且是独立从总体中抽取的
③ Xi中的样本不包含θj(i≠j)的信息，所以可根据以上假以定对，每我一们类下样边就本可独以立只进利行用处第i理类。学习样本来估计第 i④类的第概i类率的密度条，件其概它率类的的函概率数密形度式由已其知它类
实验室的研究生录取分数
不同实验室有个期望录取分数线受到往年录取成绩的影响
假设只有两个真实取值:分数高vs分数低某实验室去年都是”分数低”
同学A估计该实验室今年为"分数高“ 同学B估计该实验室今年为"分数低"
哪一个更接近于最大似然估计方法?
PPT课件
28
贝叶斯估计
问题假定：
2
需要研究的问题
研究如何用已知训练样本的信息去估计
P(ωi),P(x|ωi)
学习
分类器设计的步骤:
第一步: 利用样本集估计概率密度函数
训练
第二步: 利用概率密度函数进行分类决策
分类
PPT课件
3
贝叶斯决策理论设计分类器步骤
PPT课件
4
概率密度函数估计中的三个问题
如何利用样本估计概率密度函数估计量的性质如何利用样本集估计错误率的方法
时θ的条件期望，即

p( | x)d
PPT课件
35
贝叶斯估计
步骤
① 确定θ的先验分布p(θ),。
② 率用密样度本分布x=p(x(x1,| xθ2),，…它. x是N)Tθ求的出函样数本。的联合概

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 核函数方法
➢ Parzen窗法 ➢ kN-近邻法
• 神经网络方法：PNN
第三章概率密度函数的估计
35
概率密度估计
直方图方法
概率密度估计
核函数方法
直方图方法
现在有6个数据点：x1=-2.1, x2=-1.3, x3=-0.4, x4=1.9, x5=5.1, x6=6.2. 我们取子区间的宽度为2
进行模式识别并不需要利用概率密度的所有信息，只需要求出分类面。
先估计概率密度，再进行分类，可能走了 “弯路”。
第三章概率密度函数的估计
62
习题
设总体分布密度为N (u, 1)，−∞ < u < +∞，并设X = {x1, x2, ..., xN}，分别用最大似然估计和贝叶斯估计计算。已知u的先验分布p(u) ∼ N (0, 1)。
用贝叶斯估计方法求μ的估计量
第三章概率密度函数的估计
27
一元正态分布例解(II)
贝叶斯估计
计算μ的后验分布：
p( | K) p(K | ) p()
p( K )
N
p( xk
|
) p()
~
N
(
N
,
2 N
)
k 1
N
N
2 0
N
2 0
2
mN
2
N
2 0
2
0
2 N
02 2
N
2 0
2
计算μ的贝
叶斯估计： ˆ p( | K )d N
第三章概率密度函数的估计
5
概率密度估计的方法
类的先验概率的估计：
• 用训练数据中各类出现的频率估计 • 依靠经验
类条件概率密度估计的两种主要方法：
• 参数估计：概率密度函数的形式已知，而表征函数的参数未知，通过训练数据来估计
➢ 最大似然估计 ➢ Bayes估计
• 非参数估计：密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计
R R(ˆ | x)p(x)dx Ed
贝叶斯估计：使风险最小的估计
ˆBE argmax R(ˆ | x) ˆ
第三章概率密度函数的估计
24
贝叶斯估计(II)
贝叶斯估计
损失函数定义为误差平方： (ˆ, ) ( ˆ)2
R(ˆ | x)
(ˆ, )p( | x)d [ E( | x)]2 p( | x)d
➢ Parzen窗法 ➢ kn-近邻法
第三章概率密度函数的估计
7
3.2 参数估计
3.2 参数估计
统计量：样本集的某种函数f(K)，
K={x1, x2 ,…, xN}
参数空间：总体分布的未知参数θ所有可能取值组成的集合(Θ)
点估计的估计量和估计值：
的估计量ˆ d (x1, x2,..., xN )是样本集的函数
12
似然函数
最大似然估计
似然函数：
l(θ) p(K | θ) p(x1, x2,..., xN | θ)
N
p(xk | θ)
k 1
对数(loglarized)似然函数：
N
H (θ) ln p(xk | θ)
k 1
第三章概率密度函数的估计
13
最大似然估计
最大似然估计
θˆ ML argmax l (θ)
为保证估计依概率渐进收敛到真实的概率密度，即：
pˆ N (x) P p(x)
p( x)
估计收敛的充要条件：
lim
N
hN
0
lim
N
NhNd
hN
h1 d 1 N
第三章概率密度函数的估计
53
不同窗宽的估计效果
非参数估计
第三章概率密度函数的估计
54
Parzen窗法示例
非参数估计
第三章概率密度函数的估计
θH (θ) |ˆML θ ln p( xk | θ) |ˆML 0 k 1
1
ln
p( xk
| 1,2 )
1
2
( xk
1)
代入前式,得
ˆ ML
1 N
N
xk
k 1
第三章概率密度函数的估计
18
一元正态分布方差的估计
最大似然估计
2
ln
p( xk
| 1,2 )
1
22
( xk 1)2 222
代入前式,得
i
)
pˆ N ( X )
1 N
N 1 ( X Xi )
V i1 N
hN
49
K (x,
xi )
1 VN
(
x xi hN
)
核函数方法图解
非参数估计
第三章概率密度函数的估计
51
窗函数的选择
窗宽的选择
非参数估计
hN是控制“窗”宽度的参数，根据样本的数量选择。
• 太大：平均化，分辨力低 • 太小：统计变动大
i
i
,
2 i
,
di
T
采用迭代法进行参数估计
第三章概率密度函数的估计
34
3.3 非参数估计
非参数估计：密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计。又称作
模型无关方法。参数估计需要事先假定一种分布函数，利用样本数
据估计其参数。又称作基于模型的方法
两种主要非参数估计方法：
T
θ
1
...
s
第三章概率密度函数的估计
16
一元正态分布例解
最大似然估计
p( xk | 1 ,2 2 )
1 exp( ( xk 1)2 )
22
22
ln
p( xk
| 1,2 )
1 2
ln(22 )
1
22
( xk
1)2
第三章概率密度函数的估计
17
一元正态分布均值的估计
最大似然估计
N
是VN：
pˆ
N
(
x)
1 VN
kN N
第三章概率密度函数的估计
60
kN-近邻法举例
非参数估计
kN的选择：
• 渐进收敛容易保证；
• 有限样本性质、最小平方误差与 Parzen窗几乎相同
第三章概率密度函数的估计
61
3.4 讨论
概率密度函数包含了随机变量的全部信息，是导致估计困难的重要原因。
高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。
最大后验概率估计-Maximum a posteriori (MAP)
ˆMAP argmax p( | K )
argmax p(K | ) p( )
p(K )
argmax p(K | ) p( )
第三章概率密度函数的估计
22
决策问题与估计问题
贝叶斯估计
决策问题: 样本x 决策ai 真实状态wj 状态空间A是离散空间先验概率P(wj)
基于样本的直接确定判别函数方法
第三章概率密度函数的估计
3
基于样本的Bayes分类器设计
Bayes决策需要已知两种知识：
• 各类的先验概率P(ωi)
• 各类的条件概率密度函数p(x|ωi)
P(i | x)
p(x | i )P(i ) p(x | j )P(j )
j
知识的来源：对问题的一般性认识或一些训练数据
模式识别
Pattern Recognition
第三章概率密度函数的估计
第三章概率密度函数的估计
3.1 引言 3.2 参数估计 3.3 非参数估计 3.4 讨论
3.1 引言
分类器
x1
g1
功能结构
x2
g2
.
.
.
.
.
.
xn
gc
MAX
a(x)
基于样本的Bayes分类器：通过估计类条件概率密度函数，设计相应的判别函数
直方图方法
利用直方图估计密度函数还是有不完美的： 1 密度函数是不平滑的 2 密度函数受子区间宽度影响很大，如果我
们取0.5，5等构造出的密度函数显然与宽度取2的有很大差异。 3 当数据维数是1，2维情况下，直方图的使用是很普遍的，但是在数据维数再增加时，这种方法就有局限性了。
两种选择方法:
基于样本的两步Bayes分类器设计
• 利用样本集估计P(ωi)和p(x|ωi)
• 基于上述估计值设计判别函数及分类器
面临的问题：
• 如何利用样本集进行估计 • 估计量的评价
第三章概率密度函数的估计
4
基于样本的Bayes分类器
训练样本集
样本分布的统计特征：
概率密度函数
决策规则：判别函数决策面方程
第三章概率密度函数的估计
28
贝叶斯学习
i贝叶斯学习的本质：参数值随着样本增多趋近于真实值的过程
3.2.3 混合高斯模型
参数估计
Mixed gaussian distribution
密度函数具有如下形式：正态模型的线性组合
D
p(x | i )
dij
N
(ij
,
2 ij
)
j 1
需估计的参数：
p( | K ) p(K | ) p( )
p(K | ) p( )d
4、计算贝叶斯估计
ˆBE
p( | K )d
26
一元正态分布例解
贝叶斯估计
总体分布密度为：
p(x | ) ~ N (, 2)
均值μ未知，μ的先验分布为：
p()