模式识别-4-概率密度函数的估计

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

定，而必须从平均和方差的角度出发进行分析，即关于估计量性质的定义。
§4-2参数估计理论
一．极大似然估计
假定：
①待估参数θ是确定的未知量 ②按类别把样本分成M类X1，X2，X3，… XM
其中第i类的样本共N个
Xi = (X1,X2,… XN)T 并且是独立从总体中抽取的
③ Xi中的样本不包含 j (i≠j)的信息，所以可以对每一
第四章概率密度函数的估计
❖ 概率密度估计的基础知识 ❖ 参数估计理论
– 极大似然估计（MLE） – 贝叶斯估计（或称最大后验估计） – 贝叶斯学习
❖ 非参数估计理论
– 密度估计 – Parzen窗估计 – K近邻估计（KNE）
§4-1 概率密度估计的基础知识
贝叶斯分类器中只要知道先验概率、条件概率或分后类验器概了概。率现在P(来ωi)研,P究(x/如ωi)何, P用(ω已i /知x)训就练可样以本设计的信息去估计P(ωi),P(x/ωi), P(ωi /x) 一．参数估计与非参数估计
类样本独立进行处理。
④ 第i类的待估参数 i (1, 2,... p)T
根据以上四条假定，我们下边就可以只利用第i类学习样本来估计第i类的概率密度，其它类的概率密度由其它类的学习样本来估计。
1.一般原则：
第i类样本的类条件概率密度：
P(Xi/ωi)= P(Xi/ωi﹒θi) = P(Xi/θi) 原属于i类的学习样本为Xi=(X1 , X2 ,…XN,)T i=1,2,…M 求θi的极大似然估计就是把P(Xi/θi)看成θi的函数，求
非监督参数估计：已知总体概率密度函数形式但未知样本所属类别，要求推断出概率密度函数的某些参数，称这种推断方法为非监督情况下的参数估计。
注：监督与非监督是针对样本所属类别是已知还是未知而言的。
三. 参数估计得基本概念
1. 统计量：样本中包含着总体的信息，总希望通过样本集把有关信息抽取出来。也就是说，针对不同要求构造出样本的某种函数，该函数称为统计量。
数值，该数值就称为θ 的估计值。
4. 区间估计：除点估计外，还有另一类估计问题，要求用
区为间置信d1区, d2间作，为该类可估能计取问值题范称围为得区一间种估估计计。，此区间称
5. 参数估计方法：参数估计是统计学的经典问题，解决方法很多，在此只考虑两种常用方法：一种是最大似然估计方法，另一种是贝叶斯估计方法。
(1) 最大似然估计：把参数看作是确定而未知的，最好的估计值是在获得实际观察样本的最大的条件下得到的。
(2)贝叶斯估计：把未知的参数当作具有某种分布的随机变量，样本的观察结果使先验分布转化为后验分布，再根据后验分布修正原先对参数的估计。
6. 参数估计的评价：评价一个估计的“好坏”，不能按一
次抽样结果得到的估计值与参数真值的偏差大小来确
这说明未知均值的极大似然估计正好是训练样本的算术平均。
② ∑， μ均未知
A. 一维情况：n=1对于每个学习样本只有一个特征的简单
情况：
1
1,
2
2 1
log
P(
X
k
|
i)
1 2
log
2
2
1
2
2
Xk
2
1
(n=1)由上式得
N
代入
k 1
1
log
P(X k
| i)
N1 (X
k 1 2
k
1)
0
1
...
p
N k 1
log
P( X
k
|
i)
0
P(Xi/θi)
N k 1
1
logP(
X
k
|
i)
0
.........
.........
N k 1
p
logP(
X
k
|
i)
0
利用上式求出 i的估值，即为 i＝
有时上式是多解的, 上图有5个解,只有一个解最大即.
2. 多维正态分布情况
① ∑已知, μ未知,估计μ
N
k 1
2
log
P( X
k
| i)
N
[
k 1
1
2 2
(X k 1)2]
2
2 2
0
1 1
1 N
N k 1
Xk
即学习样本的算术平均
2
2 1
1 N
N k 1
2
Xk
样本方差
❖ 讨论：
1.正态总体均值的极大似然估计即为学习样本的算术平均
2.正态总体方差的极大似然估计与样本的方差不同，当N较大的时候，二者的差别不大。
2. 参数空间：在参数估计中，总假设总体概率密度函数的形式已知，而未知的仅是分布中的参数，将未知参
数记为，于是将总体分布未知参数的全部可容许
值组成的集合称为参数空间，记为。
3. 点估计、估计量和估计值：点估计问题就是构造一个
统称样计本ˆ 为量观d察θ 的值x1,估，L计代, x量入N 。统作若计为量x参1id数,就Lθ得,的x到Ni估对是计于属第ˆ于，i类类在别的统ˆ计i的的学具几中体个
B．多维情况：n个特征（推导过程，作为练习）
估计值：
1
1 N
N k 1
Xk
2
1 N
N k 1
来自百度文库Xk
T
Xk
结论：①μ的估计即为学习样本的算术平均
②估计的协方差矩阵是矩阵 X k
Xk
T
的算术
平均（nⅹn阵列， nⅹn个值）
二. 贝叶斯估计
极大似然估计是把待估的参数看作固定的未知量，而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量，通过对第i类学习样本Xi的观察，
参数估计：先假定研究的问题具有某种数学模型，如正态分布，二项分布，再用已知类别的学习样本估计里面的参数。
非参数估计：不假定数学模型，直接用已知类别的学习样本的先验知识直接估计数学模型。
二．监督参数估计与非监督参数估计
监督参数估计：样本所属的类别及类条件总体概率概率密度函数的形式已知，而表征概率密度函数的某些参数是未知的。目的在于：由已知类别的样本集对总体分布的某些参数进行统计推断，此种情况下的估计问题称为监督参数估计。
P( X i | i) 服从正态分布
待估参数为 i 1
N
k1
logP(X k | ) 0
所以在正态分布时
log
P(
X
k
|
)
1 2
log[
2
n
|
|]
1 2
X
k
T
1 X k
代入上式得
N
1 X k 0
1
N
X k 0
k 1
k 1
所以，有
1
N
N
Xk
k 1
1( N X k N) 0 k 1
出使它极大时的θi值。
∵学习样本独立从总体样本集中抽取的
N
∴ P( X i | i. i) P( X i | i) P( X k | i)
k 1
N个学习样本出现概率的乘积
N
N
取对数：log P( X k | i) log P( X k | i)
k 1
k 1
对θi求导,并令它为0：